AC44

Anuncio
V CONGRESO CHILENO DE INVESTIGACIÓN OPERATIVA ‘Optima 2003’–
VALPARAÍSO 2003-CHILE
DISEÑO DE UN DATA MART Y APLICACIÓN DE DATA MINING EN LA DETECCIÓN DE
FRAUDES PARA LA COMPAÑÍA GENERAL DE ELECTRICIDAD S.A.
Daniel Ortega y Richard Weber
Departamento de Ingeniería Industrial
Universidad de Chile
Santiago, Chile.
RESUMEN
Este trabajo se centró en el problema de las pérdidas no técnicas, esto debido a
que se generan casi exclusivamente por el llamado hurto de energía en los suministros y
por errores propios de administración por parte de la empresa. En este caso, se
estudiarán posibles aplicaciones de herramientas Data Mining para encontrar reglas y
patrones que permitan detectar posibles fraudes y/o potenciales conductas de abuso, sin
dejar de lado las otras pérdidas que son administrativas y que también podrían ser
descubiertas en el mismo proceso. Asimismo se estudiarán posibles patrones de
comportamiento que describan diferentes conductas de los servicios eléctricos.
La información utilizada para la creación de los modelos de detección y la
construcción del Data Mart, provienen de la base de datos corporativa de la empresa, la
que posee información histórica desde 1994. Esto permitió desarrollar un Data Mart para
gestionar datos y obtener índices de las facturaciones desde 1998 al 2001.
Los modelos de detección fueron construidos gracias también a la información
histórica existente acerca de suministros que habían tenido comportamiento anormal o
fraudulento en el pasado.
Con los resultados obtenidos por los dos modelos de predicción desarrollados,
existe la posibilidad de detectar en un 80% las mermas debido a las pérdidas no técnicas.
Por ello, se pretenden desarrollar informes que permitan a los establecimientos de la
Compañía, tener una herramienta metodológica adecuada, que facilite las labores de
control sobre los suministros anormales, y poder así, obtener parte de los US$ 3.000.000
que dejan de percibirse por este concepto al año.
En el futuro, lo que se pretende, es que con los informes generados en forma
bimestral a los diferentes establecimientos de la Compañía, los recursos de la revisión
sean dedicados preferentemente, a los servicios que posean mayor probabilidad de estar
con conducta anormal y con un importante monto en dinero asociado a dicha pérdida.
Las técnicas de Data Mining, son un real aporte a la búsqueda de información, ya
que representan una nueva manera de visualizar los datos, constituyendo una fuente de
exploración muy amplia, dada la variedad de formas de encontrar información escondida
en las bases de datos y al apoyo de distintas herramientas que están disponibles en el
mercado.
INTRODUCCIÓN Y OBJETIVOS
En las empresas de distribución eléctrica, las principales fuentes de pérdidas se
clasifican en las pérdidas técnicas y las no técnicas. Las pérdidas técnicas, son mermas
propias del negocio y no serán tratadas en este trabajo, ya que están relacionadas con las
tecnologías usadas en las redes de alta tensión para el transporte de la energía, desde
las generadoras hasta las empresas distribuidoras.
El presente trabajo tuvo como objetivo, desarrollar un Data Mart de Ventas y
Facturación y modelos matemáticos que permitieran detectar pérdidas no técnicas en los
suministros de distribución eléctrica.
Cómo así también poder identificar atributos relevantes que permitan detectar las
pérdidas no técnicas, modelar patrones que permitan detectar pérdidas cometidas en los
suministros de energía eléctrica y mostrar beneficios de nuevas técnicas en la detección
de pérdidas no técnicas en los suministros.
RESULTADOS
Debido a que lo que nos interesa, es poder detectar la mayor cantidad de servicios
anormales, el Modelo Mensual desarrollado, tiene un grado de precisión de cerca de un
90%, lo que es bastante bueno si pensamos que por política de la empresa se pretende
que todos los nuevos servicios que sean creados, sean facturados en forma mensual, y
que en los próximos 4 años, se puedan cambiar la mayor cantidad de servicios que
actualmente que son facturados en forma bimensual a facturaciones mensuales
Los resultados obtenidos por los modelos, son de gran impacto para la empresa,
debido a que si estimamos que en un 75 % de los casos, en promedio, se puede detectar
con precisión, los ahorros potenciales por parte de la empresa ascienden a cerca de US$
2.250.000 de los US$ 3.000.000 que no está percibiendo por este concepto. No es de
esperar que se pueda alcanzar a recuperar el total de estas pérdidas por motivo de
fraudes o errores administrativos, pero lo que se quiere, es poder acercarse lo más
posible al total, una meta que no está tan lejos de cumplirse con estos modelos.
Se puede observar que el modelo de detección de pérdidas no técnicas para
servicios con períodos de facturación mensual, es bastante preciso y entrega precisión
por sobre el 87% de los casos presentados. Como la idea de la empresa es, en un
horizonte de mediano plazo, hacer que todos los suministros sean facturados en forma
mensual, es que la impresión por parte de los ejecutivos de la empresa es de gran
conformidad con los resultados obtenidos por los modelos elaborados.
El modelo bimensual aunque presenta más casos para el entrenamiento y testeo,
no logra la precisión del modelo mensual, pero sin embargo es considerado de gran
utilidad por parte de la Compañía.
Los resultados de este modelo fueron realizados con la herramienta Data Engjne 1,
que permite al usuario calibrar casi todos los parámetros de la red neuronal, y seleccionar
la que a juicio del usuario sea la mejor.
1
Herramienta de Data Mining de MIT: Management Intelligent Technology de Alemania. www.mitgmbh.de
CONCLUSIONES
Sobre la base de haber cumplido los objetivos, tanto general como específicos de
este trabajo, se concluye que los resultados obtenidos, son de gran impacto y utilidad
para la empresa en particular y en el negocio de la distribución eléctrica.
El diseño del Data Mart para las facturaciones y ventas que la Compañía, ha
optimizado en recursos de tiempo y performance, las consultas de los usuarios, ya que la
gestión sobre datos, que siempre habían sido consultados a las bases de datos
operacional, ahora se realizan en forma permanente al modelo multidimensional de datos
desarrollado durante este trabajo.
Con los resultados obtenidos en este trabajo, se puede decir que los modelos de
detección de las pérdidas no técnicas, logran el objetivo de poder coordinar y sistematizar
el proceso de localización de estas mermas, ya ahora se tienen nuevas herramientas que
pueden ser utilizadas para lograr determinar cuáles son los suministros que tienen
conductas anormales, como también poder determinar cuáles son los que tienen una
mayor probabilidad de estar en esta situación y poder tomar medidas para remediarlas.
La herramienta de Data Mining escogida, trae implementados los modelos estándar
utilizados por las demás herramientas, en este caso la técnica empleada para el
desarrollo de esta detección, fue el de redes neuronales, debido a que trabaja bien con
gran cantidad de datos y entrega una clasificación con la probabilidad relacionada, de que
esté ocurriendo el evento en un suministro. Además facilita al usuario para la toma de
decisiones sobre las acciones que se quieren implementar, para abocarse a los
suministros con más alta probabilidad de conducta anormal y con un mayor dinero
asociado.
Los 2 modelos obtenidos para la detección de pérdidas no técnicas, entregan
resultados dispares, mientras el modelo para los servicios de facturación mensual,
entregan un buen índice de error, el otro modelo, el bimensual, es aun menos preciso que
el anterior, esto puede obedecer a que se debe calibrar de mejor manera la red, o que los
datos entregados al modelo son insuficientes para poder predecir mejor su
comportamiento. Según la opinión del autor, la segunda es la que puede explicar de mejor
manera este resultado, esto debido a que al haber menos datos para el análisis, debido a
que no se encuentran, faltan parámetros para poder caracterizar mejor un servicio.
REFERENCIAS BIBLIOGRAFICAS.
 Anahory, S.; Murray, D. (1997): “Data Warehousing in the real world” AddisonWesley. Harlow.
 Barros, O. (1998): “Tecnologías de Información y su uso en Gestión”. McGraw Hill.
Santiago.
 Cabena, P.; Hadjinian, P.; Stadler, R.; Verhees, J.; Zanasi, A. (1997):
“Discovering Data Mining from Concept to Implementation”. Prentice-Hall, Inc. New
Jersey.
 Compañía General de Electricidad S.A. (2000): “Memoria Anual CGE S.A.”.
Santiago.
 Silipo, R.; Berthold, M. (1999):”Intelligent Data Analysis, an Introduction”. Ed.
Springer-Verlag. Berlin.
 Gianotti, F.; Pedreschi, D. (2000):”Tutorial EDBT Knowledge Discovery & Data
Mining: Tools, Methods and Experiences”. University of Pisa & CNUCE-CNR.
http://www-kdd.cnuce.cnr.it/publications.html
 Han, J. ; Kamber, M. (2001): “Data Mining - Concepts and Techniques”. Morgan
Kaufmann Publishers, San Francisco.
 Segovia Cortes, Ana (2000): “Desarrollo de un Data Mart, para la Aplicación de
técnicas de Data Mining, como apoyo a la gestión de ventas de una Isapre”.
Memoria de título de Ingeniero Civil en Computación, Departamento de Ciencias de
la Computación. Universidad de Chile. Santiago.
 Two Crows Corporation (1999):”Introduction to Data Mining and Knowledge
Discovery”. 3ra Edición. http://www.twocrows.com
 Weber, R. (2000): “Data Mining en la Empresa y en las Finanzas Utilizando
Tecnologías Inteligentes”. Revista Ingeniería de Sistemas XIV, No 1, 61-78.
 Weber, R. (2001): Apunte del curso IN60E, “Aplicaciones de bases de datos
en la empresa”. http://www.dii.uchile.cl/~in65a
Descargar