“Aplicación de técnicas de minería de datos para la detección de

Anuncio
Aplicación de técnicas de minería de datos para la detección de fraude
tributario, caso de estudio Municipalidad de Apóstoles, provincia de Misiones
Universidad Nacional de Misiones
Facultad de Ciencias Exactas Químicas y Naturales
Tesis de grado Licenciatura en Sistemas de Información
“Aplicación de técnicas de minería de datos para la detección
de fraude tributario, caso de estudio Municipalidad de
Apóstoles, provincia de Misiones”
Autor: ASC Facundo José Yatchesen
Tutor: Dr. Horacio Daniel Kuna (UNaM)
Co-tutor: Dr. Ramón García Martínez (UNLa)
Co-tutora: CPN María Eugenia Safrán (UNaM)
Año 2015
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio Municipalidad de
Apóstoles, provincia de Misiones
“Hay tres caminos que llevan a la sabiduría: la imitación, el mas sencillo; la reflexión, el más
noble; y la experiencia, el más amargo”
Confucio
II
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio Municipalidad de
Apóstoles, provincia de Misiones
Resumen
La minería de datos (MDD) se constituye como una alternativa altamente viable para la
detección de fraude tributario, permitiendo minimizar el coste de recursos asociados,
principalmente en las etapas iniciales del proceso, acotando el espectro de casos que requieren un
estudio de mayor profundidad. Sin embargo las municipalidades de pequeño y mediano tamaño
tienen particularidades en cuanto a la disponibilidad de cantidad, calidad y fuente de datos , como
así también en lo referente a los recursos para afrontar la utilización de esta alternativa. En este
trabajo se plantean una serie de consideraciones formuladas a partir del estudio de un caso
particular de detección de fraude mediante la aplicación de técnicas de MDD, sobre un municipio
de mediano tamaño de la provincia de Misiones, República Argentina.
Palabras clave: minería de datos, CRISP-DM, fraude tributario, clustering,
contribuyentes, municipalidad
III
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio Municipalidad de
Apóstoles, provincia de Misiones
Abstract
Data mining (MDD) is established as a highly feasible to detect tax fraud alternative ,
allowing to minimize the cost associated resources, mainly in the initial stages of the project
quoting the spectrum of cases that require further study. However municipalities small and medium
size have particularities concerning the availability of quantity, quality and source of data , as well
as regarding the resources to address the use of this alternative. This paper raises a number of
considerations made from the study of a particular case of fraud detection by applying MDD
techniques on a medium sized town in the province of Misiones, Argentina.
Keywords: data mining, CRISP-DM, tax fraud, clustering, taxpayers, municipality
IV
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio Municipalidad de
Apóstoles, provincia de Misiones
Agradecimientos
A mi familia por el apoyo en todos estos años y en especial a Melanie por ser mi compañera de
camino en todo momento.
A la sede de Apóstoles de la Facultad de Ciencias Exactas, Químicas y Naturales, Universidad
Nacional de Misiones, por haberme permitido formarme como profesional y en particular al Dr.
Horacio Daniel Kuna por su orientación, paciencia y confianza.
A todos los colegas con los que he tenido el privilegio de trabajar a lo largo de estos años.
VI
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio Municipalidad de
Apóstoles, provincia de Misiones
Indice
Capitulo 1: Introducción.....................................................................................................................13
1.1 Introducción.............................................................................................................................14
Capitulo 2: Estado del arte.................................................................................................................17
2.1 Minería de datos.......................................................................................................................18
2.2 Clasificación de técnicas de MDD ..........................................................................................22
2.3 Metodología de implementación de MDD .............................................................................24
2.4 Minería de datos y detección de fraude...................................................................................26
2.5 Técnicas de MDD aplicadas a la detección de fraude financiero............................................28
2.6 Construcción del conjunto de datos para la detección de fraude financiero aplicando técnicas
de MDD.........................................................................................................................................30
Capitulo 3: Planteamiento del problema............................................................................................33
3.1 Planteamiento del problema.....................................................................................................34
3.2 Objetivos generales..................................................................................................................34
3.3 Objetivos específicos...............................................................................................................34
Capitulo 4: Solución propuesta..........................................................................................................37
4.1 Fase I: Comprensión del negocio.............................................................................................38
4.2 Fase II: Comprensión de los Datos..........................................................................................47
4.3 Fase III: Preparación de los Datos...........................................................................................52
4.4 Fase IV: Modelado...................................................................................................................58
4.5 Fase V: Evaluación..................................................................................................................64
4.6 Fase VI: Implementación.........................................................................................................81
Capitulo 5: Conclusiones y futuras lineas de investigación...............................................................83
5.1 Conclusión...............................................................................................................................84
5.2 Futuras lineas de investigación................................................................................................85
Apéndices / Anexos............................................................................................................................87
Anexo 1: Tabla de atributos para el conjunto de datos..................................................................88
Anexo 2: Función de categorización de importes..........................................................................90
Anexo 3: Procedimiento de transformación de datos hacia el conjunto de datos..........................91
Bibliografía.......................................................................................................................................103
VIII
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio Municipalidad de
Apóstoles, provincia de Misiones
Indice de figuras
Figura 1: Diagrama de base de datos sistema de comercio................................................................42
Figura 2: Diagrama de base de datos sistema de inmuebles...............................................................44
Figura 3: Diagrama de base de datos sistema de patentes..................................................................45
Figura 4: Diagrama de base de datos sistema de padrón....................................................................46
Figura 5: Diseño tabla inm_pagos......................................................................................................48
Figura 6: Diseño tabla inm_datoscontribuyente.................................................................................49
Figura 7: Diseño tabla inm_intimaciones...........................................................................................49
Figura 8: Diseño tabla pat_pagos.......................................................................................................50
Figura 9: Diseño tabla pat_propietarios.............................................................................................50
Figura 10: Diseño tabla ccio_pagos...................................................................................................50
Figura 11: Diseño tabla ccio_pagos_detalle.......................................................................................51
Figura 12: Diseño tabla pco_entidad_personas..................................................................................51
Figura 13: Diseño tabla ccio_intimaciones_rec_deudas....................................................................52
Figura 14: Esquema de implementación del proyecto........................................................................54
Figura 15: Resultado exploración inicial - Tasa de inmueble.............................................................57
Figura 16: Resultado exploración inicial - Tasa de patente................................................................58
Figura 17: Resultado exploración inicial - Tasa de comercio.............................................................58
Figura 18: Diagrama modelo de MDD, RapidMiner v5.2.................................................................61
Figura 19: Modelo de optimización, principal...................................................................................62
Figura 20: Modelo de optimización, sub proceso bucle de parámetros.............................................62
Figura 21: Configuración de parámetros y medidas de performance disponibles.............................63
Figura 22: Resultado del proceso de optimización del parámetro k...................................................64
Figura 23: Resultado ejecución 1 - Vista texto distribución de clusters.............................................66
Figura 24: Resultado ejecución 1 - Gráfico de centroides de clusters................................................67
Figura 25: Resultado ejecución 1 - Tabla de centroides.....................................................................68
Figura 26: Resultado ejecución 1 - Vista detallada cluster_3.............................................................70
Figura 27: Indice Davies Bouldies para sub conjunto cluster_4........................................................71
Figura 28: Indice de distancia promedio dentro del cluster_4............................................................72
Figura 29: Resultado ejecución 2 - Vista texto distribución de clusters.............................................72
Figura 30: Resultado ejecución 2 - Vista gráfica de centroides de clusters.......................................74
Figura 31: Resultado ejecución 2 - Vista tabla centroides de clusters................................................75
IX
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio Municipalidad de
Apóstoles, provincia de Misiones
Figura 32: Resultado ejecución 2 - Árbol de decisión.......................................................................76
Figura 33: Indice de distancia promedio dentro del cluster_1............................................................78
Figura 34: Resultado ejecución 3 - Vista texto distribución de clusters.............................................78
Figura 35: Resultado ejecución 3 - Vista tabla centroides de clusters................................................79
Figura 36: Resultado ejecución 3 - Vista gráfica de centroides de clusters.......................................80
Figura 37: Resultado ejecución 3 - Árbol de decisión.......................................................................81
X
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio Municipalidad de
Apóstoles, provincia de Misiones
Indice de tablas
Tabla 1: Rango de categorías para los importes abonados.................................................................55
XI
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Facundo José Yatchesen
12
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Capitulo 1
Introducción
Facundo José Yatchesen
13
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
1.1 Introducción
Hoy en día los seres humanos nos encontramos rodeados por una inmensa cantidad de datos,
a tal punto de abrumarnos. Este hecho no es más que el resultado de la evolución de los gigantes
mainframes de los años sesenta, restringidos a uso exclusivamente corporativos, en lo que hoy se ha
transformado en computadoras omnipresentes, vinculadas a cada una de nuestras actividades
diarias, y sin las cuales gran parte de estas actividades no podrían ser llevadas a cabo, a tal punto
que cada una de nuestras acciones se representa en un registro de una base de datos, desde las
enfermedades que nos afectan, los detalles de nuestras llamadas telefónicas, estadísticas
gubernamentales, los hábitos de compra en el supermercado, la elección de amigos en redes
sociales, conducta financiera hasta imágenes de cuerpos astronómicos. Hoy en día, como resultado
de la evolución de los dispositivos informáticos, léase dispositivos móviles, bases de datos,
disponibilidad y velocidad de conexión a internet, redes sociales, cada una de nuestras decisiones, al
interactuar con estos elementos, es almacenada en algún registro de alguna base de datos.
Si bien la capacidad de generación de datos ha sido ampliamente expandida, la capacidad de
entenderlos no. Esta abundancia de datos ha sido ocasionalmente denominada datos ricos pero
información pobre, que se traduce en la toma de decisiones basadas no en la información que se
dispone, sino más bien en la experiencia e intuición de los responsables de las decisiones. En
algunos casos los expertos en las áreas se encargan de actualizar manualmente bases de
conocimiento que sirvan de base para la toma de decisiones, sin embargo, este es un proceso
engorroso, costoso tanto monetariamente como en tiempo, además del hecho de que puede estar
sujeto a sesgo por parte del experto. Otro inconveniente se relaciona al esfuerzo sobre humano que
supone la comprensión de tal volumen de datos sin las herramientas de análisis apropiadas, y que
deriva también en la falta de utilización de conocimiento potencialmente útil.
Existen puntos críticos relacionados a la detección de fraude mediante la aplicación de
técnicas de minería de datos: por un lado la falta de datos confiables y reales sobre los cuales se
puedan trabajar, ya que las organizaciones que son víctimas de fraude informático tienden a ocultar
cualquier tipo de evidencia que ponga de manifiesto sus debilidades y llegara a afectar su accionar;
por otro lado la falta de investigación intensiva de métodos y técnicas de minería de datos
orientados a la detección de fraude informático. Actualmente no se disponen de estudios en los que
Facundo José Yatchesen
14
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
se plantee la detección de fraude en administraciones municipales, sin embargo, existen trabajos en
los que se analizan los diferentes enfoques, técnicas innovadoras, desde los puntos críticos que
deberán tenerse en cuenta para su aplicación a la detección de fraude informático. Así en [1] se
plantea una serie de indicadores para medir la eficiencia de técnicas y métodos de minería de datos
aplicados a la detección de fraude informático, como así también conceptos relacionados, para
luego hacer una comparación de los métodos y técnicas disponibles de acuerdo al enfoque de cada
uno de ellos. En [2] se realiza un intensivo análisis de las técnicas y métodos para la detección de
anomalías desde las diferentes áreas de conocimiento, incluyendo áreas relacionadas a la minería de
datos.
En el Capitulo 2 se desarrolla el estado del arte, introduciendo conceptos y trabajos
realizados en el ámbito de la MDD y la detección de fraude, principalmente financiero.
Dentro del Capitulo 3 se lleva adelante el planteo del problema y las consideraciones
pertinentes.
El Capitulo 4 presenta la solución propuesta utilizando la metodología CRISP-DM.
Finalmente en el Capitulo 5 se plantean las conclusiones de la tesis como así también las
futuras lineas de investigación.
Facundo José Yatchesen
15
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Facundo José Yatchesen
16
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Capitulo 2
Estado del arte
Facundo José Yatchesen
17
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
2.1 Minería de datos
La industria de la tecnología de la información ha evolucionado de manera asombrosa en las
ultimas décadas, empezando con la introducción y difusión masiva de las computadoras personales
en la década del 80, hasta la actualidad con la explosión del uso de servicios relacionados a Internet
(cloud computing, teléfonos inteligentes, Voice Over IP, Software as a Service, entre otros). Hoy en
día los sistemas de información modernos, son capaces de generar volúmenes siderales de datos,
registrando los conceptos mas diversos, desde las mas triviales como el acceso a un sitio web, el
acceso a un edificio, imágenes de cámaras de seguridad, pasando por movimientos bancarios,
transacciones con tarjetas de crédito e inclusive documento y patentes generados en centros de
investigación, laboratorios, o centros de observación del espacio. La gestión de estos datos ha
acompañado esta evolución desde dos grandes ramas, por un lado las colecciones de datos, la
creación y mantenimiento de estos datos, y por otro lado el análisis y la comprensión de los
mismos. La evolución del hardware, sumada al desarrollo de software de control, trajo aparejada un
sin fin de mejoras en lo relacionado al almacenamiento y gestión de los datos, pasando de archivos
planos simples y de pequeño tamaño a complejos sistemas de gestión de base de datos, con un gran
volumen de información sobre ellos, con una gran heterogeneidad en el formato, origen y medios de
almacenamiento. Si bien la gestión eficiente de un alto volumen de información es
competitivamente ventajosa para todas las organizaciones, lo que resulta aún mas importante se
relaciona con la capacidad de transformar este marcado volumen de información en conocimiento
potencialmente útil para la toma de decisiones, disminuyendo la probabilidad de cometer errores en
el proceso decisorio aprovechando el gran activo que representa la información para la
organización. El problema que se plantea es que al contar con un alto volumen de información a
procesar, la capacidad humana se ve rebalsada, dando lugar a lo que se conoce como muchos datos
pero poco conocimiento [3], por lo que es necesaria la utilización de herramientas que permitan
automatizar este procesamiento y obtener así, en periodos de tiempo razonables, conocimiento
utilizable para la toma de decisiones, bajo esta necesidad, surge lo que se conoce como inteligencia
de negocios.
Dentro de la inteligencia de negocios se enmarca a la explotación de información [4], que
consiste en el proceso por el cual se transforma la información presente en las bases de datos en
conocimiento aplicable a la toma de decisiones; un termino similar a explotación de información
Facundo José Yatchesen
18
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
para representar la misma idea se plantea con Knowledge Discovery in Databases (KDD). La
explotación de información es un proceso que puede ser llevado a cabo manualmente a través del
análisis de expertos en el área de estudio, el principal inconveniente en que este análisis resulta
altamente costoso en términos monetarios, lento en términos de tiempo y altamente subjetivo dada
la alta influencia del factor humano [5], estos motivos provocan que el análisis manual sea
inpráctico, surgiendo la necesidad de utilizar herramientas que aporten eficiencia al proceso. La
minería de datos (MDD) constituye una de las etapas centrales del proceso de explotación de
información o KDD, en la cual se tiene como objetivo la obtención de patrones en base a los datos
disponibles; usualmente se utiliza el concepto de MDD como sinónimo del termino explotación de
información, dada la importancia que ésta aporta al proceso.
La MDD es el análisis de conjuntos de datos, generalmente de gran tamaño, para encontrar
relaciones insospechadas y para sumarizar los datos en nuevas maneras de modo que sean útiles y
comprensibles para el propietario de los datos; los resultados de este análisis dependen de la técnica
y del objetivo que se persigue, pueden convertirse en modelos o patrones, representados por
ecuaciones lineales, reglas, clusters, gráficos, árboles de decisión, patrones recurrentes en series de
tiempo, entre otros [6].
Otra definición de MDD la plantea como la extracción de información interesante, no trivial,
implícita, previamente desconocida, y potencialmente útil de grandes bases de datos [5]; otro autor
la define como el proceso de encontrar patrones, previamente desconocidos, en los datos, a través
de procesos automáticos o semi automáticos, teniendo como objetivo que estos resultados sean
potencialmente útiles para la obtención de algún tipo de ventaja, por lo general económica [7]. Para
lograr este objetivo la MDD utiliza técnicas de diferentes disciplinas, como por ejemplo, estadística,
matemática, computación gráfica, visualización de datos, inteligencia artificial, economía,
computación de alta prestación, sistemas expertos, reconocimiento de patrones, bases de datos,
ingeniería de software [5], entre otras.
Cabe aclarar que la obtención de patrones puede realizarse utilizando técnicas provenientes
de la estadística, el inconveniente que se plantea es que al contar con un volumen alto de
información esta técnicas sufren una disminución de su eficiencia; otro punto a tener en cuenta es
que el uso de la estadística implica la adecuación del conjunto de datos analizado a un modelo
matemático previamente planteado del cual se obtienen las características, mientras que con la
MDD lo que se busca es la obtención de un modelo conformado por patrones que caractericen al
Facundo José Yatchesen
19
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
conjunto de datos analizado [8]. Otra diferencia que se plantea entre la estadística y la MDD, es el
hecho de que en la MDD los datos son observacionales, es decir, son resultado de procesos ajenos
al de MDD en si, en otras palabras, fueron generados como requerimiento de otro proceso, como
por ejemplo la registración de las cobros de un determinado impuesto, mientras que en la estadística
los datos obtenidos son experimentales, es decir, se obtienen o conforman específicamente para el
análisis estadístico a través de cuestionarios, encuestas, etcetera.
Los objetivos que se pueden alcanzar a través de la ejecución de un proceso de MDD,
pueden definirse en dos grandes grupos, dependiendo ello del/de los algoritmos utilizados, por un
lado la predicción de valores, en la que se pretendes obtener valores para atributos a futuro teniendo
en cuenta el histórico de los datos y por otro la obtención de patrones que caractericen a la
información [9].
Teniendo en cuenta el objetivo de la MDD, las herramientas disponibles y los recursos que
son utilizados como materia prima para el proceso, es posible identificar a los siguientes elementos
de un sistema [3]:
•
Bases de datos, datawarehouse u otros repositorios de información: esta constituido por
todas las fuentes de información sobre las cuales se pretende aplicar algoritmos a fin de obtener
patrones; incluye bases de datos, hojas de calculo, datawarehouse, archivos de diferentes
formatos. En algunos casos es necesaria la aplicación de técnicas de limpieza e integración de
datos para que estos sean utilizables.
•
Servidor de bases de datos o datawarehouse: es el responsable de obtener los datos desde las
diferentes fuentes y, opcionalmente, transformarlo en datos utilizables por los algoritmos
seleccionados.
•
Base de conocimiento: esta conformado por una serie de lineamientos que permiten medir la
calidad de los patrones obtenidos como resultado de la aplicación de los algoritmos, puede
incluir aseveraciones de expertos en el dominio de estudio, rangos para valores, mínimos y
máximos.
•
Motor de minería de datos: consiste en una serie de módulos funcionales en los que se
implementan algoritmos de clusterizacion, descubrimiento de reglas, descubrimiento de reglas
de pertenencia a grupos, ponderación de atributos, ponderación de reglas de pertenencia a
Facundo José Yatchesen
20
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
grupos entre otros.
•
Modulo de evaluación de patrones: consiste en la utilización de la base de conocimiento
para el filtrado de patrones potencialmente útiles. Para mejorar el rendimiento del sistema es
recomendable que el modulo de evaluación se encuentre integrado al motor de minería para
minimizar la cantidad de patrones irrelevantes obtenidos de la aplicación de los algoritmos.
•
Interfaz gráfica: se encarga de la comunicación entre el usuario y el sistema de minería de
datos, debe permitir el monitoreo del rendimiento y el ajuste de los parámetros necesarios a fin
de hacer mas eficiente el sistema.
Es posible generalizar las etapas que conlleva el proceso de MDD, de la siguiente manera
[3]:
1. Integración de datos: en primera instancia los datos, materia prima del proceso, pueden
provenir de distintas fuentes, las cuales deberán ser integradas en un formato común para su
posterior procesamiento. Cabe destacar la importancia que cobra la utilización de técnicas
que permitan la limpieza de los datos con ruido o inconsistentes, para de esta manera
aumentar la eficiencia del procesamiento de los mismos. Otra de las tareas relacionadas a la
integración de datos tiene que ver con la selección de los mismos, es decir, la selección de
aquellos atributos que aportan información o que son potencialmente útiles para la obtención
de patrones, esta tarea puede ser llevada a cabo si se cuenta con el conocimiento de un
experto en el área de estudio, o puede ser resultado de la aplicación de los propios
algoritmos de MDD.
2. Transformación de datos: debido a que los algoritmos de MDD poseen requisitos en cuanto
a las características de los atributos que pueden procesar, en necesaria la transformación de
los datos integrados, para que puedan constituirse en entradas para los algoritmos a utilizar.
3. Minería de datos: constituye la etapa central del proceso, en la cual mediante la aplicación
de los diferentes algoritmos es posible la obtención de patrones en la información. La
utilización de los algoritmos dependerá directamente del/de los objetivo/s del proceso. Una
vez obtenidos los resultados de los algoritmos es importante contar con la asistencia de un
experto en el área de estudio, que aporte medidas de monitoreo de la calidad de los
resultados, tanto como criterio de parada del proceso o como herramienta para eliminar
Facundo José Yatchesen
21
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
patrones triviales para aumentar la eficiencia del algoritmo.
4. Presentación de resultados: tiene por objetivo la presentación de los resultados finales
obtenidos del proceso de MDD, se utilizan principalmente técnicas relacionadas a la
visualización de información y conocimiento, las mismas varían dependiendo del publico al
que va dirigida.
Si bien las etapas del proceso de MDD son definidas de manera secuencial, la naturaleza del
procesamiento lo hace iterativo, ya que presentar los datos al experto en el área de estudio (aunque
implique una presentación preliminar), puede resultar en una necesidad de ajuste de los datos
integrados, y esto acarrear un re procesamiento de todas las etapas, siempre teniendo como objetivo
el aumento de la eficiencia del proceso y de la calidad de los patrones obtenidos.
2.2 Clasificación de técnicas de MDD
Existen diferentes modelos aplicables dentro de procesos de MDD, en general resulta
conveniente caracterizarlos según los objetivos perseguidos por los responsables de llevarlos
adelante, este hecho no elimina la posibilidad de fusionar estos modelos heterogéneos para lograr
un objetivo mas complejo.
En el nivel de mayor abstracción las técnicas de MDD pueden
enmarcarse en dos grandes grupos, por un lado las técnicas descriptivas, las cuales buscan, como su
nombre lo indica, expresar las características del conjunto de datos a través de un modelo, el cual
sumariza las características de los datos analizados; y por el otro lado las técnicas predictivas, las
cuales tienen por objetivo, teniendo como base los datos disponibles, predecir el valor o el
comportamiento que tendrá un conjunto de datos teniendo en cuenta un rango de valores para
ciertos atributos. La principal diferencia que se plantea entre las técnicas descriptivas y las
predictivas, esta en que en las primeras el análisis no se encuentra enfocado en un atributo o
variable en particular, mientras que en las segundas si, convirtiéndose ésta en el centro del análisis.
Esta caracterización de alto nivel, resulta superficial y poco practica, por lo que es recomendable
disminuir el nivel de abstracción utilizando taxonomías que tengan en cuenta el objetivo de estas,
facilitando la elección de las mismas al momento de aplicarlas al análisis, una de las que resulta
interesante es la propuesta en [6], la cual lo plantea de la siguiente manera:
Facundo José Yatchesen
22
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
1. Análisis de datos exploratorio: consiste básicamente en técnicas que permiten explorar el
conjunto de datos disponible sin tener bases y/o ideas solidas o especificas sobre qué es lo
que se esta buscando. Estas técnicas son principalmente interactivas y visuales, las cuales
permiten proyectar los puntos del conjunto de datos en el espacio, para espacios hasta 3 o 4
variables existen técnicas simples y efectivas de visualización, pero a medida que la
cantidad de variables aumenta, resulta compleja su visualización he aquí en donde cobran
importancia las técnicas de proyección. El representar un set de datos de gran tamaño puede
resultar engorroso, e inclusive complicar la visualización y comprensión de los mismos, por
este motivo existen casos en los que resulta necesaria la sumarización o acotación del
conjunto de datos, surgiendo el riesgo de perder detalles importantes. Dentro de estas
técnicas podemos mencionar a los gráficos coxcomb, DOE scatter, autocorrelación, caja,
estrella, Weibull, Youden, entre otros.
2. Modelos descriptivos: en estas técnicas el objetivo es describir a todos los datos analizados,
para lograrlo se utilizan técnicas relacionadas a la estimación de la probabilidad de atributos,
segmentación del conjunto de datos en unidades mas pequeñas que poseen características
similares, análisis de la relación entre los atributos del conjunto de datos. Cabe aclarar que
el análisis de los resultados obtenidos mediante estas técnicas debe ser realizado por
expertos en el área de estudio, ya que a partir de esta monitorización puede ser necesario un
ajuste de los parámetros de las técnicas utilizadas, sobre todo teniendo en cuenta que para
ciertos algoritmos no existen modelos y/o técnicas formales que permitan definir de manera
única el mejor valor para todos los casos aplicables. Dentro de estas técnicas podemos
mencionar: k-means, redes SOM, k-medoids, DBSCAN, Suport Vector Clustering
estimación de densidad no paramétrica, entre otros.
3.
Modelos predictivos, clasificación y regresión: la meta en estos casos es, mediante el
análisis y modelado a partir de los datos disponibles, permitir la predicción de los valores de
ciertos atributos. En la clasificación la variable a predecir es categórica, mientras que en la
regresión la variable es cuantitativa. Dentro de este grupo podemos mencionar: arboles de
decisión, redes bayesianas, redes neuronales, regresión logística, entre las mas populares.
4. Descubrimiento de patrones y reglas: las tareas mencionadas en los tres puntos anteriores se
refieren a la construcción de modelos, en este grupo, en cambio, el objetivo es el
Facundo José Yatchesen
23
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
descubrimiento de patrones o reglas que definan el comportamiento de los datos, como así
también la relación que existe entre los datos en si. Una tarea la cual en la actualidad posee
un incipiente desarrollo y se encuentra enmarcada en este grupo de técnicas, se relaciona
con la detección de transacciones fraudulentas, la cual ha sido ampliamente estudiada en el
campo de la estadística, planteando un gran numero de desafíos, principalmente en cuanto a
la diferenciación entre aquellas transacciones fraudulentas y las verdaderas; esta tarea en
general es delegada a expertos en el área de estudio, aunque esta pericia por parte del
experto resulta prácticamente nula al analizar un gran volumen de datos.
5. Recuperación por contenido: en esta categoría se enmarcan aquellas técnicas, las cuales
parten de un patrón de información conocido y se buscan réplicas de ese comportamiento
y/o modelo en un gran volumen de datos. Este grupo posee dos grandes divisiones, por un
lado la búsqueda de patrones sobre texto y por el otro, sobre imágenes. En el primer sub
grupo, mediante la obtención de palabras claves, se buscan textos que posean ocurrencias de
estas palabras claves o combinaciones de las mismas. En el segundo sub grupo, lo que se
persigue es, partiendo de una imagen o un patrón especifico, la obtención de imágenes que
contengan este patrón, tomando como base un gran volumen de imágenes, teniendo en
cuenta, como en todos los casos, criterios de similitud.
Un punto a tener en cuenta es que si bien los objetivos de estas técnicas son claramente
diferentes, existen tareas que son comunes a todos ellos, como por ejemplo, las medidas de
adecuación del modelo a los datos, o de distancia entre el modelo y la instancia. Sumado a esto se
debe contemplar la posibilidad de aplicar sistemáticamente varias de estas técnicas para la
resolución de un problema en particular, por ejemplo, se puede en primer lugar clusterizar un set de
datos, y después indagar respecto a las reglas que hicieron que las instancias pertenezcan a cada uno
de los grupos descubiertos.
2.3 Metodología de implementación de MDD
El proceso de MDD esta constituido por una serie de tareas relacionadas lógicamente [10],
las cuales son ejecutadas sobre un conjunto de información ya existente en la organización, y que
tiene por objetivo añadir un nuevo conjunto de información de mayor valor que el conjunto inicial
Facundo José Yatchesen
24
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
[11] [12]. En el ámbito de la ingeniería de software, la utilización de modelos y metodologías se
basa en el seguimiento de proyectos de tecnología de la información para dotarlos de una alta cuota
de predictibilidad y calidad mediante la incorporación de puntos de control en las diferentes fases
que forman parte del proceso productivo, no limitándose unicamente a los productos de cada una de
estas fases, sino también a los procesos asociados a los mismos [13]. Teniendo en cuenta este
proceso ingenieril relacionado al proceso de de MDD, surge la importancia en la utilización de
metodologías que doten de mayor calidad al proceso y en consecuencia al producto obtenido de este
proceso de calidad.
En el desarrollo de software existe una gran cantidad de modelos y metodologías que tienen
por objetivo el aporte de calidad al producto a través de la mejora de los procesos, dentro de las
mismas podemos mencionar CMMI [14], COMPETISOFT [15] y MoProSoft [16]; la mejora que
aportan estos modelos es ampliamente conocida en el ámbito de desarrollo de software, el
inconveniente que se plantea es que los procesos de MDD tienen características particulares que lo
diferencian de los desarrollos de productos software, teniendo en cuenta este punto surge la
necesidad de utilizar metodologías y/o modelos específicamente destinados a procesos de MDD.
Actualmente existen tres metodologías disponibles y reconocidas en el ámbito académico e
industrial, en primer lugar P3TQ [17], SEMMA y CRISP-DM [18]; se plantea que estas
metodologías tienen una falencia en lo relacionado a las tareas de gestión del proyecto [13], esta
puede deberse a la corta evolución que han sufrido las mismas dada la novedad de los proyectos
relacionados a MDD. Estas metodologías para procesos de MDD constituyen una implementación
del proceso de KDD descripto por [5], teniendo en cuenta este concepto, a primera vista podría
decirse que la metodología CRISP-DM presenta un grado mayor de completud, ya que incorpora a
las etapas propias del proceso de MDD, las tareas pre y post proceso, en las que se trabajan las
tareas relacionadas a la comprensión del negocio y despliegue; cabe aclarar que si se realiza un
análisis mas profundo se puede observar que en SEMMA se puede integrar el desarrollo de la
comprensión del dominio de aplicación, el conocimiento previo relevante y los objetivos del usuario
final en la etapa Muestreo de SEMMA, debido a que los datos no pueden someterse a un muestreo a
menos que exista un conocimiento real de los aspectos presentados [19]. Si bien no existen
estadísticas formales que fundamenten la amplia utilización de la metodología CRISP-DM para
procesos de MDD, es una de las mas utilizadas, ya que, como se menciona anteriormente posee una
alta cuota de aportes obtenidos de la practica en la implementación de proyectos de MDD, esto
Facundo José Yatchesen
25
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
puede verse reflejado en una encuesta llevada a cabo en un sitio de Estados Unidos, en el que sobre
un total de 150 expertos en el área de MDD, se les consultó sobre la metodología que utilizan para
llevar adelante proyectos de este tipo, en la misma se ha observado que un 42% opto por CRISPDM, seguido con un 19% por metodologías propias [20].
2.4 Minería de datos y detección de fraude
El termino fraude hace referencia al abuso de los beneficios de una organización sin derivar
directamente en consecuencias legales para los autores, lo cual puede convertirse en un problema
critico si ocurre de manera recurrente o los mecanismos de prevención no son lo suficientemente
blindados ante fallos. Generalmente, el mayor esfuerzo se enfoca en brindar herramientas para el
monitoreo y chequeo de procesos, los cuales de realizarse de manera manual implica un inmenso
esfuerzo y estarían sujeto a numerosas subjetividades. Se debe tener en cuenta que es absolutamente
imposible tener la certeza respecto a la intención o legitimidad detrás de una aplicación o
transacción, lo que se busca en realidad, es acotar el espacio de aplicaciones y/o transacciones que
puedan ser fraudulentas teniendo en cuenta la evidencia obtenida mediante la aplicación de
algoritmos [1].
Cabe destacar que el aporte de la MDD a la detección de fraude no se limita únicamente el
hecho de detectar casos potencialmente fraudulentos, minimizando el espectro del conjunto de
datos, sino que también permite la obtención de patrones que describan las características de los
casos detectados, lo cual puede, con la colaboración de expertos en el área de estudio, a acotar y/o
detectar de manera mas eficiente aquellos potenciales casos fraudulentos [21].
Existe una estrecha relación entre el fraude y la detección de anomalías, ya que puede
considerarse que aquellos casos que representan operaciones fraudulentas presentan ciertas
diferencias (aunque estas se minimicen a medida que los infractores evolucionan sus técnicas) con
los operaciones normales. La detección de anomalías se refiere al problema de encontrar patrones
en los datos, los cuales se alejan del comportamiento normal o esperado del dominio estudiado;
Facundo José Yatchesen
26
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
existen variaciones en cuanto al nombre que toman estas instancias representadas por los patrones
como anomalías, outliers, observaciones discordantes, excepciones, aberraciones, sorpresas,
peculiaridades, contaminantes, entre otras [2]. La detección de anomalías no es un tema novel de
investigación, sino que se cuentan con registros de fines del siglo XIX [22], lo que ha evolucionado
y sobre en lo que actualmente se centran las investigaciones son las técnicas aplicables para su
detección, como por ejemplo la utilización de MDD. El punto de unión entre la MDD y la detección
de fraude contable o financiero, es la introducción de la MDD como una herramienta analítica
avanzada que puede asistir al auditor en la toma de decisiones al momento de detectar casos de
fraude y tiene el potencial para resolver la tan mencionada contradicción entre los efectos y la
eficiencia de la detección de fraude [23].
A simple vista se puede plantear que la detección de anomalías es simplemente aislar
aquellas instancias que no presentan las mismas características que la mayoría de las instancias
analizadas, sin embargo, esta tarea presenta una serie de desafíos que definen su complejidad [2]:
•
Definir la región “normal” de tal manera que represente a todos y cada uno de los
comportamientos normales resulta sumamente difícil, esto sumado al hecho de que la diferencia
entre el comportamiento normal y el anómalo puede ser insignificante, contribuye al hecho de
poder identificar a las instancias normales como anómalas o vice versa.
•
Cuando las anomalías son resultado de acciones maliciosas pre meditadas, los infractores
suelen adaptarse y/o evolucionar las técnicas utilizadas para cometer la irregularidad, de forma
de emular de manera casi perfecta a las instancias normales.
•
La naturaleza de los dominios de estudio es evolutiva, es decir, que a medida que va
pasando el tiempo van tomando características distintas, esto representa un desafío importante,
ya que el identificar los comportamientos normales en el presente, puede no representar las
características en el futuro. Otro punto relacionado a la naturaleza del dominio se relaciona con
la escala con la cual se miden, un valor numérico puede ser insignificante en un dominio pero
totalmente drástico en otro, he aquí la importancia en la selección de la técnica y los parámetros
disponibles para la misma.
•
La no disponibilidad de datos etiquetados, como conjuntos para entrenamiento validación
de modelos, contra los cuales pueda validarse la eficiencia de los procesos aplicados representa
otro inconveniente a solucionar.
•
Existe un inconveniente relacionado al ruido en los datos analizados, ya que los mismos
Facundo José Yatchesen
27
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
tienen a ser similares a las anomalías que se planea detectar, por lo que agrega cierta
complejidad a la tarea de limpieza de datos dado que la distinción entre datos anómalos y con
ruido resulta compleja.
El fraude en impuestos o evasión fiscal, se ha transformado en una preocupación crítica para
los administradores de organización relacionadas a la administración pública, y con mayor
intensidad en los países en vías de desarrollo [24]. La principal motivación de esta preocupación es
que los ingresos de estas organizaciones provienen del cobro de impuestos sobre bienes y
actividades, y si bien, en general, no son la única fuente de ingreso de la misma, representa un alto
porcentaje, por lo que el hecho de sufrir operaciones fraudulentas en su contra afecta directamente a
la forma en la que estas distribuyen sus recursos. Es posible divisar dos tipos distintos de utilización
fraudulenta de documentos, por un lado la material, que consiste principalmente en la adulteración
de formularios, firmas, sellos, certificados y demás documentos relacionados; y por el otro lado la
ideológica, en la que la confección de estos documentos se hace en el marco de la legalidad, pero
teniendo en cuenta datos ficticios, inventados de manera arbitraria a fin de obtener algún tipo de
beneficio.
Actualmente el volumen de información producido por las organizaciones, de las cuales no
se encuentran excluidas aquellas publicas, es extremadamente alto, y los costos asociados a las
operaciones fraudulentas son también extremadamente altos, no solo desde el punto de vista
monetario sino también desde el punto de vista social de la organización para con el medio, lo que
conlleva a que los técnicas utilizadas para su análisis deban ser altamente eficientes, que faciliten la
comprensión de los datos y de los procesos que representan [25]. Las organizaciones publicas han
ido incorporando paulatinamente procedimientos que les permitieron detectar casos fraudulentos, en
primera instancia a través de la selección casi al azar de casos, los cuales eran sometidos a un
análisis mas intensivo, pasando a la utilización de herramientas estadísticas de análisis, las cuales a
su vez luego derivaron en sistemas expertos y modelos de riesgos, incorporándose recientemente las
técnicas de MDD e inteligencia artificial, dada la creciente necesidad de dotar de mayor eficiencia y
confiabilidad al proceso de detección de fraude [26].
2.5 Técnicas de MDD aplicadas a la detección de fraude financiero
Facundo José Yatchesen
28
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
El espectro de técnicas de minería de datos es bastante amplio, por lo que enumerarlo sería
una tarea tediosa, por tal motivo, resulta conveniente acotar el estudio a las técnicas mas relevantes
para la detección de fraude en organizaciones administradoras de impuestos. En [26] se hace un
relevamiento de las técnicas de MDD usadas por organizaciones administradoras de impuestos para
la detección de fraude; entre ellas se mencionan: redes neuronales, arboles de decisión, regresión
logística, Mapas Auto Organizados (Self Organized Maps o SOM), K-Means, Support Vector
Machines (SVM), redes bayesianas, técnicas de visualización de datos, K-Nearest neighbour, reglas
de asociación, reglas difusas, cadenas de Markov, series de tiempo, regresión y simulación. Es
importante destacar la notable mejora que proporciona la utilización de tecnicas de mineria de datos
en forma combinada, para de esta manera potenciar las ventajas de las mismas y minimizar los
efectos negativos [27].
Teniendo en cuenta los obstáculos que son necesarios traspasar para la detección de fraude
se analizan las siguientes técnicas en profundidad:
•
Mapas Auto Organizados (Self-Organizing Maps o SOM [28]) constituye un método de red
neuronal con aprendizaje no supervisado, que produce como resultado un gráfico de similitud de
los datos de entrada. Consiste en un conjunto finito de modelos, que aproxima el conjunto de
datos de entrada inicial, y los modelos son asociados con nodos (neuronas) que son organizadas
en un grilla regular de dos dimensiones. Los modelos son producidos por un proceso de
aprendizaje automático que ordena las instancias sobre una grilla de dos dimensiones teniendo
en cuenta su similaridad, este algoritmos es un proceso de regresión recursivo [29]. Una ventaja
que propone SOM es que no es necesario indicar el conjunto de grupos inicial, lo que minimiza
el error aportado por procesos heurísticos en la definición inicial de grupos.
•
Neural Gas: se trata de un modelo de red neuronal que busca principalmente minimizar el
error por distorsión basándose en reglas de adaptación suaves [30]. En lugar de utilizar la
distancia |v – wi| o la del arreglo de wi's dentro de un enrejado externo, utiliza un ranking de
vecindario de los vectores de referencia w i, para el vector dado v. Esta técnica se asemeja a las
redes SOM, en el hecho de que no solo el vector de código ganador es adaptado; la diferencia
radica en que los vectores de código no son forzados a estar en una grilla, y la adaptación de
aquellos vectores de código cercanos al ganador se hace teniendo en cuenta un ranking de
Facundo José Yatchesen
29
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
distancia, así cada vez que se presenta el patrón x todo los vectores de código v j, son
ranqueados de acuerdo a su distancia a x, el mas cercano obtiene el rango mas bajo [31].
•
Arboles de decisión: un árbol de decisión es un método de aprendizaje supervisado no
paramétrico construido a partir se un set de entrenamiento que consiste en una serie de objetos,
cada uno de estos objetos es descripto por un conjunto de atributos y una etiqueta de clase, estos
atributos a su vez pueden ser ordenables o no ordenables, el método busca formar todos los
pares posibles y combinación de categorías, agrupando aquellas que se comportan de manera
similar con respecto a una variable en un grupo y manteníendolas separadas de aquellas que se
comportan de forma distinta [32].
•
Redes bayesianas [33]: estas redes son gráficos acíclicos que permiten una representación
eficiente y efectiva de la distribución de probabilidad conjunta sobre un conjunto de variables
aleatorias. Cada vértice en el gráfico representa una variable aleatoria y las lineas representan
relaciones directas entre las variables, mas precisamente, la red codifica las siguientes
sentencias de independencia condicional: cada variable es independiente de sus no
descendientes en el gráfico dado el estado de sus padres. Estas independencias son luego
explotadas pare reducir el numero de parámetros necesarios para caracterizar a una distribución
de probabilidad, a para procesar eficientemente probabilidades posteriores dada la evidencia.
Los parámetros probabilísticos con codificados en un conjunto de tablas, una para cada variable,
en la forma de distribuciones condicionales locales de una variable dados sus padres. Usando las
sentencias de independencia codificadas en la red, la distribución conjunta es unívocamente
determinada por estas distribuciones condicionales locales [34].
•
K-means: consiste en un método de particionado de datos en un conjunto de grupos
(clusters), los cuales se agrupan teniendo en cuenta un centroide, alrededor del cual se agrupan
las instancias, buscando minimizar al máximo las diferencias de las instancias dentro de un
grupo o la función de error cuadrático. El proceso se inicia asignando por medio de alguna
heurística los centroides de forma aleatoria, luego, teniendo en cuenta la segmentación
resultante de la etapa anterior calcula nuevamente los centroides para luego re evaluar las
instancias del cluster, el proceso se repite iterativamente hasta converger, lo cual ocurre cuando
no se producen cambios de cluster por parte de las instancias. Se debe tener en cuenta que el
algoritmo no asegura la obtención de un óptimo global, ya que la calidad de la solución depende
Facundo José Yatchesen
30
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
directamente de los conjuntos de grupos iniciales, es por este motivo que para la utilización de
esta técnica es recomendable varias ejecuciones variando la composición de los conjuntos
iniciales [8].
2.6 Construcción del conjunto de datos para la detección de fraude financiero aplicando
técnicas de MDD
Una de las partes fundamentales del proceso de MDD es la construcción y/o selección de los
atributos que formaran parte del conjunto de datos, sobre el cual las técnicas de MDD seleccionadas
del proceso de modelado serán aplicadas. En los casos posibles, la mejor fuente utilizable para la
creación del conjunto de datos es el datawarehouse de la organización, ya que en este reside toda la
información de las operaciones de la misma y ocasionalmente información externa, la cual puede
ser utilizada dentro del proceso de MDD. Sin embargo, en muchas ocasiones no se cuenta con un
datawarehouse sobre el cual se pueda trabajar, en estas ocasiones resulta necesario hacer una
extracción, transformación y limpieza de los datos (ETL).
Al momento de definir la estructura de datos que servirá como entrada a los procesos de
MDD, se debe tener en cuenta o priorizar la utilización de atributos relativos por sobre los
absolutos[21], en otras palabras, es conveniente la incorporación de atributos que resulten del
calculo de diferencias y/o promedios, para de esta manera obtener valores de atributos que engloben
la mayor parte de la instancia analizada. Otro punto crucial a tener en cuenta al momento de
construir el conjunto de datos es el de contar con un amplio conocimiento del área de estudio, o al
menos, contar con la asistencia de un experto en el área, el cual puede aportar información
importante que fortifique el conjunto de datos incorporando variables que pueden ser pasadas por
alto, principalmente aquellas relacionadas al comportamiento de infractores. Como ejemplo de estas
variables es posible mencionar a aquellas que se relacionan a los periodo de fechas en los que los
infractores consideran que es mas probable que no sean detectados,
años de antigüedad de
productos y su valor de mercado, etapa del año[27], categoría de socio, actividad, consumo[35],
datos del proveedor, datos del cliente, encabezado y detalle del reclamo[36], consumos históricos
del cliente, consumo actual, fecha de incidencia, tipo de operación[37], por citar algunos ejemplos.
Facundo José Yatchesen
31
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Una de las limitaciones en cuanto a la utilización de técnicas de MDD relacionada al
conjunto de datos tiene que ver con la disponibilidad o no de datos etiquetados, es decir, si lo que se
desea construir es por ejemplo un clasificador, necesitaremos contar con datos etiquetados, lo cual
implica que hayan sido previamente analizados y etiquetados para una u otra clase, el inconveniente
que acarrea esta operación es que si la misma es llevada adelante por un ser humano posee un factor
de subjetividad, que puede sesgar el resultado del proceso de MDD.
Existe una serie de desafíos relacionados a la construcción de un conjunto de datos para la
aplicación de técnicas de MDD, los cuales deben ser tratados y minimizados en la medida de lo
posible, en [38] se hace una interesante reseña de los mismos:
•
Heterogeneidad y diversidad: generalmente los conjuntos de datos son formados mediante la
integración de diferentes fuentes, de distintas organizaciones e inclusive de distintos
departamentos de la misma organización. El principal inconveniente es que al momento de
integrar, es posible que se pierdan datos, producto de la unión de varios atributos estadísticos en
uno solo, derivando en interpretaciones parcial o completamente erróneas.
•
Calidad de datos: el hecho de integrar datos de diferentes fuentes puede enriquecer el
contenido del conjunto de datos pero con una calidad pobre. Existen varios motivos que pueden
acentuar este problema, por un lado diferencias de criterio y estándares en cuanto a la
identificación de tuplas o entidades, modelos de datos con un mal diseño, documentación pobre
o inexistente, datos faltantes o diferencias de interpretación para valores similares.
•
Escala: para que los procesos de MDD sean eficientes el volumen de datos debe ser alto,
pero lo suficientemente resumido para que el procesamiento de los mismos sea aceptable, de
esta manera uno de los trabajos es construir un sub conjunto que resuma el gran volumen de
datos disponible en una partición, pero que mantenga en la mayor medida posible las
características del conjunto original.
•
Nuevos paradigmas de datos: es conocido el hecho de que el volumen de datos crece de
manera exponencial, pero a esto debe sumarse la heterogeneidad con la que estos datos son
almacenados (bases de datos, audio, video, imágenes, logs de equipos como servidores, routers,
relojes biométricos, sensores, documentos en una infinidad de formatos), constituyendo un
enorme desafío integrar estos datos en un conjunto manejable.
Facundo José Yatchesen
32
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Capitulo 3
Planteamiento del problema
Facundo José Yatchesen
33
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
3.1 Planteamiento del problema
¿Es posible la aplicación de técnicas de minería de datos para la detección de fraude tributario en
la Municipalidad de la ciudad de Apóstoles?
¿Cuáles son los algoritmos y técnicas de minería de datos más eficientes para la detección de
fraude tributario en la administración municipal?
3.2 Objetivos generales
Desarrollar un análisis de las técnicas de minería de datos para determinar cuáles son aquellas que
mejor se ajustan a la detección de fraude tributario en administraciones municipales, utilizando las
fuentes de datos de la Municipalidad de Apóstoles.
Implementar las técnicas resultantes del análisis de las técnicas a la obtención de conocimiento
aplicable a la detección de fraude tributario en la Municipalidad de la ciudad de Apóstoles,
presentación de los resultados obtenidos.
3.3 Objetivos específicos
Documentar todo el proceso de investigación de acuerdo a la normativa de la cátedra Trabajo
Final, de la carrera de Licenciatura en Sistemas de Información, Facultad de Ciencias Exactas,
Químicas y Naturales, Universidad Nacional de Misiones.
Fundamentar teóricamente la aplicación de minería de datos a la detección de fraude tributario en
administraciones municipales
Evitar la alteración de los datos en esta etapa, a fin de evitar costos adicionales relacionadas a
entrada de datos
Fomentar la utilización de herramientas de software libre en todas las etapas del proyecto
Analizar y evaluar las distintas técnicas descriptivas y predictivas
Analizar y evaluar algoritmos
Evaluar las metodologías para la implementación de proyectos de minería de datos
Analizar y comparar las herramientas para minería de datos
Facundo José Yatchesen
34
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Analizar los datos y definición de la base de datos mineable para el caso de la Municipalidad de
Apóstoles
Analizar de calidad de datos de la Municipalidad de Apóstoles
Implementar minería de datos en la Municipalidad de Apóstoles
Analizar e interpretar los resultados obtenidos
Facundo José Yatchesen
35
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Facundo José Yatchesen
36
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Capitulo 4
Solución propuesta
Facundo José Yatchesen
37
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Para la implementación de las solución se ha considerado la importancia de la utilización de
metodologías para procesos de MDD, por este motivo, y teniendo en cuenta los avances tanto a
nivel académico como industrial, se ha optado por utilizar CRISP-DM, por ello, este capitulo se
estructura de acuerdo a las fases de la misma.
4.1 Fase I: Comprensión del negocio
Objetivos de la organización
Las municipalidades en la provincia de Misiones, rigen su funcionamiento a través del uso de
presupuestos, los cuales deben ser aprobados por el Honorable Concejo Deliberante (HCD) del
propio municipio, al menos tres meses (90 días) antes del inicio del ejercicio económico al cual esta
dirigido, estos inician el 01 de Enero y finalizan el 31 de Diciembre. Las unidades funcionales del
presupuesto son las partidas presupuestarias, estas representan conceptos que utiliza el municipio
para llevar adelante sus actividades, dentro del presupuesto se sigue un esquema de partida doble,
en donde se planifican tanto los gastos como los ingresos que tendrá el municipio dentro del
ejercicio económico; este presupuesto tiene por objetivo planificar, para su aprobación por parte del
HCD, los ingresos de fondos que tendrá el municipio y como ejecutara esos fondos en las diferentes
obligaciones del mismo.
De acuerdo al presupuesto de recursos elaborado por el Poder Ejecutivo de la Municipalidad de
Apóstoles, y posteriormente aprobado por el HCD de Apóstoles, para el ejercicio 2013 se contó con
un presupuesto, al 31 de Diciembre de 2013 de $ 74.118.122,69, mientras que para el ejercicio
2014, al día 31 de Diciembre de 2014, contaba con un presupuesto de $ 103.482.893,88 lo que
representa un incremento del orden del 39% inter anual.
Dentro de los ingresos que posee el municipio, alrededor del 29% de los mismos corresponden a
gravámenes que se efectúan sobre: actividades comerciales, industriales y de servicios que son
llevadas adelante dentro del municipio, bienes radicados dentro del municipio y servicios brindados
por el municipio hacia los habitantes del mismo, estos son denominados ingresos de jurisdicción
municipal. El resto de los ingresos (71% del presupuesto) proviene de ingresos nacionales y
Facundo José Yatchesen
38
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
provinciales, los cuales ingresan al municipio como participación de impuestos nacionales y
provinciales, subsidios, fondos especiales, aportes no reintegrables, prestamos, entre los conceptos
mas importantes.
Los ingresos de jurisdicción municipal a su vez, se subdividen en 4 grandes grupos: comercio e
industrias, patentes de rodados, tasa de inmueble y otra tasas. Del total de ingresos de jurisdicción
municipal, el 53% corresponde a ingresos relacionados a comercio e industrias, 19% corresponde a
todas las tasas relacionadas a patentes de rodados, el 12% a tasa de inmueble, dentro de la que se
incluyen impuestos a obras publicas, tasa de inmueble y alumbrado publico, el porcentaje restante
corresponde a tasas generales, que engloban conceptos variados.
En los casos de los ingresos provenientes de los rubros de comercio e industrias y patentes, la tasa
de recaudación es aceptable, superando el 60% del presupuestado, y en lo referente a tasas varias se
calculan sobre la recaudación de años anteriores, por lo que el porcentaje de recaudación obtenido
es variable teniendo en cuenta temporadas, conceptos incluidos, indices de precios, entre otras
variables. Uno de los principales inconvenientes se da en la tasa de inmueble, en la cual la
recaudación no supera el 20% del presupuestado, esto de debe en gran medida a la propia naturaleza
del impuesto, en donde no se hacen controles respecto a los estados de deuda de cada unidad
inmobiliaria, principalmente por la cantidad (actualmente el municipio cuenta con 10.000 unidades
inmobiliarias) y el alto costo de recursos que implica su control. En el caso de los impuestos
relacionados a comercio, industrias y patentes, son necesarios para operar (en el caso de los
comercios e industrias), siendo controlados tanto por el municipio como por organizaciones
externas (AFIP, DGR, SENASA, Gendarmería Nacional, Policía, entre otros).
Los ingresos de jurisdicción propia resultan una fuente muy importante de financiamiento para la
Municipalidad, ya que tiene disponibilidad completa sobre los mismos, de aquí surge la imperiosa
necesidad de aumentar la eficiencia en el cobro de los mismos, mejorando las tasas de recaudación
con la menos cantidad de recursos posibles.
Si bien la elaboración del presupuesto para su aprobación por parte del H.C.D. Rige los ingresos
estimados para el ejercicio económico, estos son calculados en base a los antecedentes
recaudatorios de las tasas, sin considerar el estado de deuda de los contribuyentes, como tampoco la
previsión de recursos basados en las mejoras implementadas en los diferentes ámbitos, como por
Facundo José Yatchesen
39
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
ejemplo: instalación de carteles publicitarios, asfaltado, alumbrado público, cordones-cuneta, re
valuación de vehículos, proyección de ventas, entre otros conceptos. A raíz de este inconveniente se
comenzaron a hacer cálculos sobre los estados de deuda de los contribuyentes, principalmente sobre
el impuesto inmobiliario, agrupados por barrios, dando porcentajes de cumplimiento por debajo del
10% en algunos casos.
Evaluación de la situación
Los sistemas de información de la Municipalidad de Apóstoles se encuentran desarrollados en
varias plataformas, la mayoría fueron desarrollados en Visual Basic 6, una pequeña parte Visual
Studio .NET, otra pequeña parte con Power Builder, todos ellos utilizando como motor de base de
datos SQL Server 2000 y dependiendo el sistema, en bases de datos separadas. El caso particular se
da con el impuesto a la patente automotor, en la cual hasta Octubre del año 2012 se trabajo con un
sistema desarrollado por la Municipalidad de Apóstoles, cuando se migro a la utilización de un
aplicativo provisto por el gobierno provincial; un caso similar se dio con las licencias de
conductores, sistema que fue centralizado por el gobierno provincial.
La Municipalidad de Apóstoles cuenta con un departamento de sistemas, constituido por 5
profesionales del área de sistemas, tres de los cuales se encargan del desarrollo y mantenimiento de
los sistemas de gestión para las diferentes áreas, uno de ellos se encarga del soporte técnico de
hardware y redes de todas las dependencias y el quinto integrante se encarga del mantenimiento del
sitio web, imagen institucional en las redes sociales y tareas relacionadas al diseño gráfico. Dentro
de este equipo no existe personal dedicado a tareas relacionadas a inteligencia de negocios (tableros
de comando, cubos OLAP o minería de datos), por lo que no se cuentan con antecedentes de
implementación de procesos de este tipo dentro de la organización como tampoco información que
pueda ser útil para el presente proyecto.
Actualmente no se dispone de un sistema unificado de datos de contribuyentes, sino que la
información esta replicada en los distintos sistemas, de acuerdo a la información necesaria en cada
uno de ellos, por lo que obtener la información de estados de deuda por concepto, inscripciones y
perfiles en cada uno de los impuestos y pagos, resulta complicado, dada la heterogeneidad de los
datos. Otro concepto a tener en cuenta, es que en el sistema de cobro de tasa de inmueble, se
hicieron al menos dos migraciones de datos de sistemas desarrollados bajo MS-DOS, y nunca se
Facundo José Yatchesen
40
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
tomó la decisión política de llevar adelante un proceso de limpieza de datos, esto sumado al hecho
de que la información que llega a la municipalidad tiene cierto atraso, lo que obstaculiza aun mas la
calidad de los datos. Con las herramientas actuales es posible llevar adelante un proceso de
ingeniería inversa para obtener el modelo de datos, el cual será detallado en secciones posteriores,
aunque no se dispone de un diccionario de datos para las bases de datos, por lo que es necesario
recurrir al personal responsable del desarrollo y mantenimiento de los sistemas de información para
aclarar los conceptos representados en el modelo de datos.
Hay dos características importantes en cuanto al diseño de base de datos que se deben considerar al
momento de analizar los datos: la primera tiene que ver con la forma en la que se liquidan los
impuestos o los conceptos a pagar, esta operación se realiza en el momento en que el se hará
efectivo el cobro, complicando obtener el estado de deuda de los contribuyentes y aumentando el
riesgo de errores, ya que al momento de efectuar la liquidación pueden alterarse “provisoriamente”
valores y porcentajes de tasas; la segunda tiene que ver con la falta de unificación de
contribuyentes, ya que en cada sistema (con cada tipo de impuesto) se posee un padrón para ese
impuesto, con un bajo nivel de normalización y sin restricciones como por ejemplo en numero de
CUIT o DNI, lo que provocan datos duplicados, y por ende un caída severa en la calidad de los
datos.
•
Sistema de Tasa de comercio
El sistema de tasa de comercio tiene por objetivo el cobro de un porcentaje de las ventas
realizadas por un comercio o industria radicado dentro del municipio de Apóstoles, este
importe se calcula sobre el monto consignado en una declaración jurada mensual que lleva
adelante el propio comercio y es calculado al momento en el que el contribuyente hace la
presentación de la misma. A través de este sistema se emite la habilitación de comercio, la
cual debe ser ubicada en un lugar visible a los clientes de los comercios e industrias, para
obtenerla se debe cumplir con una serie de requisitos como ser planos, habilitación por parte
de los bomberos, contrato de alquiler en caso de ser necesario, toda esta información es
registrada dentro del sistema. Este sistema es el único que se encuentra integrado con el
sistema de padrón, se encuentra desarrollado en Microsoft VB6, utiliza como motor de base
de datos a Microsoft SQL Server 2000 y Crystal Reports 9 como motor de reportes. El
modelo de datos es el siguiente:
Facundo José Yatchesen
41
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Figura 1: Diagrama de base de datos sistema de comercio
Facundo José Yatchesen
42
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
•
Sistema de Tasa de Inmueble
El sistema en cuestión se encarga de gestionar toda la información relacionada a los
inmuebles (información catastral, propietarios, impuestos, servicios, categorias), los montos
a abonar son establecidos cada año a través de una Ordenanza Municipal aprobada por el
H.C.D., y se calcula sobre la cantidad de metros de frente de la propiedad, sin considerar la/s
construcciones sobre el mismo, excepto un adicional que se cobra en el caso de que se trate
de una construcción multifamiliar. Para obtener el importe a ser abonado por el
contribuyente se efectúa la liquidación al momento de concretar el pago o al momento de
emitir el recibo del monto a pagar y el cual se distribuye a los contribuyentes. Uno de los
inconvenientes se plantea con el historial de los inmuebles, con sus respectivas
subdivisiones, e historial de titulares, en donde al momento en el que se hace la venta de un
inmueble, se borra el anterior y es registrado como uno nuevo sin tener en cuenta el
historial, o en el caso de que se realice una subdivisión surgen dos nuevos inmuebles sin
ningún tipo de relación con el original. El modelo de datos es el siguiente:
Facundo José Yatchesen
43
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Figura 2: Diagrama de base de datos sistema de inmuebles
•
Sistema de Patentes
A partir del mes de Enero del año 2013 la provincia de Misiones centralizó la información
para el cobro de la tasa de patente de vehículos en un sistema de información propiedad de
la misma, dejando obsoletos los desarrollos de los municipios, sin embargo, teniendo en
cuenta la información presente en el sistema de patentes de la Municipalidad de Apóstoles a
la fecha de cambio de sistema, se optó por utilizar esta información. El impuesto en cuestión
consiste en el cobro de un impuesto en base al valor del vehiculo en cuestión, valor que es
alterado de acuerdo a la fecha en que se pague, obteniendo descuentos por pago total al
inicio del año, o recargos por pagos de cuotas vencidas. El modelo es el siguiente:
Facundo José Yatchesen
44
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Figura 3: Diagrama de base de datos sistema de patentes
Facundo José Yatchesen
45
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
•
Sistema de Padrón
El sistema de padrón surge con la intención de unificar los datos de los contribuyentes, para
de esta manera unificar los datos y conectarlos con todos los sistemas utilizados por la
Municipalidad de Apóstoles, actualmente se encuentra relacionado con el Sistema de Tasa
de Comercio, y carnet de sanidad, aunque estaba integrado con el sistema de licencias de
conductor, el cual fue centralizado por la provincia quedando este obsoleto. El modelo
utilizado es el siguiente:
Facundo
José sistema
Yatchesende padrón
Figura 4: Diagrama de base
de datos
46
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Determinación de los objetivos de MDD
El objetivo del proyecto será la obtención indicios que evidencien posibles conductas fraudulentas
tanto por parte de los contribuyentes como por el personal interno a la organización a través del uso
de técnicas y algoritmos de MDD, tomando como base a los datos de pagos correspondientes a las
tasa de inmueble, comercios y patentes.
Plan de proyecto
Teniendo en cuenta los recursos con los que se cuenta y el alcance del presente proyecto, el mismo
se llevará adelante por un único profesional, quien contará con el asesoramiento de profesionales
con amplia experiencia en proyectos de estas características, que se encargará de ejecutar las tareas
detalladas a continuación:
1. Analizar preliminarmente los datos
2. Seleccionar herramientas de software para el proceso
3. Implementar procesos de captura de datos
4. Implementar modelos de minería de datos
5. Ejecutar pruebas sobre los sets de datos
6. Documentar pruebas y resultados
7. Formular recomendaciones basadas en los resultados obtenidos
4.2 Fase II: Comprensión de los Datos
Recolección inicial de datos
1. Sistema inmuebles
Los datos que se planea utilizar de la tasa de inmuebles se encuentran en dos tablas
relacionales, una con los datos del pago propiamente dicho, el cual puede verse en la Figura
Facundo José Yatchesen
47
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
5 y la segunda con los datos del contribuyente responsable del mismo Figura 6. Contiene
los pagos de la tasa desde al año 1995 al año 2015; un dato peculiar es que cada una de los
conceptos que se cobran dentro de la tasa esta discriminado en columnas, por lo que el
importe total del pago debe ser calculado, esto rompe el esquema de normalización y puede
provocar ciertos inconvenientes ya que si quisiera agregarse un concepto, sería necesaria
una modificación del diseño de la base de datos, junto a las aplicaciones y reportes
asociados.
Figura 5: Diseño tabla inm_pagos
Los datos del contribuyente al que se encuentra asociado el inmueble se encuentran en una
segunda tabla, la cual es utilizada en forma exclusiva por el sistema de tasa de inmueble.
Como puede observarse a simple vista, la relación de NxM entre las unidades de inmueble y
los contribuyentes no se encuentra modelada, por lo que es necesario repetir los datos del
contribuyente tantas veces como unidades de inmueble posea el contribuyente, esto presenta
dos inconvenientes, por un lado el aumento en la posibilidad de que el operador de la
aplicación cometa un error al realizar la carga de los datos duplicados, y por el otro la
imposibilidad de implementar restricciones de unicidad a nivel base de datos que mejoren la
calidad de los datos.
Facundo José Yatchesen
48
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Figura 6: Diseño tabla inm_datoscontribuyente
Se considero importante incorporar información relacionada a las intimaciones que se hayan
hecho al inmueble, consignando información del periodo reclamado al contribuyente, en
busca de patrones que indiquen variaciones en la conducta de los mismos. Esta información
se encuentra en una tabla adicional visible en la Figura 7, en la que solo se consigna el
periodo intimado, no así la evolución del reclamo, es decir, si pago, si el dato era incorrecto
y el inmueble fue transferido, o si se encuentra en etapa judicial, completa el esquema la
fecha en la que se hizo la intimación, y observaciones en formato texto relacionadas a la
intimación.
Figura 7: Diseño tabla inm_intimaciones
2. Sistema patentes
Facundo José Yatchesen
49
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Para el cobro de la tasa de patentes el esquema utilizado es similar al planteado para el caso
de inmuebles (una única tabla para los pagos, sin incorporar encabezado-detalle como se ve
en la Figura 8), se trata de una tabla exclusiva para los contribuyentes de patente Figura 9, y
al no tener la relación NxM implementada en el modelo, se dan las mismas falencias. Para la
tasa de patentes no se dispone de un sistema que registre las intimaciones hechas a cada una
de las patentes y/o propietarios, sino que el único registro son los comprobantes impresos.
Figura 8: Diseño tabla pat_pagos
Figura 9: Diseño tabla pat_propietarios
3. Sistema comercios
Para el cobro de la tasa de comercio se utiliza un modelo de datos con mayor normalización,
ya que el pago del mismo se encuentra con un encabezado Figura 10 y detalle Figura 11, lo
que junto a la utilización del sistema de padrón de contribuyentes mejora notablemente la
calidad de los datos.
Facundo José Yatchesen
50
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Figura 10: Diseño tabla ccio_pagos
Figura 11: Diseño tabla ccio_pagos_detalle
Como se aclaró en el punto anterior, el sub sistema de tasa de comercio es el único que
utiliza el padrón general Figura 12 para relacionar los datos de los contribuyentes con los de
los comercios, sin embargo puede detectarse una importante falla relacionada con la
exigibilidad a nivel base de datos de dos campos elementales como el DNI y/o CUIT; es
decir, que si bien conceptualmente no deberían presentarse datos duplicados, y la carga no se
repite, en la practica, pueden no cargarse estos datos, complicando las tareas de control.
Figura 12: Diseño tabla pco_entidad_personas
Facundo José Yatchesen
51
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Para el sub sistema de tasa de comercio, se dispone de una tabla que almacena las
intimaciones y/o reclamos de deudas hechos hacia el comercio Figura 13.
Figura 13: Diseño tabla ccio_intimaciones_rec_deudas
Existe una consideración particular al analizar el impuesto a la tasa de comercio, se
trata de un impuesto que se calcula sobre el importe de la declaración jurada presentada por
el comercio ante la municipalidad, y la tasa de comercio propiamente dicha se calcula sobre
este importe, pero, no existen controles a nivel aplicación que indiquen si todos los
comercios hicieron la presentación, por lo que si el contribuyente no hizo la correspondiente
presentación, al emitir un estado de deuda, la misma se encuentra regular, es decir, el
contribuyente no posee deudas con el municipio.
4.3 Fase III: Preparación de los Datos
Recolección y descripción de datos
El primer esquema planteado consiste en utilizar los campos de numero de contribuyente
dentro del impuesto, si el contribuyente fue intimado en alguna oportunidad, el tipo de empresa, el
impuesto al que corresponde, la cantidad de pagos dentro de cada uno de los días de la semana, el
día, mes y año de inscripción del contribuyente, junto a la cantidad de pagos y la sumatoria del
importe de los mismos agrupados por año, desde el año 1989 hasta el año 2013. Si bien cada uno de
los impuestos analizados tiene características particulares, las cuales no son compatibles con los
demás, el objetivo del proyecto es analizar los pagos de los diferentes impuestos como un solo
concepto, es por ello que se eligieron aquellos que son comunes a todos los analizados.
No se ha detectado la existencia de un diccionario de datos de las bases de datos utilizadas
Facundo José Yatchesen
52
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
en el presente proyecto, por lo fue necesario un intenso proceso de análisis, el cual fue
complementado por la información aportada por el departamento de sistemas de la organización.
•
Planteamiento conceptual
Teniendo en cuenta que se dispone información de varios impuestos que abonan los
contribuyentes y del hecho de que hay casos en los cuales la tasa de recaudación es alta,
mientras que en otros resulta extremadamente baja, se decidió crear un set de datos que
unifique todos los impuestos, con los conceptos similares y de esta manera buscar patrones
que relacionen las conductas de los contribuyentes en los diferentes impuestos.
•
Plataforma técnica
Debido a la complejidad del esquema seleccionado para generar el set de datos, junto a la
gran cantidad de operaciones de preparación de los mismos, se ha decidido implementarlas
en el motor de bases de datos nativo de la organización para la cual se desarrolla el presente
proyecto (Microsoft SQL Server 2000). Una vez finalizada la etapa de ETL se procedió a la
utilización de RapidMiner V5.2 para la implementación de los algoritmos de MDD. En la
Figura 14 puede verse el esquema de la plataforma técnica planteada, tanto las bases de
datos como el proceso de transformación de los mismos residirán en el servidor de base de
datos Microsoft SQL Server 2000, los cuales alimentarán al proceso de MDD implementado
en RapidMiner v5.2 desde donde se obtendrán los reportes para ser analizados por los
expertos en el dominio a fin de formular un informe con el conocimiento obtenido para su
posterior implementación. Cabe aclarar que entre los puntos de transformación de datos, el
proceso de MDD y los expertos en el dominio hay una doble cardinalidad en las conexiones,
esto se plantea de esta manera debido a que al momento de implementar los algoritmos de
MDD en ocasiones resulta necesario ajustar campos y tipos de datos en la etapa de
transformación, lo mismo ocurre al obtener las evaluaciones de los expertos en el dominio,
cuando en ocasiones los resultados se tornan complejos de interpretar, es necesario ajustar
los algoritmos utilizados y su configuración y esto en ocasiones puede traer aparejado
ajustes sobre la etapa de transformación de datos.
Facundo José Yatchesen
53
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Figura 14: Esquema de implementación del proyecto
•
Criterios de éxito
La determinación de criterios de éxitos numéricos resulta compleja por dos motivos, el
primero se relaciona con el hecho de que a priori, no se conocen el o los tipos de patrones
que resultan sospechosos, tampoco se conoce si se trata de conductas generalizadas o de un
grupo en particular, el segundo motivo se relaciona con la cantidad de tuplas que
efectivamente corresponden a contribuyentes activos, por lo que los porcentajes asignables
como criterios de éxito resultan difusos, por este motivo es beneficioso plantear el criterio
de éxito en función del conocimiento obtenido [42]. El éxito del presente proyecto estará
dado por la obtención de patrones de comportamiento de contribuyentes desconocidos hasta
el momento, que puedan permitir tomar medidas preventivas y/o correctivas por parte de la
dirección de la municipalidad.
•
Conceptos seleccionados
Luego de una serie de pruebas preliminares cuyo objetivo era definir la estructura del set de
datos, los mejores resultados se obtuvieron analizando la conducta de cada contribuyente a
través de todos los impuestos, para cada uno de los años comprendidos entre el periodo
2000-2010. Los importes pagados fueron extraídos de las correspondientes tablas para cada
Facundo José Yatchesen
54
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
uno de los impuestos, relacionándolos con la unidad contributiva correspondiente y a partir
de allí con el contribuyente; si bien el dato identificador (Clave Única de Identificación de
Personas, CUIP o documento) no fueron utilizados en el proceso de MDD propiamente
dicho, si fueron incluidos en el set de datos para, en primer lugar, llevar adelante las
relaciones y limpieza de datos y en segundo lugar para facilitar el análisis especifico una vez
obtenidos los resultados de los procesos de MDD. Debido al hecho de que se trata de una
sumarización de unidades impositivas teniendo en cuenta el numero de CUIP/documento, se
considero importante mantener la información de la cantidad de unidades involucradas, así
se incorporaron tres columnas que indican la cantidad de unidades impositivas para el
contribuyente. Se agrego una serie de campos que indican la cantidad de años reclamados a
través de intimaciones y/o reclamación de deudas al contribuyente, discriminado por año en
que se hizo la misma y concepto involucrado.
Como se indico en el punto anterior, el objetivo es comparar los aportes de los
contribuyentes para cada impuesto seleccionado, subdivido para cada uno de los años
comprendidos entre el año 2000 – 2010, lo que provoca una sumatoria de los importes de
todo el año, que, sumado a la heterogeneidad de los importes para cada uno de los
conceptos, sesgaba notablemente los resultados, por este motivo se decidió segmentar los
importes, teniendo en cuenta las categorías dentro de cada una de las tasas analizadas, los
valores medios, modas y frecuencias, la cual es implementada en el set de datos mediante
una función programada sobre el motor de base de datos. En la Tabla 1 se muestran los
limites inferiores y superiores para cada una de las categorías utilizadas en la función de
segmentación.
Código
devuelto
Limite inferior (>=)
Limite superior (<)
0
-
0
1
0
50
2
50
100
3
100
200
4
200
500
5
500
800
6
800
1500
Facundo José Yatchesen
55
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
7
1500
3000
8
3000
6000
9
6000
12000
10
12000
24000
11
24000
48000
12
48000
96000
13
96000
-
Tabla 1: Rango de categorías para los importes abonados
•
Consideraciones adicionales
Tal como se mencionó, uno de los principales inconvenientes esta relacionado a la calidad
de los datos, ya que al no tener restricciones en cuanto a datos obligatorios, muchos datos se
encuentran en blanco, lo que hace imposible compararlos con otras filas, dada la enorme
cantidad de filas con este inconveniente se opto por eliminar estas filas para no alterar los
resultados de aquellas que si poseen información utilizable, y para no incluir interferencia en
los resultados.
•
Esquema de ejecución
El esquema seleccionado para llevar adelante la captura de datos y su posterior análisis
consiste en hacer la lectura, limpieza y transformación de los datos a través de un
procedimiento almacenado en el servidor de base de datos, el cual utiliza tablas temporales,
las cuales luego son accedidas desde la herramienta RapidMiner v5.2, que hace la lectura del
set de datos y aplica los procesos seleccionados.
•
Exploración inicial de los datos
Con el objetivo de tener una aproximación inicial de los datos, se han formulado una serie
de consultas en SQL para cada tasa, obteniendo medidas relacionadas a limites, cantidad de
filas, valores perdidos, tipos de datos. En primer lugar se analizaron los registros
correspondientes a la tasa de inmueble Figura 15, podemos observar que se dispone de
11744 filas, que representan cada uno de los inmuebles registrados, vale recordar el hecho
de que no se cuenta con un campo que indique si el inmueble se encuentra activo o fue dado
de baja, por lo que el estado activo puede definirse como aquellos que posean movimientos
Facundo José Yatchesen
56
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
de pagos recientes, aunque esto permitiría que aquellos contribuyentes que nunca abonaron
su obligación de tasa de inmueble sean tomados como inactivos. El otro punto destacado es
que el rango de números de documento va desde el numero 0 al 999999999, lo que deja en
evidencia las limitaciones de los datos utilizados, ya que valores tan bajos indican un claro
error en la carga de la información. En cuanto a los rangos obtenidos en la sumatoria para la
tasa de inmueble para todos los años vemos que se mantienen relativamente dentro de
rangos similares, excepto para el año 2001, donde se observa un pico en la recaudación de
alguno de los contribuyentes, esto puede explicarse por moratorias o regularización de
deudas antiguas. Dada la estructura seleccionada para formar el set de datos, y al tratarse se
datos ya procesados, no se observan valores perdidos. Indagando en los números de
documento de los contribuyentes, se ha detectado que del total de las 11744 filas, 1576
corresponden a “contribuyentes” con documento 0, esto representa mas del 10% del set de
datos, por lo que se ha optado por no considerar estas filas.
Cabe aclarar un punto relacionada a la gran cantidad de contribuyentes cuyo importes pagos
son cero (0), es decir, que nunca abonaron una tasa dentro del municipio; si bien esto puede
considerarse como materia de análisis para el proceso de MDD, se ha optado por quitar a
aquellos contribuyentes que no hayan abonado tasas en el periodo 2000-2010 debido a que
esto se debe, en parte a las características propias del sistema de tasa inmueble.
Facundo José Yatchesen
57
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Figura
Figura 15:
16: Resultado
Resultado exploración
exploración inicial
inicial -- Tasa
Tasa de
de inmueble
patente
En cuanto a los datos de patente Figura 16, se dan las mismas características que para la tasa
de inmuebles, valores de documento que inician en cero, y terminan en valores superiores a
los correctos. Para esta tasa la cantidad de contribuyentes con valor para el documento (dni)
0 es de 1360, a pesar de que se dispone de un numero de CUIT en la tabla del propietario, la
cantidad de filas perdidas sigue siendo alta. Para el caso de la información proveniente del
sub sistema de comercios Figura 17, se detectaron unicamente dos casos en los que el
documento tenia un valor nulo, por lo que fueron eliminados del set de datos. En cuanto al
rango de los valores para el atributo documento, sigue manteniendo similares características
a la las tasas anteriores. Lo que puede observarse es una amplia diferencia en cuanto a los
valores extremos para los atributos que representan la sumatoria de lo abonado por los
contribuyentes.
Figura 17: Resultado exploración inicial - Tasa de comercio
4.4 Fase IV: Modelado
Facundo José Yatchesen
58
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Para la aplicación de técnicas de minería de datos se ha optado por utilizar Rapid Miner 5.2,
que es una herramienta desarrollada en Java, y ademas de la cantidad de procesos ya incluidos,
permite añadir plugins como por ejemplo WEKA, lo que suma todos los algoritmos de esta
herramienta; dado el lenguaje sobre el que se encuentra desarrollada, Java, permite tener
independencia en cuanto a la plataforma necesaria para aplicar los procesos. Durante la etapa de
pruebas del modelo se intento hacer una prueba utilizando la herramienta TANAGRA v1.4, se hizo
la transformación del set de datos a formato .TXT a fin de ser reconocido por la herramienta y
aplicar los procesos, sin embargo, la lectura del mismo fue extremadamente lenta, no pudiendo
completar la lectura del set de datos, por este motivo se decidió descartar el uso de la mencionada
herramienta.
En la etapa preliminar de pruebas se optó por analizar cada uno de los pagos realizados ante
la organización, tratándolos en forma de fila, e incluyendo información relacionada a esa instancia
de pago unicamente, sin embargo, este primer enfoque no aporto resultados significativos, por lo
que fue necesario re diseñar el set de datos, pasando a considerar el agrupamiento del historial de
pago de cada uno de los contribuyentes, para cada uno de los impuestos analizados (tasa de
inmueble, patentes, comercios) en el rango comprendido entre el 01/01/2000 al 31/12/2010. El
esquema para el set de datos consiste en analizar cada uno de los contribuyentes registrados en
alguno de los impuestos seleccionados para el análisis, junto a una serie de 33 columnas,
subdivididas en tres grupos: inmueble, comercio y patente; dentro de cada una de estas columnas se
totalizan los importes abonados por el contribuyente en el impuesto indicado entre los años 2000 y
2010; se considero importante agregar tres columnas dentro de las cuales se consignando la
cantidad de unidades que posee el contribuyente para cada impuesto; se incorporo ademas la
cantidad de intimaciones que recibió el contribuyente para cada uno de los impuestos, y la cantidad
de años que le fueron reclamados. En la etapa de pruebas-evaluación se ha detectado que el análisis
se veía seriamente afectado por los importes, esto de debe a que hay un amplio abanico de valores
posibles (-100.000 a 700.000), por lo que fue necesario segmentar los importes para de esta manera
obtener mejores resultados. En el Anexo 1 pueden verse los nombres, tipos de datos y significado de
cada uno de los atributos del conjunto de datos definitivo diseñado para la aplicación de algoritmos
y técnicas de MDD.
Se ha desarrollado un proceso en RapidMiner v5.2, el cual se encarga de la lectura del
Facundo José Yatchesen
59
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
conjunto de datos previamente transformado, la aplicación de técnicas y algoritmos de MDD
propiamente dichos y la presentación de resultados; el esquema se refleja en la Figura 18 y se
explica en detalle a continuación:
1. Lectura DB: el operador se encarga de hacer la lectura a la base de datos y cargar el
resultado a memoria, para su posterior utilización por parte de la herramienta.
2. Filtro: brinda flexibilidad a la hora de trabajar con las diferentes ejecuciones de las pruebas,
permitiendo quitar o agregar campos del set de datos original sin afectar ni la estructura del
conjunto de datos, ni los métodos de lectura.
3. K-Means k=6: se trata de una implementación del algoritmo k-means, el cual agrega al
conjunto de datos un atributo adicional que indica el cluster dentro del que fue
caracterizado. Para este conjunto en particular, para la medición de la distancia entre
clusters, se ha seleccionado la distancia Numérica-Euclidea, ya que los atributos de los
campos del conjunto de datos han sido normalizados en la etapa de preparación de los datos.
El principal parámetro se relaciona con la cantidad de clusters en los que al algoritmo debe
dividir al conjunto de datos (parámetro k), para obtener este valor se ha desarrollado un
proceso particular que se encarga de arrojar los valores óptimos para el parámetro, este
proceso será explicado detalladamente en el próximo párrafo. La ventaja de este algoritmo
radica en su simplicidad y efectividad en un amplio espectro de dominios en las tareas
relacionadas al particionado del conjunto de datos.
4. Mult. 1: multiplica de acuerdo a la cantidad necesaria las entradas al proceso, en este caso
son tres las multiplicaciones, la primera esta dirigida al operador de asignación de rol, para
su posterior uso en los árboles de decisión, la segunda al resultado del proceso, lo que
permite el análisis pormenorizado de las filas obtenidas luego de la aplicación del algoritmo
k-means y la tercera al operador de escritura en la base de datos.
5. Escribir DB: dado que el conjunto de datos original, y las tablas utilizados para construirlo
se encuentran en una base de datos relacional, resulta practico contar con los resultados del
algoritmo k-means en una tabla relacional también, para de esta manera simplificar el
análisis y el trabajo sobre los resultados.
6. Est. Rol: los algoritmos que implementan arboles de decisión requieren de un atributo de
Facundo José Yatchesen
60
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
tipo etiqueta (label en inglés) en base al cual se analizan las características y se obtienen las
reglas. Como el conjunto de datos generado no tiene un atributo de este tipo, siendo el
mismo necesario para la obtención de reglas de pertenencia a los clusters obtenidos a partir
de la ejecución del método k-means, se utilizo el atributo generado por el operador del punto
3.
7. Mult. 2: similar función al operador del punto 4, aunque en este caso en particular se duplico
la salida del operador 6 para asignarlo a los operadores de arboles de decisión.
8. C4.5: implementa un árbol de decisión, utilizando un algoritmo similar a C4.5, a fin de
obtener reglas que expliquen la pertenencia de cada contribuyente a cada uno de los clusters
obtenidos. En [39], [40], [41] se presentan las ventajas de la utilización de este algoritmo en
la detección de datos anómalos en base de datos.
9. Tabla de decisión: constituye un algoritmo de la extensión WEKA para RapidMiner v5.2, y
el objetivo es obtener reglas que expliquen las segmentación por parte de los algoritmos de
clusterización.
Facundo José Yatchesen
61
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Figura 18: Diagrama modelo de MDD, RapidMiner v5.2
Dado que para la clusterización se utiliza el algoritmo K-Means, el principal parámetro de
este está dado por el valor de K, el cual indica la cantidad de clusters que se buscan obtener como
resultado de la aplicación del algoritmo, teniendo en cuenta que para la definición del valor óptimo
para este parámetro no existen reglas formales, sino que surge del análisis empírico de los
resultados, se optó por desarrollar un proceso dentro de la herramienta de MDD Figura 19 y Figura
20, que se encargue de aplicar iterativamente y de forma automática diferentes valores a este
parámetro, y partir de los resultados obtener indices que permitan seleccionar el valor óptimo. Los
indices a utilizar fueron Davies Bouldin y la distancia interna dentro del cluster.
Facundo José Yatchesen
62
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Figura 19: Modelo de optimización, principal
Figura 20: Modelo de optimización, sub proceso bucle de parámetros
En la Figura 21 puede observarse la lista de posibles valores que puede tomar el parámetro k, para
el algoritmo k-means, juntos a las medidas de performance seleccionadas y disponibles.
Facundo José Yatchesen
63
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Figura 21: Configuración de parámetros y medidas de performance disponibles
En la Figura 22 puede observarse el resultado de la ejecución del proceso descripto para la
obtención del valor optimo para el parámetro k, a ser utilizado en el algoritmo k-means. Para este
conjunto de datos en particular, la herramienta no ha arrojado resultados del indice Davies Bouldies
a raíz de las características intrínsecas del mismo, sin embargo, se ha considerado, aunque no
exclusivamente, como medida de calidad de clusterización a la distancia media dentro del cluster.
La no exclusividad se refiere a que si consideramos este indicador unicamente el valor optimo
vendría dado por k=2, sin embargo, esto resulta complejo de interpretar a los expertos en el
dominio, por lo que se ha optado por hacer ejecuciones consecutivas variando dentro de lo
considerado aceptable de este indicador (k=4 y k=6), obteniendo los mejores resultados con k=6,
basando el éxito en los los casos detectados y la claridad para interpretar las características de los
mismos por parte de los expertos en el dominio.
Facundo José Yatchesen
64
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Figura 22: Resultado del proceso de optimización del parámetro k
4.5 Fase V: Evaluación
Para la etapa de evaluación se ha contado con el aporte realizado por dos C.P.N. (contadores
públicos nacionales), una de ellas se ha desempeñado en el cargo de secretaria de hacienda de la
municipalidad de Apóstoles y la segunda ocupa este cargo actualmente; se ha contado también con
el aporte del responsable del sector de recaudaciones de la misma organización.
Se debe tener presente que las conductas detectadas representan indicios que pueden
evidenciar conductas fraudulentas, a fin de avanzar sobre estos contribuyentes y verificar que se
trate efectivamente de un caso de fraude, es necesario llevar adelante una minusciosa investigación.
Para ello se puede avanzar, solicitando información complementaria dentro de la misma
municipalidad, al contribuyente como así también a organismos externos relacionados.
Una métrica a considerar fue el tiempo que le demandaba al proceso de MDD completar la
ejecución, a pesar de que esto se ve influenciado directamente por el hardware disponible el tiempo
requerido por la dirección de la municipalidad fue que no supere los 30 minutos. Para llevar
adelante la prueba se dispuso de un equipo con un microprocesador Intel i7 QM 2630 de 8 nucleos,
Facundo José Yatchesen
65
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
8GB de RAM DDR3, placa de video ATI Radeon 6770M, disco rígido SATA de 750GB a 7200
RPM, ejecutado bajo Microsoft Windows 7 Home Premium 64 bits. De acuerdo al esquema de
ejecución, la primera etapa consiste en ejecutar el procedimiento almacenado en el motor de base de
datos, lo que demanda, para la configuración disponible, no más de 4 minutos, considerando que
este procedimiento almacenado se ejecuta una única vez al principio del proceso, se genera el set de
datos y luego es manipulado por la herramienta exclusiva para MDD; para la ejecución del proceso
de MDD el mayor tiempo requerido no supero los 3 minutos, el cual fue disminuyendo a medida
que el tamaño del conjunto de datos fue siendo acotado.
Los resultados y sugerencias planteadas por los
expertos fueron introducidas
progresivamente en el modelo para obtener los resultados que se discuten a continuación:
1. En la etapa preliminar al análisis de los datos ha podido observarse el primer inconveniente
relacionado a la calidad de los mismos, se trata de que la información de los contribuyentes
para cada uno de los impuestos se encuentra replicada en los subconjuntos de datos propios
de cada uno de ellos, sin existir nexo alguno entre los mismos y eliminando cualquier
posibilidad de rastrear esta relación si datos vitales como por ejemplo el CUIP se encuentran
mal cargados. Otro inconveniente, aunque relacionado específicamente al impuesto Tasa de
Inmueble, tiene que ver con que no es posible detectar cuales inmuebles se encuentran
activos y cuales fueron subdivididos, dados de baja o eliminados.
2. Avanzando en la etapa de análisis de los datos, y en particular en valores extremos al
momento de ejecutar procesos de MDD, es posible detectar una gran cantidad de
contribuyentes (diferentes personas o sociedades) con números identificatorios de CUIP con
comodines como por ejemplo 0, 999999999, -1, 99999998, inclusive se detectaron casos en
los que el mismo nombre de contribuyente aparece con varios números de CUIT distintos.
Esto presenta dos hipótesis posibles, por un lado una falla de los procedimientos por parte de
la organización al no exigir toda la documentación pertinente para una registración completa
del contribuyente, junto a una falencia del sistema de información; la segunda tiene que ver
con una posible maniobra interna, en la que de forma arbitraria se cargan datos incorrectos
para evitar intimaciones, bloqueos por infracciones o bloqueos para operar en, por ejemplo
licitaciones publicas o privadas.
Facundo José Yatchesen
66
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Debatiendo este punto con los expertos en el dominio, manifiestan que es una situación
regular en organizaciones en donde los procedimientos no se encuentran formalmente
definidos, o existe una falencia en los responsables de controlar que toda la información sea
correcta y completa. Este punto tiene un impacto negativo en los resultados de los
mecanismos de regularización de la situación contributiva de los contribuyentes para las
diferentes tasas de la municipalidad, ya que impide que por ejemplo, al momento de emitir
un carnet de conductor, iniciar una actividad comercial, registrar un nuevo rodado o inscribir
un inmueble y se controle que todas las unidades contributivas del mismo se encuentren
libres de deuda (actividades comerciales, inmuebles y patentes), resulta imposible al no
contar con un dato elemental como el CUIP y/o numero de documento.
3. En la Figura 23 puede verse el resultado en forma de texto de la primera ejecución del
proceso de MDD, aplicado sobre el total del conjunto de datos (8191 filas), siendo posible
detectar de un total de 6 clusters, los cuales se encuentra distribuidos irregularmente en
cuanto a cantidades.
Facundo José Yatchesen
67
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Facundo José Yatchesen
68
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Figura 23: Resultado ejecución 1 - Vista texto distribución de clusters
En esta primera etapa no se obtiene conocimiento utilizable que nos permita formular
hipótesis respecto a cuales son clusters sospechosos, por ello es necesario profundizar la
interpretación, por lo que se optó por un análisis gráfico del resultado, visible en la Figura
24, teniendo en cuenta los centroides de cada uno de los clusters. En la figura indicada
puede observarse en primer lugar, un extremo claramente marcado en el centroide para el
cluster_3 en el atributo cantidad de inmuebles, junto a una abrupta caída en él cuando se
produce el cambio de tasa de comercio a inmueble en el cluster_4. Cabe aclarar la
importancia que toma el orden de los campos de acuerdo a lo que representan, ya que como
nos encontramos trabajando con series, al estructurarlo de esta manera las variaciones
quedan evidenciadas de una forma clara tanto para el ingeniero en conocimiento como para
al experto en el dominio. Otra consideración es que si se observa la base del gráfico
indicado, podemos ver que en la mayoría de los atributos, la linea base aparece por encima
del 0, lo cual resulta contradictorio si consideramos que se encuentran filas en los que los
contribuyentes no han hecho aportes al municipio, esto es explicado por la segmentación
que hemos elegido para los importes, en donde el valor 0 se utiliza para designar a los
valores por debajo del 0.
Facundo José Yatchesen
69
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Figura 24: Resultado ejecución 1 - Gráfico de centroides de clusters
Si bien el análisis gráfico permite generar diversas hipótesis de los clusters que contienen
casos que pueden considerarse sospechosos, es necesario analizar medidas numéricas para
respaldar las mismas, lo que puede observarse en la Figura 25, ratificando que efectivamente
los cluster_3 y cluster_4 poseen diferencias marcadas en atributos del mismo grupo,
entiendo por grupo a cada tipo de impuesto, mientras que los casos restantes mantienen las
diferencias dentro de valores mas razonables; puede verse también el extremo para el campo
“cantidadinmueble”.
Facundo José Yatchesen
70
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Figura 25: Resultado ejecución 1 - Tabla de centroides
En el modelo de MDD se plantea la utilización de arboles de decisión para obtener reglas
que describan las características cada uno de los clusters, para esta primera ejecución el
arbol de decisión y la tabla de reglas obtenidas es ilegible, ya que su tamaño resulta
demasiado extenso, por lo que se optó por llevar adelante una segunda ejecución del proceso
pero solamente sobre el cluster de 113 filas, ya que en el cluster de 8 filas se observa una
clara influencia del atributo “cantidadinmuebles”. Teniendo en cuenta este dato, la cantidad
Facundo José Yatchesen
71
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
de filas y la dificultad para obtener reglas se procedió al análisis detallado de los casos,
haciendo uso de la información disponible en los sistemas de información involucrados.
Las filas del cluster de 8 filas analizado puede verse en la Figura 26, a primera vista se trata
de contribuyentes que tienen una gran cantidad de inmuebles a su nombre, y en cinco de
ellos se detecta que tienen un alto poder contributivo en este impuesto pero prácticamente
nulo en patentes y comercios, por ejemplo (ids 704, 1946, 2047, 2199, 3577), lo cual resulta
al menos extraño, ya que disponen en todos los casos de alrededor de 40 inmuebles y no
poseen vehículos registrados a su nombre, ni tampoco realizan alguna actividad comercial.
Los expertos coincidieron en indicar que esta información resulta importante, ya que
actualmente en la provincia de Misiones, tiene lugar una forma de fraude consistente en
registrar vehículos en las localidades cercanas de la provincia de Corrientes, ya que el monto
a pagar en concepto de patente en esa dependencia es significativamente menor, y, dado que
en estos municipios la documentación exigida para el registro no es estricta puede llevarse a
cabo, a pesar de tener domicilio real en la provincia de Misiones. Otro punto a considerar es
que de los 8, tres coinciden con contribuyentes con numero de CUIP duplicados (99999999),
dentro de los que se incluyen grandes contribuyentes, el propio municipio y organismos
oficiales; el segundo contribuyente se trata de un “DESCONOCIDO”. Los restantes
constituyen contribuyentes cuyo aporte al municipio se encuentra balanceado entre los
impuestos analizados, pero incluidos en este cluster por la gran cantidad de inmuebles a su
nombre, lo que es explicable a través de lo que se conoce como loteo, es decir, la
subdivisión de un inmueble de gran superficie en unidades mas pequeñas.
Desde el punto de vista de los expertos, esto representa un hallazgo importante, ya que estos
indicadores no son comunes en los reportes gerenciales utilizados actualmente, además,
sientan las bases para formular procedimientos internos que de alguna manera controlen y/o
prevengan potenciales conductas fraudulentas tanto por parte del personal interno como de
los propios contribuyentes. Otra cuestión que surge es que estas conductas pueden ser
respaldadas de forma completamente legal y transparente, por ejemplo porque el
contribuyente se encuentra dentro de una sociedad y utiliza los vehículos de la misma,
posee los mismos a nombre de su cónyuge, su ingreso viene dado por la venta de inmuebles,
realiza servicios en el exterior, o inclusive puede encontrarse en relación de dependencia, lo
Facundo José Yatchesen
72
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
que sí queda claro es que representan indicios de potenciales conductas sospechosas y es
necesario profundizar las tareas de auditoría y control. Un caso particular que destacaron los
expertos trata de un contribuyente antiguo, que poseía un lote agrícola hace mas 50 años,
que con la expansión de la ciudad y la desaparición de sus herederos, fue tomado por varios
contribuyentes y transformándose en una gran cantidad de lotes, de los cuales nunca se hizo
una actualización de los datos en el municipio, ni tampoco pagaron alguna vez las tasas
municipales correspondientes. De este punto se desprenden dos cuestiones, la primera tiene
que ver con la investigación más profunda por parte del departamento de fiscalización
teniendo en cuenta la cantidad de inmuebles, ya que para este caso de contribuyente el
algoritmo no detectó el caso, y la segunda tiene que ver con la necesidad de re plantearse la
estructura de datos para obtener la liquidación de cada una de las tasas y no depender del
pago o no del contribuyente, dado que actualmente no es posible determinar si se trata de un
contribuyente que no paga su obligación o corresponde a un inmueble inactivo.
Facundo José Yatchesen
73
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Facundo José Yatchesen
74
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Figura 26: Resultado ejecución 1 - Vista detallada cluster_3
4. Como se mencionó en el punto anterior, se planteo una segunda ejecución, utilizando
unicamente los datos correspondientes al cluster_4 resultante de la primera ejecución, ya
que si bien se trata de un cluster cuyos centroides se encontraban alejados de los demás
obtenidos, ha resultado complejo obtener las características de este sub conjunto de datos.
Reutilizando el proceso de MDD desarrollado, al cambiar el conjunto de datos, es necesario
volver a obtener valores óptimos para k, para ello se reutilizo también proceso de
optimización. En la Figura 31 en la cual puede observarse el indice Davies Bouldin del
proceso de optimización del valor k para el algoritmo k-means, el cual de acuerdo a su
formulación a medida que es menor la calidad de la clusterización es mejor, para este caso
particular los valores óptimos se encuentran en 16 y 20, sin embargo, al contar con un
conjunto de datos tan pequeño, la cantidad de clusters complica la evaluación de los
resultados, por este motivo, la alternativa viene dada por buscar el equilibrio entre la
cantidad de clusters y la complejidad para interpretar los resultados; considerando este punto
Facundo José Yatchesen
75
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
y la indice de distancia promedio interna del cluster se ha optado por utilizar un valor de
k=7.
Facundo José Yatchesen
76
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Figura 27: Indice Davies Bouldies para sub conjunto cluster_4
Figura 28: Indice de distancia promedio dentro del cluster_4
Una vez que se dispuso de valores optimizados se procedió a ejecutar el proceso de MDD, el
resultado puede verse en la Figura 29 puede verse el resumen de la cantidad de filas dentro
Facundo José Yatchesen
77
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
de casa uno de los clusters, la distribución en cuanto a cantidad resulta bastante equitativa, y
al contar con tan poca cantidad de filas resulta un tanto complejo inferir hipótesis.
Figura 29: Resultado ejecución 2 - Vista texto distribución de clusters
Avanzando en el análisis utilizando la vista gráfica Figura 30, puede observarse una
conducta similar a la detectada en la primera ejecución, aunque sobre la tasa de comercio,
los importes recaudados van aumentando progresivamente y cuando se produce el cambio
de impuesto hacia inmueble se produce una caída importante, esta conducta puede verse en
los clusters clusters_4, cluster_5 y cluster_6. Para el caso del cluster_5 en particular, se
observa que en los primeros atributos de la serie la gráfica inicia en 1 (importe mínimo de
aporte al municipio), para luego aumentar a los valores máximos para el subconjunto de
atributos.
Para los casos del cluster_4 y cluster_6 lo llamativo es que esta compuesto por
contribuyentes con alto poder contributivo para la tasa de comercio, pero un valor mínimo
para patentes e inmueble, e inclusive para este ultimo valores muy cercanos a cero,
considerando que esto representa a los centroides del cluster.
Observando el cluster_5 puede verse un comportamiento similar, pero con una
particularidad, la contribución en concepto de tasa de patente resulta prácticamente nula,
acentuándose en el atributo que indica la cantidad de patentes registradas a nombre del
contribuyente.
En el cluster_0 si bien la curva resulta homogénea, hay un cambio brusco para el atributo
inmueble2007, lo cual resulta intrigante teniendo en cuenta la capacidad contributiva de los
Facundo José Yatchesen
78
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
contribuyentes y que la curva no contrarresta la marcada disminución en el atributo
inmediatamente anterior.
Para los clusters restantes (cluster_1, cluster_2, cluster_3) lo que puede observarse es que si
bien se observan variaciones en la curva de los importes aportados por el contribuyente al
municipio, la gráfica resulta homogénea, sin variaciones bruscas.
Al momento de interpretar y debatir los resultados con los expertos en el dominio, les
resulto mas práctico la vista gráfica de los centroides, ya que con la misma esto es posible
obtener una idea de cual es la situación, la cual puede ser respaldada por las medidas
numéricas que aportan las vistas de tabla. Por ejemplo, para el caso Figura 30 un punto que
fue detectado por los expertos fue la linealidad de la curva para el impuesto de patentes,
considerando que los valores de los rodados van evolucionando a lo largo del tiempo, esto
en parte puede ser explicado por el hecho de que el atributo principal en el árbol de decisión
viene dado por el atributo “patente2000”, esto no quita que sea necesario un análisis mas
profundo de las categorías, importes para los vehículos registrados en el municipio.
Figura 30: Resultado ejecución 2 - Vista gráfica de centroides de clusters
Si bien el análisis utilizando gráficos resulta práctico es necesario evaluar si las inferencias
Facundo José Yatchesen
79
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
llevadas adelante en el punto anterior efectivamente tienen un asidero numérico, para esto se
ha analizado la tabla de centroides presentada en la Figura 31, en donde puede verse que por
ejemplo, para el cluster_5 el centroide para los atributos del subconjunto de patentes es “1”,
lo que significa de acuerdo a la segmentación, una contribución nula; otra observación que
puede hacerse es que para el caso del subconjunto de tasa de patentes se mantiene fijo a lo
largo de la serie.
Figura 31: Resultado ejecución 2 - Vista tabla centroides de clusters
Facundo José Yatchesen
80
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
En esta segunda ejecución el árbol de decisión obtenido resulto mas legible que el obtenido
en la primera, el mismo puede verse en la Figura 32, en donde el algoritmo detecta como
atributo de mayor influencia para la pertenencia al cluster al atributo “patente2000”. Si se
observa con mayor detalle podemos ver que en la mayor parte del árbol se utilizan los
campos de inicio de las series de los subconjuntos de impuesto, e inclusive podemos
observar en una de las hojas el atributo “inmueble2007” en donde se producía un marcado
corte para el cluster_0. Otro punto destacado es que en una de las hojas figura el atributo
intermedio “comercio2004”, lo que coincide con la tendencia marcada para el cluster_5, en
donde el aporte del contribuyente era prácticamente nulo, y de pronto inicia una tendencia
ascendente.
Figura 32: Resultado ejecución 2 - Árbol de decisión
Un punto interesante planteado por los expertos al verse las diferencias entre los aportes de
las diferentes tasas es una falencia relacionada con la “confianza” que debe tener el
municipio para con los contribuyentes, ya que por ejemplo para el caso de la tasa de
comercio, el importe a abonar depende del monto de la declaración jurada, sobre un
formulario completado y presentado por el contribuyente, sin solicitar comprobantes que
respalden esta información (lease AFIP o DGR Misiones), o para el caso de los inmuebles,
Facundo José Yatchesen
81
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
depende de que el contribuyente presente la documentación que acredita el cambio de
titularidad de un inmueble o un documento que respalde la ocupación del mismo.
En el caso de la segunda ejecución el planteo de los expertos en el dominio es amplio en
cuanto a la explicación, las mismas cubren un amplio abanico de opciones, las cuales no se
relacionan con el objetivo de esta tesis, lo que sí resulta importante, es que, a pesar de la
calidad y cantidad de los datos, de haberlo hecho en un período acotado, ha sido posible a
través del uso de las técnicas y algoritmos de MDD obtener patrones de conducta de
contribuyentes que resultan sospechosos. El análisis en profundidad de los mismos permitirá
formular políticas y procedimientos para aplicarlas a la gestión de la municipalidad en aras
de mejorar la gestión eficiente de los recursos disponibles.
5. Luego del análisis de los puntos anteriores, uno de los expertos plantea el caso de patentes,
es decir, casos en los que los contribuyentes tienen un alto aporte en cuanto a importe en
concepto de tasa de patentes pero su contribución para las tasas de inmueble y comercio
resultan prácticamente nulas, advirtiendo que si bien esto puede ser fácilmente explicable
por el hecho de que corresponde a un trabajador en relación de dependencia que aun no
adquirió su propio inmueble, sin embargo, se decidió hacer un análisis de los casos haciendo
una tercer ejecución. El punto de partida estuvo dado en la tabla de centroides de la primera
ejecución, para los atributos que representan a la tasa de patentes, en la Figura 25 se puede
observar que el mayor valores para los centroides se presenta en el cluster_1, por lo que se
aislaron las filas de este cluster para profundizar el análisis. El primer punto tiene que ver
con obtener los valores óptimos para el parámetro k del algoritmo k-means, en la Figura 33
podemos ver los resultados obtenidos, teniendo en cuenta el tamaño del cluster en cuanto a
cantidad de filas, el valor óptimo para k se encuentra entre 4 y 10. Si consideramos el indice
de distancia promedio dentro del cluster, no pudiéndose obtener para este conjunto valores
correspondientes al indice Davies Bouldin, aunque después de haber hecho una serie de
pruebas para los valores indicados, los resultados más claros se obtuvieron con k = 4, por lo
que finalmente este fue el valor seleccionado.
Facundo José Yatchesen
82
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Figura 33: Indice de distancia promedio dentro del cluster_1
Habiendo obtenido el valor óptimo, se procedió a la ejecución del proceso de MDD, el
resultado de la distribución puede verse en la Figura 34, donde en principio la distribución
es bastante equitativa, excepto para el caso del cluster_2, si se observa la Figura 35, se
puede ver que la mayor diferencia para el valor de los centroides del sub conjunto de la tasa
de patentes se da justamente en el cluster_2, notándose una amplia diferencia numérica
respecto para el atributo “cantidapatentes”. Evaluando esta situación con los expertos, se ha
determinado que resulta llamativo el hecho de que posean una gran cantidad de patentes, por
lo que resulta evidente que la actividad comercial que realizan se relaciona a vehículos,
aunque el impacto en la contribución relacionada a las actividades comerciales es nula.
Figura 34: Resultado ejecución 3 - Vista texto distribución de clusters
Facundo José Yatchesen
83
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Figura 35: Resultado ejecución 3 - Vista tabla centroides de clusters
Dada la reducida cantidad de filas en cluster en el cual se plantea la mayor distancia, se
decidió analizar en detalle cada uno de los casos corroborando la información las bases de
datos, de donde surge, a través del aporte del responsable de la secretaría de hacienda, que se
trata de contribuyentes que se dedican al transporte de cargas, pero curiosamente su
actividad comercial no se encuentra registrada dentro del municipio como tal. Otra arista
que surge del análisis de estos casos, es que, al momento de analizarlos, el experto plantea
Facundo José Yatchesen
84
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
como se encuadra un contribuyente en particular, el cual es conocido por residir en otra
provincia y tributar la tasa de patentes en el municipio de Apóstoles, mayor aún fue la
sorpresa al detectar que para ese contribuyente, el CUIP figuraba en 0.
En la Figura 36 puede verse reflejado lo planteado en base al análisis de la tabla de
centroides de la Figura 35; en este punto los expertos en dominio resaltaron la tendencia que
se da en el sub conjunto de la tasa de patente, en donde los centroides mantienen una
linealidad notable, lo cual, según ellos, puede deberse a políticas de ajuste de los importes de
los vehículos, aunque sugieren que esto sea analizado con mayor profundidad por el
departamento de fiscalización.
Figura 36: Resultado ejecución 3 - Vista gráfica de centroides de clusters
Pasando al resultado del algoritmo del árbol de decisión de la Figura 37 se mantiene la
tendencia de los atributos que poseen mayor injerencia en la clasificación por parte del
algoritmo de clusterización, sumando los efectos sobre este subconjunto de los datos en
particular.
Facundo José Yatchesen
85
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Figura 37: Resultado ejecución 3 - Árbol de decisión
4.6 Fase VI: Implementación
Se detalla a continuación lo que consistirá en la implementación del presente proyecto de MDD,
teniendo en cuenta los hallazgos de la Fase V.
•
Los expertos en el dominio coinciden en que la clave para aprovechar el conocimiento
obtenido, principalmente en el punto 3, 4 y 5, reside en avanzar profundamente desde el
departamento de fiscalización en investigaciones minuciosas de los casos detectados,
cruzando la información en los distintos sistemas de información de la propia
municipalidad, formular pedidos de informes a organismos externos junto a solicitudes de
información a los propios contribuyentes en busca de explicaciones de sus respectivas
situaciones tributarias.
•
Teniendo en cuenta el punto 1 y 2, se detecta la necesidad de implementar, en primer lugar y
como medida inmediata, una mayor cantidad de controles, en especial en los referente a
datos vitales como el numero de documento o CUIP, y en segundo lugar, plantearse como
meta futura en el corto o mediano plazo, la re ingeniería de los sistemas de información
relacionados a la recaudación de impuestos por parte de la municipalidad, enfocándose en la
unificación del padrón de contribuyentes, la pre liquidación de la deuda y la mayor cantidad
de controles.
Facundo José Yatchesen
86
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
•
Desde el punto 1 al 5 los expertos remarcan la necesidad de ajustar los procedimientos
internos, minimizando la injerencia tanto del personal interno a la municipalidad como del
contribuyente, solicitando mayor documentación que respalde las operaciones relacionadas
al registro y cobro de unidades contributivas, lo cual a su vez debe ir acompañado de un
control de todo el circuito por parte del departamento de fiscalización.
•
Una variación del punto anterior consiste en formular procedimientos de intercambio de
información con organismos recaudatorios tanto provinciales como nacionales, como así
también con organismos reguladores tales como D.N.R.P.A. (Dirección Nacional de
Registro de la Propiedad Automotor) o R.P.I.M. (Registro de la Propiedad Inmueble de
Misiones), esto permitiría agilizar el proceso administrativo municipal de carga de datos.
•
A raíz del punto 3, 4 y 5, surge el requerimiento por parte de los expertos de desarrollar
reportes gerenciales que contengan indicadores tales como cantidad de inmuebles, patentes y
comercios, para de esta manera derivar la tarea de controlar casos que resulten sospechosos,
pero no hayan sido detectados por los algoritmos, al departamento de fiscalización.
•
Como consecuencia de los hallazgos del punto 3, 4 y 5, se han detectado actividades
comerciales y/o particulares que si bien se encuentran reguladas en cuanto a los impuestos
que deben abonar, se escudan en el débil control por parte de la municipalidad como
cuestiones particulares de dichas actividades para evadir el pago de los mismos. El
conocimiento obtenido permitió a la dirección de la municipalidad formular la
reglamentación correspondiente que le permita el cobro de estos recursos ociosos.
Facundo José Yatchesen
87
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Capitulo 5
Conclusiones y futuras lineas de
investigación
Facundo José Yatchesen
88
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
5.1 Conclusión
El objetivo central de esta tesis fue analizar la viabilidad de la aplicación de técnicas y
algoritmos de MDD para la detección de fraude tributario en municipalidades de pequeño y
mediano tamaño, tomando como caso de estudio a la Municipalidad de Apóstoles, provincia de
Misiones, planteando un caso práctico para procesos de explotación de información, extensible a
municipalidades de similares características.
Si bien actualmente la MDD constituye una herramienta fundamental para la explotación del
conocimiento obtenible de los datos registrados en los sistemas de información de las
organizaciones, con comprobada eficiencia en un amplio espectro de dominios, tales como
financiero, medico, educativo, industrial, agronómico, comercial, genética, recursos humanos, una
de las principales limitantes en cuanto a la calidad del conocimiento obtenible se relaciona
justamente con la cantidad y calidad de los datos disponible, este punto es crítico en
municipalidades de pequeño y mediano tamaño, en donde los recursos disponibles no siempre
permiten el planteo integral de sistemas de información, sino que los requerimientos van
solucionándose contra demanda, enfocándose en la solución operativa y, en la mayoría de los casos,
dejando a un lado los mecanismos para el aprovechamiento de la información generada.
Mediante la utilización de algoritmos y técnicas de MDD ha sido posible formular patrones
de comportamiento de los contribuyentes basándose en la información histórica de los mismos, y
que a priori, no eran conocidos, inclusive por expertos del dominio estudiado haciendo los
siguientes aportes:
•
Acotar notablemente la cantidad de contribuyentes sospechosos, reducción a un 3% del total
aproximadamente, en los cuales es necesario una auditoría más profunda por parte del
departamento de fiscalización y legal a fin de tomar las medidas correspondientes.
•
La introducción de indicadores que permitan prevenir y/o minimizar las conductas
fraudulentas por parte de los contribuyentes.
•
La formalización de procesos administrativos relacionados a los impuestos, como así
también el control en cuanto al correcto funcionamiento de los mismos.
•
La detección de actividades económicas que no tributan ante la municipalidad, y pueden
Facundo José Yatchesen
89
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
representar un importante aporte de recursos para la misma.
En base a la calidad del conocimiento obtenido del proyecto de MDD llevado adelante en
esta tesis, la ventaja competitiva aportada ha sido ampliamente valorada tanto por los expertos en el
dominio como por parte de la dirección de la municipalidad. De esto se desprenden dos cuestiones,
la primera la importancia del trabajo en conjunto con equipos multidisciplinarios, principalmente en
la etapa de comprensión de los datos y evaluación de resultados, y por otro lado, el amplio espectro
de beneficios que aportan este tipo de proyectos, mediante la utilización de los propios datos
generados por los sistemas de información de la municipalidad, la expertise de los recursos
humanos en el dominio, coordinado con un equipo técnico capacitado en proyectos de MDD y en la
utilización de metodologías relacionadas, aun teniendo una cantidad y calidad limitada en cuanto a
los datos disponibles.
Considerando el conocimiento obtenido, los problemas técnicos superados, la legislación
tributaria actual, las implementaciones técnicas y algoritmos utilizados, es viable plantear el
presente caso como un modelo de proyecto extensible a otras municipalidades de similares
características.
5.2 Futuras lineas de investigación
En primer lugar se plantea continuar evolucionando en los procesos de MDD, aplicando
diferentes tipos de técnicas y algoritmos sin limitarse a la clusterización y formulación de reglas y/o
arboles de decisión, sin embargo para que los resultados de esta evolución sean significativos es
necesaria la mejora de la calidad de los datos, principalmente en lo relacionado a las características
de los contribuyentes, sumando la mayor cantidad de datos posibles.
Otra posible evolución se relaciona a la posibilidad de fomentar mecanismos de intercambio
de información entre el municipio y organismos oficiales relacionados a cada una de las tasas
descriptas, tales como Dirección Nacional de Registro de Propiedad Automotor (D.N.R.P.A),
Administración Federal de Ingresos Públicos (A.F.I.P.), Registro de Propiedad Inmueble de la
provincia de Misiones, Dirección General de Rentas Misiones(D.G.R.), Administración Nacional de
Seguridad Social (ANSES) para de esta manera obtener, por un lado información fidedigna
instantánea o al menos lo mas actualizada posible y por el otro lado minimizar la posibilidad de que
Facundo José Yatchesen
90
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
operadores internos cometan errores voluntarios o involuntarios en la carga de información.
Facundo José Yatchesen
91
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Facundo José Yatchesen
92
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Apéndices / Anexos
Facundo José Yatchesen
93
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Anexo 1: Tabla de atributos para el conjunto de datos
Tabla 1: dm_integrado
Campo
Tipo de dato Descripcion
documento
bigint
CUIP/documento del contribuyente
tipoempresa
integer
Tipo de contribuyente
Sumatoria de pagos realizados en concepto de tasa de
comercio2000
money
comercio, año 2000
Sumatoria de pagos realizados en concepto de tasa de
comercio2001
money
comercio, año 2001
Sumatoria de pagos realizados en concepto de tasa de
comercio2002
money
comercio, año 2002
Sumatoria de pagos realizados en concepto de tasa de
comercio2003
money
comercio, año 2003
Sumatoria de pagos realizados en concepto de tasa de
comercio2004
money
comercio, año 2004
Sumatoria de pagos realizados en concepto de tasa de
comercio2005
money
comercio, año 2005
Sumatoria de pagos realizados en concepto de tasa de
comercio2006
money
comercio, año 2006
Sumatoria de pagos realizados en concepto de tasa de
comercio2007
money
comercio, año 2007
Sumatoria de pagos realizados en concepto de tasa de
comercio2008
money
comercio, año 2008
Sumatoria de pagos realizados en concepto de tasa de
comercio2009
money
comercio, año 2009
Sumatoria de pagos realizados en concepto de tasa de
comercio2010
money
comercio, año 2010
Cantidad de años reclamados en el año 2000 en concepto de
intcomercio2000
integer
comercios
Cantidad de años reclamados en el año 2001 en concepto de
intcomercio2001
integer
comercios
Cantidad de años reclamados en el año 2002 en concepto de
intcomercio2002
integer
comercios
Cantidad de años reclamados en el año 2003 en concepto de
intcomercio2003
integer
comercios
Cantidad de años reclamados en el año 2004 en concepto de
intcomercio2004
integer
comercios
Cantidad de años reclamados en el año 2005 en concepto de
intcomercio2005
integer
comercios
Cantidad de años reclamados en el año 2006 en concepto de
intcomercio2006
integer
comercios
Cantidad de años reclamados en el año 2007 en concepto de
intcomercio2007
integer
comercios
Cantidad de años reclamados en el año 2008 en concepto de
intcomercio2008
integer
comercios
Cantidad de años reclamados en el año 2009 en concepto de
intcomercio2009
integer
comercios
intcomercio2010
integer
Cantidad de años reclamados en el año 2010 en concepto de
Facundo José Yatchesen
94
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
inmueble2000
money
inmueble2001
money
inmueble2002
money
inmueble2003
money
inmueble2004
money
inmueble2005
money
inmueble2006
money
inmueble2007
money
inmueble2008
money
inmueble2009
money
inmueble2010
money
intinmueble2000
integer
intinmueble2001
integer
intinmueble2002
integer
intinmueble2003
integer
intinmueble2004
integer
intinmueble2005
integer
intinmueble2006
integer
intinmueble2007
integer
intinmueble2008
integer
intinmueble2009
integer
intinmueble2010
integer
patente2000
money
patente2001
patente2002
money
money
comercios
Sumatoria de pagos realizados en concepto de tasa de
inmueble, año 2000
Sumatoria de pagos realizados en concepto de tasa de
inmueble, año 2001
Sumatoria de pagos realizados en concepto de tasa de
inmueble, año 2002
Sumatoria de pagos realizados en concepto de tasa de
inmueble, año 2003
Sumatoria de pagos realizados en concepto de tasa de
inmueble, año 2004
Sumatoria de pagos realizados en concepto de tasa de
inmueble, año 2005
Sumatoria de pagos realizados en concepto de tasa de
inmueble, año 2006
Sumatoria de pagos realizados en concepto de tasa de
inmueble, año 2007
Sumatoria de pagos realizados en concepto de tasa de
inmueble, año 2008
Sumatoria de pagos realizados en concepto de tasa de
inmueble, año 2009
Sumatoria de pagos realizados en concepto de tasa de
inmueble, año 2010
Cantidad de años reclamados en el año 2000 en concepto de
inmuebles
Cantidad de años reclamados en el año 2001 en concepto de
inmuebles
Cantidad de años reclamados en el año 2002 en concepto de
inmuebles
Cantidad de años reclamados en el año 2003 en concepto de
inmuebles
Cantidad de años reclamados en el año 2004 en concepto de
inmuebles
Cantidad de años reclamados en el año 2005 en concepto de
inmuebles
Cantidad de años reclamados en el año 2006 en concepto de
inmuebles
Cantidad de años reclamados en el año 2007 en concepto de
inmuebles
Cantidad de años reclamados en el año 2008 en concepto de
inmuebles
Cantidad de años reclamados en el año 2009 en concepto de
inmuebles
Cantidad de años reclamados en el año 2010 en concepto de
inmuebles
Sumatoria de pagos realizados en concepto de tasa de
patente, año 2000
Sumatoria de pagos realizados en concepto de tasa de
patente, año 2001
Sumatoria de pagos realizados en concepto de tasa de
Facundo José Yatchesen
95
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
patente2003
money
patente2004
money
patente2005
money
patente2006
money
patente2007
money
patente2008
money
patente2009
money
patente2010
money
intpatente2000
integer
intpatente2001
integer
intpatente2002
integer
intpatente2003
integer
intpatente2004
integer
intpatente2005
integer
intpatente2006
integer
intpatente2007
integer
intpatente2008
integer
intpatente2009
integer
intpatente2010
cantidadcomercios
cantidadinmuebles
cantidad patentes
integer
integer
integer
integer
patente, año 2002
Sumatoria de pagos realizados en concepto de tasa de
patente, año 2003
Sumatoria de pagos realizados en concepto de tasa de
patente, año 2004
Sumatoria de pagos realizados en concepto de tasa de
patente, año 2005
Sumatoria de pagos realizados en concepto de tasa de
patente, año 2006
Sumatoria de pagos realizados en concepto de tasa de
patente, año 2007
Sumatoria de pagos realizados en concepto de tasa de
patente, año 2008
Sumatoria de pagos realizados en concepto de tasa de
patente, año 2009
Sumatoria de pagos realizados en concepto de tasa de
patente, año 2010
Cantidad de años reclamados en el año 2000 en concepto de
patentes
Cantidad de años reclamados en el año 2001 en concepto de
patentes
Cantidad de años reclamados en el año 2002 en concepto de
patentes
Cantidad de años reclamados en el año 2003 en concepto de
patentes
Cantidad de años reclamados en el año 2004 en concepto de
patentes
Cantidad de años reclamados en el año 2005 en concepto de
patentes
Cantidad de años reclamados en el año 2006 en concepto de
patentes
Cantidad de años reclamados en el año 2007 en concepto de
patentes
Cantidad de años reclamados en el año 2008 en concepto de
patentes
Cantidad de años reclamados en el año 2009 en concepto de
patentes
Cantidad de años reclamados en el año 2010 en concepto de
patentes
Cantidad de comercios para el documento indicado
Cantidad de inmuebles para el documento indicado
Cantidad de patentes para el documento indicado
Anexo 2: Función de categorización de importes
CREATE FUNCTION fx_municipal_categoria (@importe money)
RETURNS money AS
Facundo José Yatchesen
96
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
BEGIN
--devuelve el la categoria dado el import
declare @respuesta integer
if (@importe) < 0
set @respuesta = 0
if ((@importe) >= 0 and (@importe) < 50)
set @respuesta = 1
if ((@importe) >= 50 and (@importe) < 100)
set @respuesta = 2
if ((@importe) >= 100 and (@importe) < 200)
set @respuesta = 3
if ((@importe) >= 200 and (@importe) < 500)
set @respuesta = 4
if ((@importe) >= 500 and (@importe) < 800)
set @respuesta = 5
if ((@importe) >= 800 and (@importe) < 1500)
set @respuesta = 6
if ((@importe) >= 1500 and (@importe) < 3000)
set @respuesta = 7
if ((@importe) >= 3000 and (@importe) < 6000)
set @respuesta = 8
if ((@importe) >= 6000 and (@importe) < 12000)
set @respuesta = 9
if ((@importe) >= 12000 and (@importe) < 24000)
set @respuesta = 10
if ((@importe) >= 24000 and (@importe) < 48000)
set @respuesta = 11
if ((@importe) >= 48000 and (@importe) < 96000)
set @respuesta = 12
if ((@importe) >= 96000)
set @respuesta = 13
return @respuesta
END
Anexo 3: Procedimiento de transformación de datos hacia el conjunto de datos
CREATE PROCEDURE DM_Insertar_Datos
AS
DECLARE @cantidad AS INT
DECLARE @documento AS BIGINT
DECLARE @var1 AS BIGINT
DECLARE @var2 AS BIGINT
DECLARE @var3 AS BIGINT
DECLARE @var4 AS BIGINT
Facundo José Yatchesen
97
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
DECLARE @var5 AS BIGINT
DECLARE @var6 AS BIGINT
DECLARE @var7 AS BIGINT
DECLARE @var8 AS BIGINT
DECLARE @var9 AS BIGINT
DECLARE @var10 AS BIGINT
DECLARE @var0 AS BIGINT
DECLARE @auxiliar AS INT
--Con este SP Inserto todo los datos en la table
--Primero vacio la tabla
DELETE FROM dm_integrado
--Primero inserto los datos de inmuebles
INSERT INTO dm_integrado (documento, comercio2000, intcomercio2000, comercio2001,
intcomercio2001, comercio2002, intcomercio2002, comercio2003, intcomercio2003,
comercio2004, intcomercio2004, comercio2005, intcomercio2005, comercio2006,
intcomercio2006, comercio2007, intcomercio2007, comercio2008, intcomercio2008,
comercio2009, intcomercio2009,
comercio2010, intcomercio2010 )
(SELECT
(SELECT CASE WHEN (documento < 3) THEN convert(integer, substring(cuit, 4, 8))
ELSE documento END from Pco_Entidad_Personas WHERE Pco_Entidad_Personas.id_entidad =
Ccio_comercios.id_entidad) AS documento,
(SELECT (ISNULL(SUM(Ccio_Pagos_Detalle.importe), 0)) FROM Ccio_Pagos INNER
JOIN Ccio_Pagos_Detalle ON Ccio_Pagos.id_pagos = Ccio_Pagos_Detalle.id_pagos WHERE
Ccio_Pagos_Detalle.id_comercio = Ccio_comercios.id_comercio AND year(fecha) = 2000) AS
importe2000,
(SELECT count(*) FROM Ccio_intimaciones_rec_deudas WHERE
Ccio_intimaciones_rec_deudas.id_comercio = Ccio_comercios.id_comercio AND year(fecha) =
2000) AS intimado2000,
(SELECT(ISNULL(SUM(Ccio_Pagos_Detalle.importe), 0)) FROM Ccio_Pagos INNER
JOIN Ccio_Pagos_Detalle ON Ccio_Pagos.id_pagos = Ccio_Pagos_Detalle.id_pagos WHERE
Ccio_Pagos_Detalle.id_comercio = Ccio_comercios.id_comercio AND year(fecha) = 2001) AS
importe2001,
(SELECT count(*) FROM Ccio_intimaciones_rec_deudas WHERE
Ccio_intimaciones_rec_deudas.id_comercio = Ccio_comercios.id_comercio AND year(fecha) =
2001) AS intimado2001,
(SELECT(ISNULL(SUM(Ccio_Pagos_Detalle.importe), 0)) FROM Ccio_Pagos INNER
JOIN Ccio_Pagos_Detalle ON Ccio_Pagos.id_pagos = Ccio_Pagos_Detalle.id_pagos WHERE
Ccio_Pagos_Detalle.id_comercio = Ccio_comercios.id_comercio AND year(fecha) = 2002) AS
importe2002,
(SELECT count(*) FROM Ccio_intimaciones_rec_deudas WHERE
Ccio_intimaciones_rec_deudas.id_comercio = Ccio_comercios.id_comercio AND year(fecha) =
2002) AS intimado2002,
(SELECT (ISNULL(SUM(Ccio_Pagos_Detalle.importe), 0)) FROM Ccio_Pagos INNER
JOIN Ccio_Pagos_Detalle ON Ccio_Pagos.id_pagos = Ccio_Pagos_Detalle.id_pagos WHERE
Facundo José Yatchesen
98
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Ccio_Pagos_Detalle.id_comercio = Ccio_comercios.id_comercio AND year(fecha) = 2003) AS
importe2003,
(SELECT count(*) FROM Ccio_intimaciones_rec_deudas WHERE
Ccio_intimaciones_rec_deudas.id_comercio = Ccio_comercios.id_comercio AND year(fecha) =
2003) AS intimado2003,
(SELECT (ISNULL(SUM(Ccio_Pagos_Detalle.importe), 0)) FROM Ccio_Pagos INNER
JOIN Ccio_Pagos_Detalle ON Ccio_Pagos.id_pagos = Ccio_Pagos_Detalle.id_pagos WHERE
Ccio_Pagos_Detalle.id_comercio = Ccio_comercios.id_comercio AND year(fecha) = 2004) AS
importe2004,
(SELECT count(*) FROM Ccio_intimaciones_rec_deudas WHERE
Ccio_intimaciones_rec_deudas.id_comercio = Ccio_comercios.id_comercio AND year(fecha) =
2004) AS intimado2004,
(SELECT (ISNULL(SUM(Ccio_Pagos_Detalle.importe), 0)) FROM Ccio_Pagos INNER
JOIN Ccio_Pagos_Detalle ON Ccio_Pagos.id_pagos = Ccio_Pagos_Detalle.id_pagos WHERE
Ccio_Pagos_Detalle.id_comercio = Ccio_comercios.id_comercio AND year(fecha) = 2005) AS
importe2005,
(SELECT count(*) FROM Ccio_intimaciones_rec_deudas WHERE
Ccio_intimaciones_rec_deudas.id_comercio = Ccio_comercios.id_comercio AND year(fecha) =
2005) AS intimado2005,
(SELECT (ISNULL(SUM(Ccio_Pagos_Detalle.importe), 0)) FROM Ccio_Pagos INNER
JOIN Ccio_Pagos_Detalle ON Ccio_Pagos.id_pagos = Ccio_Pagos_Detalle.id_pagos WHERE
Ccio_Pagos_Detalle.id_comercio = Ccio_comercios.id_comercio AND year(fecha) = 2006) AS
importe2006,
(SELECT count(*) FROM Ccio_intimaciones_rec_deudas WHERE
Ccio_intimaciones_rec_deudas.id_comercio = Ccio_comercios.id_comercio AND year(fecha) =
2006) AS intimado2006,
(SELECT(ISNULL(SUM(Ccio_Pagos_Detalle.importe), 0)) FROM Ccio_Pagos INNER
JOIN Ccio_Pagos_Detalle ON Ccio_Pagos.id_pagos = Ccio_Pagos_Detalle.id_pagos WHERE
Ccio_Pagos_Detalle.id_comercio = Ccio_comercios.id_comercio AND year(fecha) = 2007) AS
importe2007,
(SELECT count(*) FROM Ccio_intimaciones_rec_deudas WHERE
Ccio_intimaciones_rec_deudas.id_comercio = Ccio_comercios.id_comercio AND year(fecha) =
2007) AS intimado2007,
(SELECT(ISNULL(SUM(Ccio_Pagos_Detalle.importe), 0)) FROM Ccio_Pagos INNER
JOIN Ccio_Pagos_Detalle ON Ccio_Pagos.id_pagos = Ccio_Pagos_Detalle.id_pagos WHERE
Ccio_Pagos_Detalle.id_comercio = Ccio_comercios.id_comercio AND year(fecha) = 2008) AS
importe2008,
(SELECT count(*) FROM Ccio_intimaciones_rec_deudas WHERE
Ccio_intimaciones_rec_deudas.id_comercio = Ccio_comercios.id_comercio AND year(fecha) =
2008) AS intimado2008,
(SELECT (ISNULL(SUM(Ccio_Pagos_Detalle.importe), 0)) FROM Ccio_Pagos INNER
JOIN Ccio_Pagos_Detalle ON Ccio_Pagos.id_pagos = Ccio_Pagos_Detalle.id_pagos WHERE
Ccio_Pagos_Detalle.id_comercio = Ccio_comercios.id_comercio AND year(fecha) = 2009) AS
importe2009,
(SELECT count(*) FROM Ccio_intimaciones_rec_deudas WHERE
Ccio_intimaciones_rec_deudas.id_comercio = Ccio_comercios.id_comercio AND year(fecha) =
Facundo José Yatchesen
99
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
2009) AS intimado2009,
(SELECT(ISNULL(SUM(Ccio_Pagos_Detalle.importe), 0)) FROM Ccio_Pagos INNER
JOIN Ccio_Pagos_Detalle ON Ccio_Pagos.id_pagos = Ccio_Pagos_Detalle.id_pagos WHERE
Ccio_Pagos_Detalle.id_comercio = Ccio_comercios.id_comercio AND year(fecha) = 2010) AS
importe2010,
(SELECT count(*) FROM Ccio_intimaciones_rec_deudas WHERE
Ccio_intimaciones_rec_deudas.id_comercio = Ccio_comercios.id_comercio AND year(fecha) =
2010) AS intimado2010
FROM
Ccio_comercios
WHERE
(ccio_comercios.n_habilitacion NOT LIKE '%E/T%' AND
ccio_comercios.n_habilitacion NOT LIKE '%A%' AND ccio_comercios.n_habilitacion NOT LIKE
'%a%' AND ccio_comercios.n_habilitacion NOT LIKE '%B%')
AND Ccio_comercios.fecha_habilitacion <= '31/12/2010')
DELETE FROM dm_integrado WHERE documento = 0
---Actualizo la cantidad de unidades para el documento para comercios
DECLARE CURSORITO CURSOR FOR
SELECT documento, COUNT(*) AS cantidad FROM dm_integrado GROUP BY
documento ORDER BY cantidad DESC
OPEN CURSORITO
---Avanzamos un registro y cargamos en las variables los valores encontrados en el primer
registro
FETCH NEXT FROM CURSORITO
INTO @documento, @cantidad
WHILE @@fetch_status = 0
BEGIN
UPDATE dm_integrado SET cantidadcomercios = @cantidad WHERE
documento = @documento
FETCH NEXT FROM CURSORITO
INTO @documento, @cantidad
END
---cerramos el cursor
CLOSE CURSORITO
DEALLOCATE CURSORITO
---Vacio la tabla temporal
DELETE FROM dm_integrado2
---Guardo en la tabla temporal los que son con mas de un comercio
Facundo José Yatchesen
100
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
INSERT INTO dm_integrado2 (documento, cantidadcomercios, comercio2000, intcomercio2000,
comercio2001, intcomercio2001, comercio2002, intcomercio2002, comercio2003,
intcomercio2003,
comercio2004, intcomercio2004, comercio2005, intcomercio2005, comercio2006,
intcomercio2006, comercio2007, intcomercio2007, comercio2008, intcomercio2008,
comercio2009, intcomercio2009,
comercio2010, intcomercio2010 ) (SELECT documento, cantidadcomercios,
SUM(comercio2000), SUM(intcomercio2000), SUM(comercio2001), SUM(intcomercio2001),
SUM(comercio2002), SUM(intcomercio2002), SUM(comercio2003), SUM(intcomercio2003)
, SUM(comercio2004), SUM(intcomercio2004), SUM(comercio2005), SUM(intcomercio2005),
SUM(comercio2006), SUM(intcomercio2006), SUM(comercio2007), SUM(intcomercio2007),
SUM(comercio2008), SUM(intcomercio2008)
, SUM(comercio2009), SUM(intcomercio2009), SUM(comercio2010), SUM(intcomercio2010)
FROM dm_integrado GROUP BY documento, tipoempresa, anioinscomercio, cantidadcomercios)
---Vacio la tabla original
DELETE FROM dm_integrado
---Cargo todo en la tabla felpa
INSERT INTO dm_integrado (documento, cantidadcomercios, comercio2000, intcomercio2000,
comercio2001, intcomercio2001, comercio2002, intcomercio2002, comercio2003,
intcomercio2003,
comercio2004, intcomercio2004, comercio2005, intcomercio2005, comercio2006,
intcomercio2006, comercio2007, intcomercio2007, comercio2008, intcomercio2008,
comercio2009, intcomercio2009,
comercio2010, intcomercio2010 ) (SELECT documento, cantidadcomercios,
SUM(comercio2000), SUM(intcomercio2000), SUM(comercio2001), SUM(intcomercio2001),
SUM(comercio2002), SUM(intcomercio2002), SUM(comercio2003), SUM(intcomercio2003)
, SUM(comercio2004), SUM(intcomercio2004), SUM(comercio2005), SUM(intcomercio2005),
SUM(comercio2006), SUM(intcomercio2006), SUM(comercio2007), SUM(intcomercio2007),
SUM(comercio2008), SUM(intcomercio2008)
, SUM(comercio2009), SUM(intcomercio2009), SUM(comercio2010), SUM(intcomercio2010)
FROM dm_integrado2 GROUP BY documento, tipoempresa, anioinscomercio, cantidadcomercios)
---Borro el loquito que esta con documento null
DELETE FROM dm_integrado WHERE documento IS NULL
---Cargo lo de inmuebles
DELETE FROM dm_integrado2
INSERT dm_integrado2 (tipoempresa, documento, comercio2000, comercio2001, comercio2002,
comercio2003, comercio2004, comercio2005, comercio2006, comercio2007, comercio2008,
comercio2009, comercio2010 ) (
SELECT Inm_DatosContribuyente.NContribuyente, documento,
(SELECT isnull((SUM(tasa) + sum(alumbrado) + sum(catastro) + sum(recargos) +
sum(obraspublicas)), 0) FROM Inm_Pagos WHERE year(fecha) = 2000 and
Facundo José Yatchesen
101
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Inm_Pagos.NContribuyente = Inm_DatosContribuyente.NContribuyente),
(SELECT isnull((SUM(tasa) + sum(alumbrado) + sum(catastro) + sum(recargos) +
sum(obraspublicas)), 0) FROM Inm_Pagos WHERE year(fecha) = 2001 and
Inm_Pagos.NContribuyente = Inm_DatosContribuyente.NContribuyente),
(SELECT isnull((SUM(tasa) + sum(alumbrado) + sum(catastro) + sum(recargos) +
sum(obraspublicas)), 0) FROM Inm_Pagos WHERE year(fecha) = 2002 and
Inm_Pagos.NContribuyente = Inm_DatosContribuyente.NContribuyente),
(SELECT isnull((SUM(tasa) + sum(alumbrado) + sum(catastro) + sum(recargos) +
sum(obraspublicas)), 0) FROM Inm_Pagos WHERE year(fecha) = 2003 and
Inm_Pagos.NContribuyente = Inm_DatosContribuyente.NContribuyente),
(SELECT isnull((SUM(tasa) + sum(alumbrado) + sum(catastro) + sum(recargos) +
sum(obraspublicas)), 0) FROM Inm_Pagos WHERE year(fecha) = 2004 and
Inm_Pagos.NContribuyente = Inm_DatosContribuyente.NContribuyente),
(SELECT isnull((SUM(tasa) + sum(alumbrado) + sum(catastro) + sum(recargos) +
sum(obraspublicas)), 0) FROM Inm_Pagos WHERE year(fecha) = 2005 and
Inm_Pagos.NContribuyente = Inm_DatosContribuyente.NContribuyente),
(SELECT isnull((SUM(tasa) + sum(alumbrado) + sum(catastro) + sum(recargos) +
sum(obraspublicas)), 0) FROM Inm_Pagos WHERE year(fecha) = 2006 and
Inm_Pagos.NContribuyente = Inm_DatosContribuyente.NContribuyente),
(SELECT isnull((SUM(tasa) + sum(alumbrado) + sum(catastro) + sum(recargos) +
sum(obraspublicas)), 0) FROM Inm_Pagos WHERE year(fecha) = 2007 and
Inm_Pagos.NContribuyente = Inm_DatosContribuyente.NContribuyente),
(SELECT isnull((SUM(tasa) + sum(alumbrado) + sum(catastro) + sum(recargos) +
sum(obraspublicas)), 0) FROM Inm_Pagos WHERE year(fecha) = 2008 and
Inm_Pagos.NContribuyente = Inm_DatosContribuyente.NContribuyente),
(SELECT isnull((SUM(tasa) + sum(alumbrado) + sum(catastro) + sum(recargos) +
sum(obraspublicas)), 0) FROM Inm_Pagos WHERE year(fecha) = 2009 and
Inm_Pagos.NContribuyente = Inm_DatosContribuyente.NContribuyente),
(SELECT isnull((SUM(tasa) + sum(alumbrado) + sum(catastro) + sum(recargos) +
sum(obraspublicas)), 0) FROM Inm_Pagos WHERE year(fecha) = 2010 and
Inm_Pagos.NContribuyente = Inm_DatosContribuyente.NContribuyente)
FROM Inm_DatosContribuyente WHERE documento != 0 )
---Actualizo la cantidad de unidades para el documento para comercios
DECLARE CURSORITO2 CURSOR FOR
SELECT documento, COUNT(*) AS cantidad, sum(comercio2000), sum(comercio2001),
sum(comercio2002), sum(comercio2003), sum(comercio2004), sum(comercio2005),
sum(comercio2006), sum(comercio2007), sum(comercio2008),
sum(comercio2009), sum(comercio2010) FROM dm_integrado2 GROUP BY documento
OPEN CURSORITO2
---Avanzamos un registro y cargamos en las variables los valores encontrados en el primer
registro
FETCH NEXT FROM CURSORITO2
INTO @documento, @cantidad, @var0, @var1, @var2, @var3, @var4, @var5, @var6,
@var7, @var8, @var9, @var10
Facundo José Yatchesen
102
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
WHILE @@fetch_status = 0
BEGIN
SET @auxiliar = 0
SET @auxiliar = (SELECT COUNT(*) FROM dm_integrado WHERE
documento = @documento)
IF @auxiliar = 0
INSERT INTO dm_integrado (documento, cantidadinmuebles,
inmueble2000, inmueble2001, inmueble2002, inmueble2003, inmueble2004, inmueble2005,
inmueble2006, inmueble2007, inmueble2008, inmueble2009, inmueble2010
) VALUES ( @documento, @cantidad, @var0, @var1, @var2,
@var3, @var4, @var5, @var6, @var7, @var8, @var9, @var10)
ELSE
UPDATE dm_integrado SET cantidadinmuebles = @cantidad ,
inmueble2000 =@var0 , inmueble2001 =@var1, inmueble2002 =@var2, inmueble2003 =@var3,
inmueble2004 =@var4, inmueble2005 =@var5
, inmueble2006 =@var6, inmueble2007 =@var7, inmueble2008
=@var8, inmueble2009 =@var9, inmueble2010 =@var10 WHERE documento = @documento
FETCH NEXT FROM CURSORITO2
INTO @documento, @cantidad, @var0, @var1, @var2, @var3, @var4,
@var5, @var6, @var7, @var8, @var9, @var10
END
---cerramos el cursor
CLOSE CURSORITO2
DEALLOCATE CURSORITO2
---Cargo lo de patentes
DELETE FROM dm_integrado2
INSERT dm_integrado2 (tipoempresa, documento, comercio2000, comercio2001, comercio2002,
comercio2003, comercio2004, comercio2005, comercio2006, comercio2007, comercio2008,
comercio2009, comercio2010 )
(SELECT id_patente, dni,
(SELECT isnull(SUM(IMPOT), 0) FROM pat_pagos WHERE YEAR(fechap) = 2000 AND
pat_pagos.id_patente = pat_propietarios.id_patente),
(SELECT isnull(SUM(IMPOT), 0) FROM pat_pagos WHERE YEAR(fechap) = 2001 AND
pat_pagos.id_patente = pat_propietarios.id_patente),
(SELECT isnull(SUM(IMPOT), 0) FROM pat_pagos WHERE YEAR(fechap) = 2002 AND
pat_pagos.id_patente = pat_propietarios.id_patente),
(SELECT isnull(SUM(IMPOT), 0) FROM pat_pagos WHERE YEAR(fechap) = 2003 AND
pat_pagos.id_patente = pat_propietarios.id_patente),
(SELECT isnull(SUM(IMPOT), 0) FROM pat_pagos WHERE YEAR(fechap) = 2004 AND
pat_pagos.id_patente = pat_propietarios.id_patente),
Facundo José Yatchesen
103
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
(SELECT isnull(SUM(IMPOT), 0) FROM pat_pagos WHERE YEAR(fechap) = 2005 AND
pat_pagos.id_patente = pat_propietarios.id_patente),
(SELECT isnull(SUM(IMPOT), 0) FROM pat_pagos WHERE YEAR(fechap) = 2006 AND
pat_pagos.id_patente = pat_propietarios.id_patente),
(SELECT isnull(SUM(IMPOT), 0) FROM pat_pagos WHERE YEAR(fechap) = 2007 AND
pat_pagos.id_patente = pat_propietarios.id_patente),
(SELECT isnull(SUM(IMPOT), 0) FROM pat_pagos WHERE YEAR(fechap) = 2008 AND
pat_pagos.id_patente = pat_propietarios.id_patente),
(SELECT isnull(SUM(IMPOT), 0) FROM pat_pagos WHERE YEAR(fechap) = 2009 AND
pat_pagos.id_patente = pat_propietarios.id_patente),
(SELECT isnull(SUM(IMPOT), 0) FROM pat_pagos WHERE YEAR(fechap) = 2010 AND
pat_pagos.id_patente = pat_propietarios.id_patente)
FROM pat_propietarios WHERE dni != 0 GROUP BY id_patente, dni)
---Actualizo la cantidad de unidades para el documento para comercios
DECLARE CURSORITO3 CURSOR FOR
SELECT documento, COUNT(*) AS cantidad, sum(comercio2000), sum(comercio2001),
sum(comercio2002), sum(comercio2003), sum(comercio2004), sum(comercio2005),
sum(comercio2006), sum(comercio2007), sum(comercio2008),
sum(comercio2009), sum(comercio2010) FROM dm_integrado2 GROUP BY documento
OPEN CURSORITO3
---Avanzamos un registro y cargamos en las variables los valores encontrados en el primer
registro
FETCH NEXT FROM CURSORITO3
INTO @documento, @cantidad, @var0, @var1, @var2, @var3, @var4, @var5, @var6,
@var7, @var8, @var9, @var10
WHILE @@fetch_status = 0
BEGIN
SET @auxiliar = 0
SET @auxiliar = (SELECT COUNT(*) FROM dm_integrado WHERE
documento = @documento)
IF @auxiliar = 0
INSERT INTO dm_integrado (documento, cantidadpatentes,
patente2000, patente2001, patente2002, patente2003, patente2004, patente2005, patente2006,
patente2007, patente2008, patente2009, patente2010
) VALUES ( @documento, @cantidad, @var0, @var1, @var2,
@var3, @var4, @var5, @var6, @var7, @var8, @var9, @var10)
ELSE
UPDATE dm_integrado SET cantidadpatentes = @cantidad ,
patente2000 =@var0 , patente2001 =@var1, patente2002 =@var2, patente2003 =@var3,
patente2004 =@var4, patente2005 =@var5
, patente2006 =@var6, patente2007 =@var7, patente2008 =@var8,
Facundo José Yatchesen
104
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
patente2009 =@var9, patente2010 =@var10 WHERE documento = @documento
FETCH NEXT FROM CURSORITO3
INTO @documento, @cantidad, @var0, @var1, @var2, @var3, @var4,
@var5, @var6, @var7, @var8, @var9, @var10
END
---cerramos el cursor
CLOSE CURSORITO3
DEALLOCATE CURSORITO3
---Borro todos los que nunca pagaron algo
DELETE FROM dm_integrado WHERE (comercio2000 + comercio2001 + comercio2002 +
comercio2003 + comercio2004 + comercio2005 + comercio2006 + comercio2007 + comercio2008
+ comercio2009
+ comercio2010 + inmueble2000 + inmueble2001 + inmueble2002 + inmueble2003 +
inmueble2004 + inmueble2005 + inmueble2006 + inmueble2007 + inmueble2008 + inmueble2009
+ inmueble2010 +
patente2000 + patente2001 + patente2002 + patente2003 + patente2004 + patente2005 +
patente2006 + patente2007 + patente2008 + patente2009 + patente2010) = 0
---Vacio la tabla temporal para cargar las intimaciones
DELETE FROM dm_integrado2
---Inserto las intimaciones de comercio
INSERT INTO dm_integrado2 (documento, tipoempresa, anioinscomercio, cantidadcomercios)
(SELECT Ccio_comercios.id_comercio, CASE WHEN (documento < 3) THEN convert(integer,
substring(cuit, 4, 8)) ELSE documento END, year(fecha) - año_desde as cantidad, year(fecha)
FROM Ccio_intimaciones_rec_deudas INNER JOIN Ccio_comercios ON
Ccio_intimaciones_rec_deudas.id_comercio = Ccio_comercios.id_comercio INNER JOIN
Pco_Entidad_Personas ON Ccio_comercios.id_entidad =
Pco_Entidad_Personas.Id_Entidad WHERE YEAR(fecha) >= 2000 AND YEAR(fecha) <= 2010)
---Borro todo los documentos = 0
DELETE FROM dm_integrado2 WHERE documento = 0
---Borro todo los cantidades con valores superiores
DELETE FROM dm_integrado2 WHERE anioinscomercio < 0 OR anioinscomercio > 100
---Actualizo de acuerdo al tipo y anio
DECLARE CURSORITO4 CURSOR FOR
SELECT tipoempresa, SUM(anioinscomercio), cantidadcomercios FROM dm_integrado2
GROUP BY tipoempresa, cantidadcomercios
OPEN CURSORITO4
---Avanzamos un registro y cargamos en las variables los valores encontrados en el primer
registro
Facundo José Yatchesen
105
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
FETCH NEXT FROM CURSORITO4
INTO @documento, @cantidad, @var0
WHILE @@fetch_status = 0
BEGIN
IF @var0 = 2000
UPDATE dm_integrado SET intcomercio2000 = @cantidad WHERE
documento = @documento
IF @var0 = 2001
UPDATE dm_integrado SET intcomercio2001 = @cantidad WHERE
documento = @documento
IF @var0 = 2002
UPDATE dm_integrado SET intcomercio2002 = @cantidad WHERE
documento = @documento
IF @var0 = 2003
UPDATE dm_integrado SET intcomercio2003 = @cantidad WHERE
documento = @documento
IF @var0 = 2004
UPDATE dm_integrado SET intcomercio2004 = @cantidad WHERE
documento = @documento
IF @var0 = 2005
UPDATE dm_integrado SET intcomercio2005 = @cantidad WHERE
documento = @documento
IF @var0 = 2006
UPDATE dm_integrado SET intcomercio2006 = @cantidad WHERE
documento = @documento
IF @var0 = 2007
UPDATE dm_integrado SET intcomercio2007 = @cantidad WHERE
documento = @documento
IF @var0 = 2008
UPDATE dm_integrado SET intcomercio2008 = @cantidad WHERE
documento = @documento
IF @var0 = 2009
UPDATE dm_integrado SET intcomercio2009 = @cantidad WHERE
documento = @documento
IF @var0 = 2010
UPDATE dm_integrado SET intcomercio2010 = @cantidad WHERE
documento = @documento
FETCH NEXT FROM CURSORITO4
INTO @documento, @cantidad, @var0
END
---cerramos el cursor
CLOSE CURSORITO4
DEALLOCATE CURSORITO4
Facundo José Yatchesen
106
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
---Vacio la tabla temporal para cargar las intimaciones
DELETE FROM dm_integrado2
---Inserto las intimaciones de inmuebles
INSERT INTO dm_integrado2 (documento, tipoempresa, anioinscomercio, cantidadcomercios)
(SELECT n_contribuyente, documento, YEAR(fecha) - desde_año as cantidad, YEAR(fecha)
FROM Inm_Intimaciones INNER JOIN inm_datoscontribuyente ON
Inm_Intimaciones.n_contribuyente = inm_datoscontribuyente.ncontribuyente WHERE
YEAR(fecha) >= 2000 AND YEAR(fecha) <= 2010)
---Borro todo los documentos = 0
DELETE FROM dm_integrado2 WHERE documento = 0
---Borro todo los cantidades con valores superiores
DELETE FROM dm_integrado2 WHERE anioinscomercio < 0 OR anioinscomercio > 100
---Actualizo de acuerdo al tipo y anio
DECLARE CURSORITO5 CURSOR FOR
SELECT tipoempresa, SUM(anioinscomercio), cantidadcomercios FROM dm_integrado2
GROUP BY tipoempresa, cantidadcomercios
OPEN CURSORITO5
---Avanzamos un registro y cargamos en las variables los valores encontrados en el primer
registro
FETCH NEXT FROM CURSORITO5
INTO @documento, @cantidad, @var0
WHILE @@fetch_status = 0
BEGIN
IF @var0 = 2000
UPDATE dm_integrado SET intinmueble2000 = @cantidad WHERE
documento = @documento
IF @var0 = 2001
UPDATE dm_integrado SET intinmueble2001 = @cantidad WHERE
documento = @documento
IF @var0 = 2002
UPDATE dm_integrado SET intinmueble2002 = @cantidad WHERE
documento = @documento
IF @var0 = 2003
UPDATE dm_integrado SET intinmueble2003 = @cantidad WHERE
documento = @documento
IF @var0 = 2004
UPDATE dm_integrado SET intinmueble2004 = @cantidad WHERE
documento = @documento
IF @var0 = 2005
UPDATE dm_integrado SET intinmueble2005 = @cantidad WHERE
documento = @documento
Facundo José Yatchesen
107
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
IF @var0 = 2006
UPDATE dm_integrado SET intinmueble2006 = @cantidad WHERE
documento = @documento
IF @var0 = 2007
UPDATE dm_integrado SET intinmueble2007 = @cantidad WHERE
documento = @documento
IF @var0 = 2008
UPDATE dm_integrado SET intinmueble2008 = @cantidad WHERE
documento = @documento
IF @var0 = 2009
UPDATE dm_integrado SET intinmueble2009 = @cantidad WHERE
documento = @documento
IF @var0 = 2010
UPDATE dm_integrado SET intinmueble2010 = @cantidad WHERE
documento = @documento
FETCH NEXT FROM CURSORITO5
INTO @documento, @cantidad, @var0
END
---cerramos el cursor
CLOSE CURSORITO5
DEALLOCATE CURSORITO5
---Actualizo de acuerdo al tipo y anio
SET @cantidad = 1
DECLARE CURSORITO6 CURSOR FOR
SELECT documento FROM dm_integrado
OPEN CURSORITO6
---Avanzamos un registro y cargamos en las variables los valores encontrados en el primer
registro
FETCH NEXT FROM CURSORITO6
INTO @documento
WHILE @@fetch_status = 0
BEGIN
UPDATE dm_integrado SET tipoempresa = @cantidad WHERE documento
= @documento
SET @cantidad = @cantidad + 1
FETCH NEXT FROM CURSORITO6
INTO @documento
END
Facundo José Yatchesen
108
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
---cerramos el cursor
CLOSE CURSORITO6
DEALLOCATE CURSORITO6
GO
Facundo José Yatchesen
109
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Bibliografía
Facundo José Yatchesen
110
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
[1] C. Phua, V. Lee, K. Smith, y R. Gayler, «A Comprehensive Survey of Data Mining-based
Fraud Detection Research», arXiv:1009.6119, sep. 2010.
[2] V. Chandola, A. Banerjee, y V. Kumar, «Anomaly detection: A survey», ACM Comput. Surv.,
vol. 41, no. 3, pp. 15:1–15:58, jul. 2009.
[3] J. Han y M. Kamber, Data Mining: Concepts and Techniques. Morgan Kaufmann, 2005.
[4] F. B. Clyde W. Holsapple, Handbook on Decision Support Systems 2: Variations. Springer,
2008.
[5] U. Fayyad, G. Piatetsky-Shapiro, y P. Smyth, «From data mining to knowledge discovery in
databases», AI magazine, vol. 17, no. 3, p. 37, 1996.
[6] D. J. Hand, H. Mannila, y P. Smyth, Principles of Data Mining. A Bradford Book, 2001.
[7] S. Chakrabarti, Data Mining: Know it all. Morgan Kaufmann, 2008.
[8] Perversi Ignacio, Fernandez Enrique, y Garcia-Martinez Ramon, «APLICACIÓN DE
MINERÍA DE DATOS PARA LA EXPLORACIÓN Y DETECCIÓN DE PATRONES
DELICTIVOS EN ARGENTINA», Instituto Tecnologico de Buenos Aires, 2007.
[9] Dunja Mladenic, Nada Lavra, Marko Bohanec, Steve Moyle, Data Mining and Decision
Support: Integration and Collaboration. Springer.
[10]
B. Curtis, M. I. Kellner, y J. Over, «Process modeling», Commun. ACM, vol. 35, no. 9, pp.
75–90, sep. 1992.
[11]
S. Kanungo, «Using Process Theory to Analyze Direct and Indirect Value-Drivers of
Information Systems», in Proceedings of the 38th Annual Hawaii International Conference on
System Sciences, 2005. HICSS ’05, 2005, p. 231c.
[12]
J. E. Ferreira, O. K. Takai, y C. Pu, «Integration of business processes with autonomous
information systems: a case study in government services», in Seventh IEEE International
Conference on E-Commerce Technology, 2005. CEC 2005, 2005, pp. 471 – 474.
[13]
R. García-Martínez, P. Britos, P. Pesado, y R. Bertone, «Towards an Information Mining
Engineering», Software Engineering, Methods, Modeling and Teaching, pp. 83–99, 2011.
[14]
C. P. Team, «CMMI for Development, version 1.2», 2006.
[15]
H. Oktaba, F. Garcia, M. Piattini, F. Ruiz, F. J. Pino, y C. Alquicira, «Software Process
Improvement: The Competisoft Project», Computer, vol. 40, no. 10, pp. 21 –28, oct. 2007.
Facundo José Yatchesen
111
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
[16]
Hanna Oktaba, «Modelo de Procesos para la Industria de Software MoProSoft. Version
1.3». ago-2005.
[17]
D. Pyle, Business Modeling and Data Mining. Morgan Kaufmann, 2003.
[18]
Pete Chapman, CRISP-DM 1.0: Step-by-step Data Mining Guide. SPSS, 2000.
[19]
A. I. R. L. Azevedo, «KDD, SEMMA and CRISP-DM: a parallel overview», 2008.
[20]
«What main methodology are you using for data mining? [150 votes total]». ago-2007.
[21]
R.-S. Wu, C. S. Ou, H. Lin, S.-I. Chang, y D. C. Yen, «Using data mining technique to
enhance tax evasion detection performance», Expert Systems with Applications, vol. 39, no. 10,
pp. 8769–8777, ago. 2012.
[22]
F. Y. Edgeworth, «XLI. On discordant observations», Philosophical Magazine Series 5,
vol. 23, no. 143, pp. 364–375, 1887.
[23]
S. Wang, «A Comprehensive Survey of Data Mining-Based Accounting-Fraud Detection
Research», in 2010 International Conference on Intelligent Computation Technology and
Automation (ICICTA), 2010, vol. 1, pp. 50 –53.
[24]
H. R. Davia, P. C. Coggins, J. C. Wideman, y J. T. Kastantin, Accountant’s Guide to Fraud
Detection and Control, 2.a ed. Wiley, 2000.
[25]
G. J. Myatt, Making Sense of Data: A Practical Guide to Exploratory Data Analysis and
Data Mining, 1.a ed. Wiley-Interscience, 2006.
[26]
P. C. González y J. D. Velásquez, «Characterization and detection of taxpayers with false
invoices using data mining techniques», Expert Systems with Applications.
[27]
C. Phua, D. Alahakoon, y V. Lee, «Minority report in fraud detection: classification of
skewed data», SIGKDD Explor. Newsl., vol. 6, no. 1, pp. 50–59, jun. 2004.
[28]
T. Kohonen, Self-Organizing Maps. Springer, 2001.
[29]
T. Kohonen, S. Kaski, K. Lagus, J. Salojarvi, J. Honkela, V. Paatero, y A. Saarela, «Self
organization of a massive document collection», IEEE Transactions on Neural Networks, vol.
11, no. 3, pp. 574 –585, may 2000.
[30]
T. M. Martinetz, S. G. Berkovich, y K. J. Schulten, «`Neural-gas’ network for vector
quantization and its application to time-series prediction», IEEE Transactions on Neural
Facundo José Yatchesen
112
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
Networks, vol. 4, no. 4, pp. 558 –569, jul. 1993.
[31]
M. F. F. C. F. Masullia y S. Rovettaa, «A survey of kernel and spectral methods for
clustering».
[32]
S. K. Murthy, «Automatic construction of decision trees from data: A multi-disciplinary
survey», Data mining and knowledge discovery, vol. 2, no. 4, pp. 345–389, 1998.
[33]
J. Pearl, Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference,
1.a ed. Morgan Kaufmann, 1988.
[34]
N. Friedman, D. Geiger, y M. Goldszmidt, «Bayesian network classifiers», Machine
learning, vol. 29, no. 2, pp. 131–163, 1997.
[35]
J. E. Cabral, J. O. P. Pinto, E. M. Martins, y A. M. A. Pinto, «Fraud detection in high
voltage electricity consumers using data mining», in Transmission and Distribution Conference
and Exposition, 2008. T #x00026;D. IEEE/PES, 2008, pp. 1 –5.
[36]
R. Ghani y M. Kumar, «Interactive learning for efficiently detecting errors in insurance
claims», in Proceedings of the 17th ACM SIGKDD international conference on Knowledge
discovery and data mining, New York, NY, USA, 2011, pp. 325–333.
[37]
P. Britos, H. Grosser, D. Rodríguez, y R. Garcia-Martinez, «Detecting Unusual Changes of
Users Consumption», Artificial Intelligence in Theory and Practice II, pp. 297–306, 2008.
[38]
T. Dasu y T. Johnson, Exploratory Data Mining and Data Cleaning, 1.a ed. Wiley-
Interscience, 2003.
[39]
N. Abe, B. Zadrozny, & J. Langford, «Outlier detection by active learning». Proceedings
of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data
Mining, 2006, 504-509.
[40]
G. H. John, «Robust Decision Trees: Removing Outliers from Databases». KDD, 1995 174-
179.
[41]
Z. H. Zhou, & Y. Jiang, «Medical diagnosis with C4.5 rule preceded by artificial neural
network ensemble». Information Technology in Biomedicine, IEEE Transactions on, 7(1), 2003,
37-42.
[42]
P. Gutierrez Rüegg, P. Britos, R. García-Martínez, «CARACTERIZACIÓN DE LA
POBLACIÓN CARCELARIA EN ARGENTINA MEDIANTE LA APLICACIÓN DE MINERÍA
Facundo José Yatchesen
113
Aplicación de técnicas de minería de datos para la detección de fraude tributario, caso de estudio
Municipalidad de Apóstoles, provincia de Misiones
DE DATOS PARA LA PREVENCIÓN DE HECHOS DELICTIVOS». Tesis de grado, 2008.
Facundo José Yatchesen
114
Descargar