Aplicaciones de aprendizaje no supervisado para la detección de

Anuncio
Aplicaciones de aprendizaje no supervisado
para la detección de patrones de fraude
en telecomunicaciones
Alberto Montero Pérez, Emilio González Berbés, Francisco Javier Garijo Mazario
Telefónica Investigación y Desarrollo
Francisco Martín Nieto
Telefónica Telecomunicaciones Públicas
Vanessa Gómez Verdejo, Jerónimo Arenas García, Ángel Navia Vázquez, Aníbal R. Figueiras Vidal
Departamento De Teoría De La Señal Y Comunicaciones, Universidad Carlos III De Madrid
El fraude en telecomunicaciones tiene una amplia historia y reviste una gran variedad
de formas según sea el tipo de red o de servicio, las tecnologías de implementación,
los terminales o los medios de pago utilizados. Por ello la lucha contra el fraude es una
tarea compleja que requiere un esfuerzo continuo de gestión con el objetivo de
mejorar la metodología, las tecnologías y las herramientas necesarias para prevenir el
fraude, detectarlo con rapidez cuando se produzca y minimizar sus efectos.
En este artículo se describe un nuevo sistema de detección del fraude basado en las
nuevas tecnologías de detección de novedad, y se hace referencia a las máquinas que
se utilizan para ello: las máquinas de "vectores soporte monoclase" (SVM, Support
Vector Machines), que permiten responder al reto del modelado flexible de los
escenarios de fraude así como la detección temprana. Se detallan en el artículo los
fundamentos de las SVM y su aplicación a la telefonía pública.
También se detallan las fases necesarias para llevar a cabo la detección de patrones
nuevos y las distintas etapas de cada fase. Además se presentan los tipos de
novedades disponibles en el sistema implementado y los beneficios obtenidos para la
detección del fraude. Finalmente, se analizan las prestaciones del sistema y se señalan
las diferentes mejoras a realizar en el futuro.
INTRODUCCIÓN
El fraude en telecomunicaciones tiene una amplia historia y reviste una gran variedad de formas según sea
el tipo de red o de servicio, las tecnologías de implementación, los terminales o los medios de pago utilizados. Los cambios en los modelos de negocio, la
diversidad de dispositivos, de productos software, de
proveedores de red y de servicios, no supone un obstáculo al fraude sino un acicate. Los defraudadores
son imaginativos e innovadores, aprovechan cualquier
vulnerabilidad de los sistemas en su propio beneficio.
La lucha contra el fraude es una tarea compleja que
requiere un esfuerzo continuo de gestión con el objetivo de mejorar la metodología, las tecnologías y las
herramientas necesarias para prevenirlo, y para detectarlo con rapidez cuando se produzca con objeto de
minimizar sus efectos. Este esfuerzo se justifica no
sólo por las pérdidas económicas que ocasiona a los
operadores, estimadas entre el 3 y el 6 por ciento de
la cifra de negocio, sino también por la pérdida de
imagen de las empresas y de confianza de los clientes.
En un artículo publicado en esta revista [79] se estudiaban distintos aspectos de la gestión del fraude y se
presentaban las soluciones propuestas por Telefónica
I+D. En él se destacaba la necesidad de detección
temprana de cualquier actividad fraudulenta. Por
razones de coste y operatividad, se hace imprescindible en la mayor parte de los casos la utilización de sistemas automáticos frente a alternativas de vigilancia y
Número 34 · Septiembre 2004
Comunicaciones de Telefónica I+D
161
detección por parte de expertos humanos: hoy en día
la gran cantidad de datos de negocio, tráfico o facturación manejados diariamente hace prácticamente
inviable un trabajo manual directo sobre ellos.
En este artículo se describen las experiencias realizadas y los resultados obtenidos en la detección del fraude en la telefonía pública con una reciente tecnología de
detección de novedad: las máquinas de vectores soporte
monoclase (Support Vector Machines, SVM) [9] [64]
[66]. Las SVM se inscriben dentro de los métodos de
detección basados en aprendizaje automático, y permiten aprender la relación (lineal o no) existente entre
la entrada y la salida de un sistema. Aunque inicialmente se utilizaron para resolver problemas de clasificación binaria [9], se han aplicado eficazmente a la
detección de novedad [64] y a otras áreas como la clasificación multiclase [2] [32], y a la aproximación de
funciones unidimensionales [70] [77] o multidimensionales [61].
Entre las ventajas del uso de las SVM destacan la flexibilidad de modelado -ya que permiten la construcción semiautomática de modelos no paramétricos de
datos-,la insensibilidad ante la dimensión de los datos
de entrada, la posibilidad de controlar la tasa de falsas
alarmas, y su adaptación a escenarios cambiantes.
En el artículo se describen con detalle los fundamentos de las SVM y su aplicación a la telefonía pública.
El sistema implementado procesa los resúmenes detallados de llamadas (rutinas diarias) enviadas desde
cada terminal (la cabina telefónica, en este caso particular), permitiendo discriminar cuáles son normales y
cuáles atípicas, y, por tanto, merecedoras de un estudio más detallado por parte de un experto.
El artículo está estructurado en tres partes. En primer
lugar se describen las fases necesarias para llevar a
cabo la detección de patrones nuevos (se utiliza un
ejemplo con los datos obtenidos en la telefonía pública para ilustrar cada una de las fases descritas). A continuación se describe en detalle la tecnología utilizada: la máquina de vectores soporte monoclase. Finalmente, se analizan los resultados obtenidos y se indican las líneas de trabajo futuro.
TECNOLOGÍAS UTILIZADAS EN LOS SISTEMAS DE DETECCIÓN DE FRAUDE
La detección del fraude implica el análisis de enormes
cantidades de información procedente de distintas
fuentes (registros de llamada, tramas, eventos de fac-
Comunicaciones de Telefónica I+D
162
Número 34 · Septiembre 2004
turación, registros de clientes, etc.), con objeto de
identificar patrones anómalos respecto al comportamiento habitual. La búsqueda de estos patrones se
realiza mediante herramientas informáticas, utilizando un amplio abanico de tecnologías. Entre ellas se
encuentran las siguientes:
Las técnicas estadísticas para la extracción de características, la clasificación y el procesado temporal
de los datos.
Las técnicas basadas en reglas, donde se definen de
forma sencilla las condiciones de los patrones de
fraude, por ejemplo, los umbrales de detección.
Las técnicas de aprendizaje automático, que se
basan en un entrenamiento con casos para realizar
el proceso de detección.
En las técnicas de aprendizaje existen diferentes
modelos y formas de utilización. Así en [44] y [45] se
emplean redes neuronales supervisadas y realimentadas
para la detección del fraude en las comunicaciones
móviles. Por otro lado, Burge y Shawe-Taylor [6] [7]
se han centrado en técnicas de aprendizaje no supervisado entrenadas a partir de los perfiles de las llamadas.
Sin embargo, la mayor parte de los trabajos realizados
se centran en esquemas híbridos, como es el caso de los
trabajos posteriores de Burge [8] o Howard y Gosset
[33].
El trabajo de J. Hollmén para la detección del fraude
en redes de comunicaciones ha sido bastante amplio y
variado, tal y como se refleja en su tesis doctoral [26].
Como fruto de este trabajo, en [74] presenta una
combinación de redes neuronales con modelos gaussianos y redes bayesianas, mientras que en [29] y [30]
presenta las técnicas de aprendizaje no supervisado
(mapas autoorganizativos de Kohonen y cuantificación
vectorial LVQ) que ha utilizado. Por otro lado, en
[27], [28] y [31] presenta los sistemas de detección
del fraude basados en modelos de coste, modelos jerárquicos conmutados de series temporales y modelos probabilísticos, respectivamente.
Un inconveniente de estos sistemas es que funcionan
como "cajas negras" y no dan información o una
explicación directa de las causas de la detección. Por
ello deben complementarse con otros sistemas que
informen sobre las mismas. No obstante, son muchas
las líneas de trabajo abiertas hacia la obtención de
mecanismos de explicación de relaciones entre variables de entrada y salida, esto es, hacia la identificación
de la causa-efecto.
Las técnicas de detección de novedad tienen como
objetivo la identificación de patrones anómalos respecto al comportamiento normal del sistema. Se
basan en métodos de estimación de densidades de
probabilidad de la población de datos, o en algoritmos de agrupamiento. En el primer caso, la novedad
se detecta cuando un evento tiene una probabilidad
asociada muy baja; en el segundo, cuando su distancia al perfil (o centro de cada grupo obtenido) más
cercano supera cierto umbral fijado en función del
problema tratado y de la medida de distancia empleada. Habitualmente se utiliza la distancia euclídea,
aunque es posible emplear otro tipo de distancias,
como la de Mahalanobis, la norma de Manhatan, o la
distancia del coseno [75].
Las máquinas de vectores soporte constituyen unas
potentes herramientas para el aprendizaje de la relación (lineal o no) existente entre la entrada y la salida
de un sistema. Con un fuerte fundamento en la Teoría de Aprendizaje Estadístico [76], las SVM fueron
propuestas inicialmente para resolver problemas de
clasificación binaria [9]. En la última década han
adquirido una gran reputación debido a sus excelentes prestaciones en un gran número de aplicaciones.
Posteriormente se han desarrollado nuevos modelos
aplicables a la clasificación multiclase [2] [32], la
detección de novedad [64], y la aproximación de funciones unidimensionales [70] [77] o multidimensionales [61]. El proceso de mejora de estas técnicas ha
continuado en los últimos años obteniéndose importantes ventajas computacionales, de escalabilidad, de
adaptabilidad y de prestaciones frente a otros esquemas tradicionales: véanse, por ejemplo, los resultados
presentados en [2], [47], [48], [49], [50], [51], [52],
[53], [54], [55], [56], [57], [58] y [59].
La aplicación de estas técnicas a la detección del fraude en telefonía pública se describe a continuación.
IDENTIFICACIÓN DE PATRONES DE FRAUDE
EN TELEFONÍA PÚBLICA MEDIANTE LAS TÉCNICAS DE DETECCIÓN DE NOVEDAD
lada de teléfonos, la parametrización de los terminales, la actualización del programa de funcionamiento,
la conservación, el tráfico y la recaudación. Entre estas
funciones destaca la generación de alarmas de fallos
de funcionamiento y de fraudes básicos (intento fraudulento de apertura, robo del arca, etc.). Sin embargo
no proporciona información sobre la detección de
indicios de fraude en las llamadas ni en los medios de
pago utilizados. Esta detección requiere el análisis de
los datos de tráfico (datos de las llamadas realizadas en
función del destino y del medio de pago).
Para implementar las técnicas de detección de novedad se han utilizado los datos de tráfico notificados
por los teléfonos, completados con los datos del sistema de gestión. Estos datos se utilizan para el entrenamiento o aprendizaje de los modelos de comportamiento normal, así como para la detección de novedad y para la verificación.
Diariamente el terminal envía al sistema de gestión
un resumen estadístico de las llamadas realizadas,
agrupadas por tipo de llamada (destino) y por pago
utilizado (medio de pago). Este resumen contiene el
coste de la llamada, el importe, la duración, el número de llamadas, el tipo de llamada y el medio de pago.
Además el sistema de gestión le añade otros datos,
como son el número de teléfono, la provincia, la localidad, la central, el tipo de central, la fecha, el día de
la semana, el tipo de día (laboral o festivo) y el tipo de
periodo anual en función del uso (alto, medio o bajo).
Fases del proceso de detección
El proceso para la detección de nuevos patrones consta de las siguientes fases:
Entrenamiento inicial del sistema. Consiste en la
identificación y modelado de los patrones de uso
típicos del sistema; en este caso se trata de los datos
obtenidos de las cabinas públicas a partir de los
registros de las llamadas realizadas a lo largo de
varios meses.
La telefonía pública es objeto de múltiples ataques
debido a sus condiciones especiales: terminales en
entornos no protegidos conteniendo dinero en metálico, uso de varios medios de pago, oferta de múltiples
servicios, acceso anónimo y distribución geográfica.
Identificación de patrones de fraude. Los modelos
ajustados durante el entrenamiento se utilizan para
detectar posibles casos o indicios de fraude. En el
sistema se ha utilizado una escala temporal diaria.
El sistema de gestión de la telefonía pública SG-2000
administra y mantiene la planta de teléfonos públicos
instalados en la vía pública y en interiores. Entre sus
funciones se encuentran la gestión de la planta insta-
Aprendizaje de los nuevos patrones. Se analizan los
patrones potenciales de fraude detectado en la fase
anterior y se utilizan los casos que no son fraude
(falsos positivos) para actualizar los detectores.
Número 34 · Septiembre 2004
Comunicaciones de Telefónica I+D
163
La fase de entrenamiento inicial consta de las siguientes etapas:
Extracción de los datos. Diariamente cada cabina
envía la información relativa al coste, importe,
duración y número de llamadas realizadas, agrupadas para cada uno de los posibles tipos de llamada
(local, provincial, interna, etc.) y medios de pago
(efectivo, tarjeta prepago o de crédito, etc.). Esta
información recopilada durante un día se denomina "rutina diaria", y es almacenada en un formato
adecuado en la base de datos correspondiente,
junto con otra información de registro de planta y
de tarificación, para la realización de las etapas
siguientes.
Procesamiento de los datos. Consiste en una normalización de las variables utilizadas, y en la eliminación de la información redundante mediante la
aplicación de un método de reducción dimensional. Esto facilita la aplicación de las técnicas de
"aprendizaje máquina" utilizadas, mejorando asimismo las prestaciones.
Desagregación de la información. Dada la gran cantidad de datos disponibles, y el alto grado de heterogeneidad existente entre ellos (factores de tipo
geográfico, temporal, etc.), se ha propuesto un
esquema de desagregación que permite el desplie-
gue de modelos de datos más pormenorizados y
que está basado en un conocimiento experto previo
sobre la naturaleza del problema a resolver. Se tienen en cuenta, por tanto, las características específicas de cada dato (localización geográfica y del terminal al que pertenece, tipo de día e, incluso, tipo
de llamada), factores ya identificados por los expertos como muy relevantes para el problema.
Entrenamiento "one class SVM". Dado que no se
dispone todavía de casos de fraude debidamente
documentados y etiquetados, se ha optado por utilizar técnicas que permiten, durante la fase de
entrenamiento, el aprendizaje y modelado de los
patrones de uso normal de las cabinas para cada
uno de los nodos resultantes tras la desagregación
de datos. Posteriormente, la desviación con respecto a estos modelos de nuevos patrones permitirá
detectar comportamientos anómalos que pueden
indicar la presencia de fraude. A medida que se disponga de más conocimiento sobre datos de fraude
medidos en este espacio de representación de datos,
se podrán incorporar al sistema para mejorar todavía más sus prestaciones.
En la Figura 1 se ha representado de modo esquemático la secuencia de pasos realizada en las fases de
entrenamiento del sistema y en la operación normal
para detección de novedad.
SG-2000
ENTRENAMIENTO
Extracción de datos
Procesamiento
IDENTIFICACIÓN
DE PATRONES
VALIDACIÓN
Procesamiento
Evaluación
Datos de entrenamiento
Tablas
PCA
Arbol de desgregación
Arbol de desgregación
Datos novedosos
Entrenamiento
one class SVM
Detección de novedad
Máquinas
entrenadas
Figura 1. Fases y etapas del proceso de detección del fraude
Comunicaciones de Telefónica I+D
164
Número 34 · Septiembre 2004
Los datos seleccionados en este caso para el aprendizaje comprenden un periodo temporal de entre cuatro y cinco meses. En lo que respecta a los datos para
verificación, éstos comprenden un mes y además permiten el afinado de la máquina.
A partir de la disposición de la máquina entrenada y
verificada, diariamente se introducen en el sistema los
datos diarios de tráfico para obtener los posibles casos
de fraude y analizar su validez.
Las técnicas de detección utilizadas han servido para
obtener automáticamente nuevos datos que tienen
diferencias significativas con los patrones de comportamiento normal. El análisis de estos comportamientos nuevos respecto a los normales permite detectar
indicios de fraude o identificar excepciones al comportamiento normal, que sirven para enriquecer el
proceso de detección.
A continuación se describen cada una de las etapas del
proceso de detección de fraude, ilustrando su funcionamiento con algunos ejemplos.
Preprocesado: normalización y reducción
dimensional
Las rutinas enviadas por cada cabina telefónica contienen generalmente datos diarios sobre el número de
llamadas, coste, importe y duración, clasificados en
función del tipo de llamada (local, provincial, interna,
etc.) y del medio de pago empleado. En realidad no se
manejan los datos reales, sino una transformación
lineal de los mismos, lo que permite preservar en todo
momento la información confidencial del negocio.
Esta transformación no repercute negativamente en el
funcionamiento del sistema, siempre que se garantice
que las variables implicadas se transformen del mismo
modo.
En esta etapa se realiza únicamente el preprocesado de
las cuatro variables anteriores. Por un lado es conveniente realizar una segunda normalización de las mismas, a fin de ajustar los rangos dinámicos. Por otro
lado, la extracción de las características, que se basa en
el análisis de los componentes principales, permite
eliminar la información redundante y reducir el
número de variables que se manejan.
Normalización
Con el fin de eliminar posibles tendencias estacionales (por ejemplo, las debidas a un mayor consumo en
las zonas turísticas durante los meses de verano) se
realiza una normalización diaria de las variables
(coste, importe, duración y número de llamadas) para
todos los terminales de una misma provincia, de
manera que se elimina el valor medio de las rutinas
diarias de cada provincia, y su desviación estándar se
fija a uno. Más adelante se analizará si este proceso
puede estar eliminando información relevante para la
detección de fraude, en cuyo caso se sustituiría por un
modelado dinámico que tenga en cuenta los cambios
estacionales directamente.
Análisis de los componentes principales
Observando el carácter de las cuatro variables que se
manejan: coste (CT), importe (CB), duración (D) y
número de llamadas (NLL), por este orden, es de
esperar que estén bastante relacionadas entre sí ya
que, por ejemplo, el importe dependerá del coste de
las llamadas, y éste a su vez de la duración y número
de las llamadas realizadas. De hecho, puede comprobarse la relación existente entre ellas a partir de los
valores de correlación que figuran en la siguiente
matriz:
Donde cada elemento de la matriz, rx,y , indica la relación estadística1 entre la variable x y la variable y, y
puede calcularse a partir de la expresión:
R
 1
0.9910 0.5669 0.6944
 0.9910
1
0.5866 0.7287

= 
 0.5669 0.5866
1
0.8771


 0.6944 0.7287 0.8771
1 
(1)
Donde N es el número de cuaternas [CT, CB, D,
NLL] que se utilizan para estimar las correlaciones.
rx,y
=
1 N
∑ xi ⋅ yi
N i=1
1 N 2 1 N 2
∑ xi ∑ y i
N i=1 N i=1
(2)
Al estar las cuatro variables relacionadas entre sí, es
posible que se pueda eliminar información redundante. Por este motivo, se ha realizado un análisis de los
1 El valor rx,y representa el coeficiente normalizado de correlación
cruzada. La dependencia total entre dos variables viene representada
por un valor de rx,y = 1, y el valor 0 indica la incorrelación estadística de
las mismas.
Número 34 · Septiembre 2004
Comunicaciones de Telefónica I+D
165
componentes principales (Principal Component
Analysis, PCA) de los datos que se utilizan para entrenar el sistema. El PCA [37] [39] es una técnica bastante empleada para la extracción de características,
permitiendo una reducción del número de variables
que representan a cada dato. Para ello, el PCA utiliza
una transformación lineal del espacio definido por las
cuatro variables (CT, CB, D y NLL), de forma que en
el espacio transformado (conocido también como
espacio de características) los datos pueden representarse con un número menor de componentes "efectivas". La transformación lineal del PCA identifica las
direcciones en las que los datos tienen una mayor
varianza, que son las que presumiblemente contienen
la mayor parte de la información, de modo que, si se
proyectan los datos sobre dichas direcciones, se obtiene una representación compacta de la información.
La transformación lineal del PCA queda definida por
los autovectores de la matriz de autocovarianza de los
datos (componentes principales), mientras que sus
autovalores indican la varianza de la señal en cada una
de las direcciones dadas por los autovectores. Son precisamente los autovalores los que indican de cuáles de
las nuevas componentes o direcciones se puede prescindir para representar los datos.
Se ha observado que las componentes principales
obtenidas al aplicar el PCA a los datos de entrenamiento difieren bastante en el caso de considerar llamadas con coste no nulo o llamadas con coste nulo.
Por este motivo, se ha procedido a una primera separación de los datos en estos dos grupos 2 y se ha realizado un análisis de componentes principales para
cada caso por separado (véase la Tabla 1).
tes son las que tienen mayor importancia, la tercera
componente es escasamente significativa, y la cuarta
puede despreciarse prácticamente sin pérdida de
información; de ahí que, en adelante, se considere que
los datos se encuentran en un espacio tridimensional
caracterizado por las tres primeras componentes del
PCA, aunque a efectos de visualización se utilicen
únicamente dos de dichas variables. En la Tabla 2 se
recogen las tres proyecciones que caracterizan este
espacio, ordenadas por orden de importancia.
La eliminación de coordenadas carentes de información es siempre beneficiosa para las técnicas de
"aprendizaje máquina". Además, el análisis de las
componentes principales tiene la ventaja adicional de
posibilitar representaciones bidimensionales de los
datos, utilizando únicamente las dos variables más
significativas.
En la Figura 2 se muestra el resultado de la proyección de los datos correspondientes a una provincia
mediana en las dos componentes principales identificadas mediante PCA, donde se puede observar que las
distribuciones de datos no se ajustan a ningún modelo paramétrico conocido, y por tanto resulta conveniente y acertado proceder en modo no paramétrico.
Por último, conviene mencionar que, durante la fase
de detección de fraude, los datos que están siendo
analizados también deben ser proyectados sobre las
componentes principales obtenidas durante la fase de
entrenamiento, antes de ser enviados al módulo de
desagregación de datos, y que aunque para la representación gráfica se utilizarán las dos componentes
principales, para la operación de las máquinas de
detección de novedad se han elegido tres.
Como puede apreciarse, las dos primeras componen2 Tal y como se verá más adelante, esta separación de los datos
corresponderá a un primer nivel de desagregación.
Autovalores
λ1
λ2
λ3
λ4
Llamadas
con coste
Llamadas con
coste nulo
3,29
1,84
0,58
1,10
0,12
0,89
0,006
0,16
Tabla 1. Autovalores obtenidos al aplicar el PCA a los dos grupos de llamadas
elegidos (llamadas con coste mayor que cero y llamadas con coste nulo)
Comunicaciones de Telefónica I+D
166
Número 34 · Septiembre 2004
Esquema de desagregación de datos
Dada la gran diversidad de los datos utilizados, y para
homogeneizar los mismos dentro de modelos coherentes, es necesario desagregar los datos en función de
ciertas características, por ejemplo de tipo temporal o
geográfico, a fin de que los subconjuntos de datos
resultantes sean mucho más homogéneos entre sí y
admitan modelos compactos que los representen.
Estas magnitudes o indicadores podrían haberse utilizado directamente como variables de entrada, dejando que el método de "aprendizaje máquina" operase
directamente con ellas, pero se ha considerado interesante utilizar este conocimiento previo sobre el sistema para simplificar la construcción y operación de los
modelos. Concretamente, para llevar a cabo la desa-
gregación de los datos se han considerado, por este
orden, las siguientes variables:
Autovectores
Tipo de coste. Como se adelantó en el apartado
anterior, un primer nivel de desagregación consiste
en separar las llamadas con coste nulo y no nulo.
Llamadas con
coste nulo
Llamadas con coste
Componente principal 1
(0,51, 0,47, -0,20, -0,69)
(-0,02, 0,71, 0,70, -0,00)
Componente principal 2
(0,52, 0,46, -0,08, 0,72)
(-0,07, 0,70, -0,71, 0,01)
Componente principal 3
(0,46, -0,68, -0,57, 0,04)
(0,71, 0,05, -0,03, -0,71)
Provincia. Es la región en la que se encuentra situado el terminal telefónico.
Tipo de planta. Se consideran por separado los terminales ubicados en el interior de edificios, planta
de tipo 2, frente a los que se encuentran en zonas
exteriores, planta de tipo 1 (dos subgrupos).
Carácter del día. De domingo a jueves y de viernes
a sábado (dos subgrupos).
En la Figura 3 se ha representado el árbol de desagregación que se obtiene de la aplicación de los criterios
que acabamos de enumerar. Por simplicidad, se ha
omitido el primer nivel de desagregación (coste), por
lo que el sistema real incluye dos árboles como el de
la figura, uno para las llamadas sin coste y otro para
las que tienen un coste asociado.
Tabla 2. Direcciones de las componentes principales tanto para las llamadas con coste como
para las de coste nulo
En el apartado anterior ya se vio que cada uno de
estos dos subárboles lleva asociado un PCA propio,
que se obtiene a partir de todos los datos presentes en
su máximo nivel de agregación.
Por último, es importante destacar que podría realizarse una separación más detallada en función del
tipo concreto de llamada. Además, las llamadas con
coste no nulo podrían separarse en función del medio
de pago. En cualquier caso, el número de particiones
aplicado debe garantizar que el número de datos que
aparece en cada uno de los nodos de más bajo nivel es
a.- Con coste no nulo para plantas de tipo 1
b.- Con coste no nulo para plantas de tipo 2
c.- Con coste nulo para plantas de tipo 1
d.- Con coste nulo para plantas de tipo 2
Figura 2. Patrones en el espacio transformado mediante PCA (caso bidimensional)
Número 34 · Septiembre 2004
Comunicaciones de Telefónica I+D
167
Desagrupamiento
por "Tipo de dia"
Desagrupamiento
por "Tipo de planta"
...
...
Datos agrupados
...
Desagrupamiento
por "Provincias"
Figura 3. Esquema de desagregación para las llamadas con coste (análogo para las llamadas con coste nulo)
suficiente para poder llevar a cabo el ajuste de los
modelos de detección de novedad con unas prestaciones aceptables, de tal modo que a medida que se capturen, almacenen y procesen más datos reales, será
posible refinar el diseño de este sistema.
Sistemas de detección de novedad
El último módulo del sistema aprende o modela cuáles son las características habituales de los datos de
cada uno de los nodos finales de los árboles de desagregación. Posteriormente, durante la fase de evaluación, se comparan los nuevos datos con estos modelos
a fin de detectar la presencia de datos anómalos, indicadores de posibles casos de fraude. Las técnicas que
llevan a cabo esta tarea se conocen, en el campo del
"aprendizaje máquina", como técnicas de detección
de novedad [41] [42].
Las técnicas de detección de novedad suelen estar
basadas en métodos de estimación de densidades de
probabilidad de la población de datos, o en algoritmos de agrupamiento. En el primer caso, la novedad
se detecta cuando un evento tiene una probabilidad
Comunicaciones de Telefónica I+D
168
Número 34 · Septiembre 2004
asociada muy baja; en el segundo, cuando su distancia al perfil (o centro de cada grupo obtenido) más
cercano, supera cierto umbral fijado en función del
problema tratado y de la medida de la distancia
empleada. Habitualmente se utiliza la distancia euclídea, aunque es posible emplear otro tipo de distancias, como la de Mahalanobis, la norma de Manhatan, o la distancia del coseno [75].
Una técnica de detección de novedad que ha cobrado
recientemente gran importancia es la denominada
máquina de vectores soporte monoclase ("one-classSVM") [64] [66], que permite la construcción de un
modelo no paramétrico en función de las transformaciones no lineales de los datos, lo que permitirá posteriormente utilizarla para detectar la presencia de
patrones atípicos. Dicho de forma estricta, no realiza
un modelado de la distribución de los patrones, sino
que directamente estima la frontera que abarca un
porcentaje determinado de los casos disponibles, considerándose como atípicos los patrones que quedan
fuera de dicha frontera.
Precisamente, para la implementación del módulo de
detección de novedad que nos atañe se ha decidido
hacer uso de estas máquinas, cuyo funcionamiento se
describe con mayor detalle en el siguiente apartado.
DETECCIÓN DE NOVEDAD MEDIANTE
"MÁQUINAS DE VECTORES SOPORTE
MONOCLASE"
Para la resolución de un problema determinado, las
SVMs proyectan los datos a un espacio transformado
o de características F (generalmente de muy alta
dimensión), donde una solución lineal es capaz de
obtener buenas prestaciones (véase la Figura 4) para
un caso de clasificación binaria).
Sin embargo, en el espacio original la solución obtenida
puede ser no lineal, y esa "no linealidad" viene definida
por las características de la función φ (·) utilizada para
proyectar los datos. La gran potencia de las SVMs se
debe a que la solución que ofrecen es regularizada en el
espacio transformado, lo que garantiza buenas características de generalización, de acuerdo con un principio
de mínimo riesgo estructural. Además, para su aplicación no se requiere el conocimiento explícito de φ (·),
sino que es suficiente poder cacular el producto interno
o núcleo en F, κ (x,y) = < φ (x), φ (y)>. En este sentido, es frecuente referirse a las máquinas de vectores
soporte como un elemento de un conjunto más amplio
de técnicas de aprendizaje conocido como métodos
basados en núcleos, que permiten obtener fácilmente
versiones no lineales de cualquier algoritmo que implique únicamente productos lineales de los puntos del
conjunto de entrenamiento [46].
Otra ventaja muy importante de las SVM consiste en
que su diseño implica la resolución de un problema de
optimización cuadrática (de solución única), para el
cual existen métodos muy eficientes y de validez contrastada. Cuando el número de patrones del conjunto
de entrenamiento es muy elevado, otras aproximaciones
basadas en mínimos cuadrados recursivos ofrecen ventajas muy importantes [47] [58].
De la gran eficacia y potencia de las redes SVM dan fe
el elevado número de aplicaciones en las que han sido
empleadas con éxito, como la minería de datos [59], la
categorización automática de textos [36] [38], la clasificación de imágenes [13], o el reconocimiento de voz
[69] y caracteres manuscritos [63], además de otras aplicaciones en bioingeniería [5], biometría [34] [78] y
comunicaciones [14] [61] [68], aparte de las ya mencionadas aplicaciones en detección de novedad y fraude.
A continuación se describe la SVM monoclase [64], la
tecnología que se ha adoptado para el módulo de detección de novedad del sistema de detección de fraude.
Para profundizar en el estudio de estas tecnologías recomendamos el excelente libro de B. Schölkopf y A.
Smola [66].
Las versiones monoclase
Para la detección de novedad se supone que los datos de
entrenamiento {x1, x2,…, xm } proceden de una distribución de probabilidad P(x) que caracteriza el comportamiento considerado como normal. El objetivo es
diseñar una función f(x) que tome el valor +1 al ser
aplicada sobre puntos generados con una alta proba-
Rn
F
φ (.)
Figura 4. Clasificación binaria mediante un hiperplano en el espacio de características F
Número 34 · Septiembre 2004
Comunicaciones de Telefónica I+D
169
bilidad por P(x), y el valor -1 en caso contrario (es
decir, cuando x es un dato "atípico"). En la literatura
se han propuesto numerosos métodos para resolver el
problema anterior por estimación directa de P(x). Sin
embargo, el diseño de f(x) es un problema más sencillo que el de la estimación de P(x), y su resolución
directa debe ofrecer ventajas.
F
La máquina de vectores soporte monoclase propone
proyectar los datos en un espacio de características F
en el que asume la siguiente forma paramétrica para
la solución:
()
(
)
f x = sgn w ,φ(x) − 1
(3)
Donde φ (x) es la proyección de x en el espacio F, <·,·>
representa el producto escalar en F, y "sgn" representa la
función signo. A pesar de que f(x) es de carácter prácticamente lineal en F, la solución puede tener un carácter
altamente no lineal en el espacio original dependiendo
de cómo sea la proyección utilizada.
Como vemos, el problema en F se ha reducido a
encontrar un hiperplano que separe adecuadamente
los puntos considerados como normales y atípicos.
Para ello, se propone que el hiperplano quede lo más
alejado posible del origen, de manera que, como se
ilustra en la Figura 5, el origen y los datos de entrenamiento queden situados en distintos semiespacios.
Es inmediato comprobar que la distancia del hiper2
plano al origen de coordenadas es 1/||w|| , por lo cual
el problema de optimización puede escribirse de la
forma:
m inim cese
con restricciones
1 2
w
2
w ,φ(xi) − 1≥ 0, i= 1,...,m
(4)
Dado que el conjunto de entrenamiento también
podría presentar datos que no han sido generados a
partir de P(x), es conveniente relajar las restricciones
anteriores permitiendo que algunos puntos queden en
la región correspondiente a las muestras atípicas. De
esta manera, el problema (4) se convierte en:
m inim cese
1
w
2
2
170
Número 34 · Septiembre 2004
Figura 5. Proyección de los datos en el espacio F e hiperplano
de separación respecto al origen
Donde C es una constante que regula el equilibrio
entre distancia del hiperplano al origen y el número
de muestras a las que se permite violar la restricción
w ,φ(xi) ≥ 1 . Para encontrar la solución, utilizamos
multiplicadores de Lagrange { α i } y { β i } para introducir las restricciones en la función a minimizar, obteniendo el funcional:
Lp =
1
w
2
2
m
m
i=1
i=1
(
)
m
+ C ∑ ξi − ∑ ξi w ,φ(xi) − 1+ ξi − ∑ β iξi
i=1
(6)
Donde todos los {α i } y { β i } deben ser constantes
positivas. Necesariamente, las derivadas de Lp con respecto a los parámetros que definen la solución deben
anularse en el punto óptimo, es decir, en la solución
se verifica que:
m
∇ w Lp = w − ∑ α iφ(xi)= 0 ⇒
i=1
∂Lp
∂ξi
= C − α i − βi = 0 ⇒
m
w = ∑ α iφ(xi)
(7)
0 ≤ α i ≤ C, i= 1,...,m
(8)
i=1
m
+ C ∑ ξi
i=1
 w ,φ(xi) − 1+ ξi ≥ 0
i= 1,...,m
con restricciones
ξi ≥ 0

Comunicaciones de Telefónica I+D
W
(5)
Sustituyendo ahora estas dos expresiones en el funcional Lp, y cancelando términos, se obtiene el
siguiente problema dual de optimización cuadrática:
m inim cese LD =
con restricciones
m
1 m m
α iα jκ (xi,x j)− ∑ α i
∑
∑
2 i=1 j=1
i=1
0 ≤ α i ≤ C, i= 1,...,m
fracción de datos atípicos debe aparecer en el conjunto
de entrenamiento tras la optimización de la máquina.
(9)
Donde, según se definió anteriormente, κ (xi, xj ) =
< φ ( xi ), φ ( xj )> es el producto interno en F. Una
propiedad importante es que el problema a resolver es
convexo, lo que garantiza la unicidad de la solución y
evita ciertos problemas que sufren habitualmente las
técnicas de "aprendizaje máquina", derivados de la
existencia de mínimos locales.
Una vez obtenidos, los { α i } deben ser sustituidos en
(7), de manera que (3) se puede reescribir de la forma:
 m

f x = sgn ∑ α iκ xi,x − 1
 i=1

()
(
)
(10)
A pesar de que el sumatorio anterior se realiza para
todas las muestras de entrenamiento, se puede demostrar que α i ≠ 0 únicamente para los puntos situados
sobre el hiperplano o cuya ξ i > 0 (y por tanto son
detectado como atípicos). De esta manera, se dice que
los puntos con α i ≠ 0 (que normalmente son un subconjunto pequeño de los datos de entrenamiento)
soportan la solución, de donde deriva el nombre de
"máquinas de vectores soporte". Aun así, para grandes
conjuntos de entrenamiento, el número de vectores
soporte puede resultar excesivamente elevado, siendo
beneficioso en esos casos el uso de versiones compactas, como las propuestas en [47] y [56], que además
permiten un entrenamiento más rápido de la red.
A la vista de (9) y (10), se puede comprobar que para
la resolución y evaluación de la SVM monoclase no se
necesitan calcular las proyecciones de los puntos en F,
sino que es suficiente poder calcular los productos
internos κ (xi , xj ) = < φ ( xi ), φ ( xj )>. Esta propiedad resulta de gran importancia, ya que permite,
incluso, utilizar proyecciones a espacios de dimensión
infinita, como en el caso del kernel gaussiano (con
parámetro ajustable γ ):
(
)
κ xi,x j
2


= exp −γ xi − x j 


(11)
Un inconveniente de la formulación anterior es que el
número de datos de entrenamiento que se consideran
anómalos depende de la selección de la constante C.
Sería deseable, no obstante, poder decidir a priori qué
En [16] se propone reemplazar (3) por un hiperplano,
de manera que:
()
(
f x = sgn w ,φ(x) − ρ
)
(12)
Se demuestra que en la solución de un problema de optimización ligeramente distinto a (5), una fracción υ de
los datos del conjunto de entrenamiento queda dentro
de la región de novedad:
m inim cese
1
w
2
2
+
1 m
∑ξ − ρ
υm i=1 i
 w ,φ(xi) − ρ + ξi ≥ 0
(13)
i= 1,...,m
con restricciones 
ξi ≥ 0

Donde la minimización se produce con respecto a w,
ξ i y ρ . Siguiendo un desarrollo parecido al anterior,
es posible reescribir (13) como un proceso de optimización cuadrática de propiedades similares a (9):
m inim cese
LD =
1 m m
∑ ∑ α α κ (x ,x )
2 i=1 j=1 i j i j

1
, i= 1,...,m
0 ≤ α i ≤

υm
con restricciones 
m

αi = 1
∑

i=1
(14)
Finalmente, es posible reescribir la función de detección de novedad en función de la solución de (14) de
la forma:
 m

f x = sgn ∑ α iκ xi,x − ρ 
 i=1

()
(
)
(15)
Esta es la forma práctica en que finalmente se aplica
la máquina de detección de novedad.
RESULTADOS OBTENIDOS
La evaluación del sistema se ha realizado con los datos
provenientes de tres provincias de tamaño pequeño,
mediano y grande, obtenidos entre el 10 de agosto y
el 31 de diciembre de 2003.
En primer lugar se ha realizado el entrenamiento con
estos datos. A continuación se han utilizado como un
conjunto de tests los datos obtenidos en el mes de
enero de 2004.
Número 34 · Septiembre 2004
Comunicaciones de Telefónica I+D
171
El análisis de los resultados se ha extendido a las tres
provincias indicadas. Como muestra se presentan los
resultados para una provincia de tamaño medio.
Entrenamiento de la SVM monoclase
Dado que el conjunto de datos correspondiente a
cada uno de los nodos del árbol de desagregación presenta unas características distintas, se debe entrenar
una SVM monoclase para cada uno de ellos.
Para todas las máquinas, independientemente del
nodo al que pertenezcan, se ha elegido un núcleo de
tipo gaussiano (11), aunque unos difieren de otros en
el valor seleccionado para el parámetro γ . Este valor
se ha fijado a 0,05 para los nodos correspondientes a
las llamadas con coste, y a 0,04 para aquellos asociados a llamadas de coste nulo. Por otro lado, la tasa de
posibles datos anómalos ( ν ) se ha fijado al 0,1 por
ciento para todas las máquinas.
En el entrenamiento de las SVM monoclase se ha
empleado la librería LIBSVM 2.33 [26], disponible
para su uso libre en investigación. No obstante, para
futuras fases del proyecto, así como para posibles
desarrollos "ad hoc" a fin de optimizar prestaciones,
estaría disponible la tecnología propia del equipo
investigador de la Universidad Carlos III, fácilmente
extensible a este caso particular [2] [47] [56].
Resultados del entrenamiento
Los resultados del entrenamiento de cada máquina se
muestran en la Figura 6, la Figura 7, la Figura 8 y la
Figura 9, a través de la representación de dos dimen-
Vectores soporte
Datos entrenamiento
a.- Proyección para casos de entrenamiento
siones de la región de novedad, concretamente para
los nodos correspondientes a las llamadas realizadas
de domingo a jueves. Estas figuras dan una idea de la
región de comportamiento típico que la máquina ha
considerado para cada caso. Hay que tener en cuenta
que estas representaciones se han realizado en dos
dimensiones, mientras que los datos y la propia frontera están realmente en un espacio de tres dimensiones (número de variables que manejadas después de
aplicar la extracción de características), por lo que
puede haber datos detectados como atípicos cuyas
proyecciones aparezcan dentro de la región de comportamiento típico, así como datos típicos cuyas proyecciones se sitúen en la región de novedad: dichas
"anomalías" se dan solamente a nivel de representación gráfica, estando los patrones procesados correctamente.
En estas figuras se puede observar cómo en los casos
de entrenamiento (a) la mayor parte de los patrones
(marcados con puntos azules) quedan dentro de la
frontera del percentil correspondiente, y son algunos
de ellos, los más atípicos, los que se identifican como
vectores soporte (representados como aspas), y por
tanto definen la arquitectura de la máquina para
detección de novedad en los nuevos casos presentados. Dichos puntos son los representados en los casos
de prueba (b), donde se puede observar la correcta
generalización de los modelos, al estar la mayor parte
de los patrones de prueba (puntos) dentro de la frontera de decisión (zona más clara), mientras que los
patrones que se ubican en el exterior (zona gris) han
sido etiquetados como novedosos y por tanto sospechosos de encubrir una actividad de fraude. Como ya
se ha indicado con anterioridad, las aparentes "anomalías" correspondientes a los puntos marcados con
un asterisco dentro de la frontera, o los puntos nor-
Datos típicos
Datos novedosos
b.- Proyección para casos de prueba
Figura 6. Proyección de los datos en el espacio bidimensional y fronteras de detección de novedad para el caso de llamadas con coste no nulo en planta
de tipo 1 (realizadas de domingo a jueves)
Comunicaciones de Telefónica I+D
172
Número 34 · Septiembre 2004
Vectores soporte
Datos entrenamiento
a.- Proyección para casos de entrenamiento
Datos típicos
Datos novedosos
b.- Proyección para casos de prueba
Figura 7. Proyección de los datos en el espacio bidimensional y fronteras de detección de novedad para el caso de llamadas con coste no nulo en planta
de tipo 2 (realizadas de domingo a jueves)
Vectores soporte
Datos entrenamiento
a.- Proyección para casos de entrenamiento
Datos típicos
Datos novedosos
b.- Proyección para casos de prueba
Figura 8. Proyección de los datos en el espacio bidimensional y fronteras de detección de novedad para el caso de llamadas con coste nulo en planta
de tipo 1 (realizadas de domingo a jueves)
Vectores soporte
Datos entrenamiento
a.- Proyección para casos de entrenamiento
Datos típicos
Datos novedosos
b.- Proyección para casos de prueba
Figura 9. Proyección de los datos en el espacio bidimensional y fronteras de detección de novedad para el caso de llamadas con coste nulo en planta
de tipo 2 (realizadas de domingo a jueves)
Número 34 · Septiembre 2004
Comunicaciones de Telefónica I+D
173
males fuera de la frontera, se deben únicamente a la
representación gráfica en dos dimensiones de un problema relativo a tres dimensiones.
res presentados por los datos de entrenamiento, la
activación fijará su valor prácticamente a 1 ó -1.
Los factores de normalización aplicados a la salida de
cada una de las SVM monoclase para la provincia
considerada figuran en la Tabla 3.
Normalización final de la salida
En la fase de detección de fraude, las SVM monoclase dan a su salida un valor positivo si el dato se
encuentra dentro de la región de comportamiento
típico, un valor negativo si el dato es detectado como
anómalo, y devuelven cero si se encuentra sobre la
frontera de alerta. Para los datos detectados como
anómalos, las salidas son más negativas cuanto más
alejados se encuentren los datos de la frontera de alerta, es decir, cuanto más novedosos sean. Por este motivo, y dependiendo de las distribuciones que presenten
los conjuntos de datos que se hayan empleado para el
entrenamiento de las máquinas, los rangos de salida
obtenidos pueden ser totalmente distintos. Para facilitar la interpretación de los resultados, se ha aplicado
una normalización de los valores de salida de las SVM
monoclase, fijando el rango de salida permitido al
intervalo [-1, 1].
Detección de anomalías en los comportamientos
Para la detección de anomalías se utiliza como conjunto de test los datos del mes de enero de 2004, analizando a continuación los casos novedosos detectados
por el sistema.
De acuerdo con las etapas descritas en la Figura 1,
una vez capturados los datos, se pasa a la etapa de preprocesado, donde se normalizan los datos para cada
día y cada provincia, y se realiza la ortogonalización y
la extracción de las componentes principales (por un
lado las correspondientes a las llamadas con coste, y
por otro las de coste nulo), empleando en ambos
casos las componentes principales que se obtuvieron
con los datos de entrenamiento (véase la Tabla 1 y la
Tabla 2). En la etapa de desagregación se separan los
datos según las indicaciones de la Figura 3, obteniéndose los datos de test correspondientes a cada nodo.
Estos datos serán procesados por la correspondiente
SVM monoclase.
La normalización consta de dos fases. En primer lugar
se aplica un factor de conversión lineal que fija los
valores de salida para el conjunto de entrenamiento al
intervalo [-4, 4], para a continuación pasar estos datos
por una función de activación de la forma y=tanh(x).
De este modo se fija el rango de salida al segmento [1, 1], y en el caso de que alguno de los datos del conjunto de tests produzca una salida mayor que los valo-
De esta forma se obtiene la tasa de datos detectados
como anómalos (véase la Tabla 4). Ya se han visto ante-
Factores de normalización
de una provincia mediana
Tipo de datos
D-J
3,1838
V-S
0,9968
D-J
1,7054
V-S
0,1738
D-J
0,9455
V-S
0,3279
D-J
0,6894
V-S
0,1438
Planta 1
Llamadas
con coste
Planta 2
Planta 1
Llamadas
de coste nulo
Planta 2
D-J : domingo-jueves
V-S : viernes-sábado
Tabla 3. Factores de normalización empleados a las salidas de las SVM monoclase
Comunicaciones de Telefónica I+D
174
Número 34 · Septiembre 2004
Tasa de datos anómalos
(%)
Tipo de datos
D-J
0,23
V-S
0,19
D-J
0,21
V-S
0,28
D-J
0,22
V-S
0,19
D-J
0,17
V-S
0,13
Planta 1
Llamadas
con coste
Planta 2
Planta 1
Llamadas
de coste nulo
Planta 2
D-J : domingo-jueves
V-S : viernes-sábado
Tabla 4. Tasas de datos detectados como anómalos en la provincia mediana
riormente las representaciones de los datos sobre las
regiones de novedad (Figuras 6, 7, 8 y 9).
dato, además de indicarse el valor de decisión dado
por la SVM monoclase, así como el valor obtenido a
la salida del sistema, es decir, las salidas normalizadas.
Por último, en la Tabla 5 se presenta un resumen de
los datos particulares detectados como más anómalos
en la provincia mediana, y sobre los que conviene realizar un análisis experto para comprobar si son realmente fraudulentos o no, o, en su defecto, intentar
justificar el porqué de la anomalía. Para identificar
cada uno de estos datos, la tabla incorpora la fecha y
el identificador del terminal al que corresponde cada
Análisis de las novedades detectadas
Las tablas precedentes presentan las anomalías más
significativas detectadas por el sistema, pero no dicen
nada acerca de sus causas. Para ello se necesita analizar detalladamente los datos que componen cada
Salida del
detector
Valor
decisión
Fecha
Identificador
del terminal
D-J
-1,00
-19,76
28-1-2004
90720205050914
V-S
-1,00
-8,65
9-1-2004
80820109310915
D-J
-1,00
-6,32
1-1-2004
55720207510913
V-S
-1,00
-2,97
3-1-2004
80820003920915
D-J
-1,00
-3,82
13-1-2004
46620109580915
V-S
-1,00
-2,25
31-1-2004
94620106050911
D-J
-1,00
-3,11
27-1-2004
65620503610910
V-S
-1,00
-1,57
9-1-2004
34620505290911
Tipo de datos
Planta 1
Llamadas
con coste
Planta 2
Planta 1
Llamadas
de coste nulo
Planta 2
D-J : domingo-jueves
V-S : viernes-sábado
Tabla 5. Rutinas detectadas como más anómalas en la provincia mediana
Número 34 · Septiembre 2004
Comunicaciones de Telefónica I+D
175
novedad y encontrar las razones que han ocasionado
la discrepancia con los valores normales. Para llevar a
cabo este análisis se han seleccionado los datos considerados como más novedosos, es decir, aquellos que
están más alejados del núcleo referido al comportamiento normal en las tablas. Para estudiar las causas
de cada novedad, se han seleccionado un conjunto
reducido, pero representativo, de terminales telefónicos con datos novedosos. Estos teléfonos pertenecen a
tres provincias consideradas como prototipos, las provincias de tamaño pequeño, mediano y grande, respectivamente, con un total de 14.353 terminales.
Para cada provincia se ha analizado un terminal por
cada grupo de datos novedosos (tipo de llamada, tipo
de planta y grupo de días de la semana), tal como se
indica en el apartado anterior. En total se han analizado 24 terminales para el conjunto de las tres provincias.
La Tabla 6 resume la relación de novedades encontradas, su descripción y el número de veces que se ha
detectado en cada tipo de provincia.
Para estudiar las causas de las novedades descritas en
la tabla, éstas se clasifican en tres grupos denominados:
1. Desviaciones atípicas de los valores medios
Existen cuatro tipos de novedades detectadas referidas a:
Terminales con estadísticas de un número excesivo de llamadas al día.
Terminales con un incremento de la duración
media de las llamadas y/o del coste sin variación
del promedio de llamadas.
Terminales con una duración media excesiva de
las llamadas gratuitas.
Terminales con un número excesivo de llamadas
con coste.
Las desviaciones atípicas respecto a los valores considerados normales puede ser un indicio de fraude,
sin embargo se debe comprobar las causas de dichas
desviaciones y descartar que se trata de situaciones
excepcionales y justificadas, por ejemplo, las referidas a factores estacionales o eventos puntuales
como fiestas, eventos deportivos, etc. En caso de
que se produzcan otros datos anómalos (como por
ejemplo un excesivo número de llamadas en estadísticas de numeración a números tasados de tipo
806, 807, etcétera), entonces estaríamos ante una
hipótesis más plausible de fraude.
Provincia
mediana
Provincia
grande
Provincia
pequeña
Terminales con estadísticas de coste mayor
que el importe
2
5
0
Terminales con estadísticas con número de
llamadas al día excesivo
4
2
0
Terminales con incremento de la duración media
de las llamadas y/o del coste sin variación del
promedio de llamadas
0
2
0
Terminales con duración media excesiva de las
llamadas gratuitas
0
0
2
Terminales con número de llamadas con coste
excesivo
0
0
1
Sin identificar una causa concreta (acumulación
posible de causas)
0
2
3
Datos novedosos detectados (novedad)*
* Hay terminales con más de una novedad
Tabla 6. Resumen de las novedades detectadas
Comunicaciones de Telefónica I+D
176
Número 34 · Septiembre 2004
2. Discrepancias entre coste e importe
En este caso, existe un tipo de novedad detectada:
la referida a terminales con estadísticas de coste
mayor que el importe.
Esta anomalía puede ser un indicio de fraude. Al
igual que en el punto anterior, se debe comprobar
que la diferencia entre coste e importe no esté originada por una posible avería en el terminal o por
fallos en la transmisión de datos. Una monitorización más detallada del comportamiento de la cabina (número de llamadas, destinos, duración, etc.)
permitirá confirmar o descartar definitivamente el
posible fraude.
3. Falta de datos para realizar una caracterización concreta
Existe finalmente un conjunto de casos donde no
se han podido extraer conclusiones, debido sin
duda a la acumulación de posibles causas. Cuando
se produzca esta situación es necesario disponer de
datos adicionales, que pueden obtenerse mediante
un seguimiento del terminal en determinadas franjas horarias o durante varios días.
Las novedades encontradas permiten detectar indicios
de fraude, sin embargo, para que estos indicios puedan considerarse como hipótesis plausibles de fraude,
es necesario descartar, en primer lugar, otras posible
causas que justificarían la aparición de los datos novedosos, y analizar nuevos datos que permitan confirmar la posible situación de fraude. Para ello se deberían extender los intervalos de datos de los terminales
con objeto de caracterizar adecuadamente los comportamientos estacionales, o los comportamientos
temporales atípicos. Aunque el sistema está preparado
para "aprender" los casos analizados, se necesita un
mayor entrenamiento para observar el comportamiento global del sistema frente a los casos aprendidos.
CONCLUSIONES
Los resultados obtenidos con la evaluación del sistema
muestran la efectividad de las técnicas SVM para
detectar patrones atípicos de comportamiento. La tasa
de datos anómalos detectados es muy baja (un 0,28
por ciento el máximo y un 0,2 por ciento la media,
según se muestra en la Tabla 4), esto implica que el
número de terminales a examinar para toda la planta
telefónica sería del orden de cien terminales. El análisis de estos casos permite inicialmente determinar si
pueden ser considerados como indicios de fraude o si
deben ser considerados como casos atípicos con causas justificadas. En esta última situación el sistema
puede "aprenderlos", asimilando la información
correspondiente como parte del comportamiento
normal. En los experimentos realizados se han detectado situaciones anómalas, algunas de las cuales
podrían constituir indicios de fraude. En este caso se
dispone de una primera fuente de información que
puede ser complementada con otros indicios detectados por el mismo sistema o por otras técnicas de
detección.
En este sentido el trabajo realizado puede continuar
con otras actividades posteriores para extender la funcionalidad del sistema en aspectos tales como:
Optimizar la selección de los parámetros que permiten definir la novedad.
Aumentar la capacidad de modelado y de procesamiento para incluir datos temporales, de forma que
se puedan detectar secuencias de patrones novedosos según distintos periodos: semanales, mensuales,
estacionales, anuales.
Incluir filtros que detecten las situaciones anómalas
justificadas y eviten que sean generadas como novedades.
Añadir mecanismos para caracterizar y correlacionar
automáticamente las novedades obtenidas. Esto
permitiría definir reglas tanto para definir las situaciones de fraude como para descartarlas.
Número 34 · Septiembre 2004
Comunicaciones de Telefónica I+D
177
Glosario de Acrónimos
LVQ Learning Vector Quantization
PCA Principal Component Analysis
SVM Support Vector Machines
Referencias
1.
2.
3.
4.
5.
6.
7.
8.
9.
E. Aleskerov, B. Freisleben and B. Rao. CARDWATCH: A
neural network based database mining system for credit
card fraud detection. Proceedings of the IEEE/IAFE
Conference on Computational Intelligence for Financial
Engineering (CIFEr), pp. 220-226. IEEE Press, 1997.
J. Arenas García and F. Pérez Cruz: Multi-Class Support
Vector Machines: A new approach. In Proc. of the 2003
IEEE Intl. Conference on Acoustics, Speech and Signal
Machines for histogram-based image classification. IEEE
Trans. on Neural Networks, vol. 9, pp. 1055-1064, 1999.
14. S. Chen, A. Samingan and L. Hanzo: Support Vector
Machine multiuser receiver for DS-CDMA signals in
multipath channels. IEEE Trans. on Neural Networks, vol.
12, pp. 604-611, 2001.
15. Curet, M. Jackson and A. Tarar: Designing and evaluating
a case-based learning and reasoning agent in
Proc., pp. 781-784, Hong Kong, 2003.
P. Allen, R. McKendrick, C. Scott, M. Buonanno, P. Mostacci,
C. Naldini, V. Scuderi and P. Stofella: Interactive anomaly
detection in large transaction history databases. HighPerformance Computing and Networking. International
Conference and Exhibition HPCN 1996 Proceedings, pp.
143-149, April 1996.
L. Barney: Detecting trading fraud. Wall Street &
Technology 12(11), 40, 1995.
M. Bonneville, J. Meunier, Y. Bengio and J. P. Souvy:
unstructured decision making. IEEE International
Conference on Systems, Man and Cybernetics.
Information Intelligence and Systems, Volume 4, pp.
2487- 2492, October 1996.
16. B. Davis and S. K. Goyal: Management of cellular fraud:
Knowledge-based detection, classification and
prevention. Proceedings of the 13th International
Conference on Artificial Intelligence, Expert Systems and
Natural Language, Avignon, France, Volume 2, pp. 155-164,
1993.
Support Vector Machines for improving the
Classification of PET Images. In Proc. of the SPIE Medical
Imaging Symposium, vol. 3338, San Diego, CA, pp. 264-
17.
273, 1998.
P. Burge and J. Shawe-Taylor: Frameworks for fraud
18. K. J. Ezawa and S. W. Norton: Constructing bayesian
networks to predict uncollectible telecommunications
detection in mobile telecommunications networks.
Proceedings of the Fourth Annual Mobile and Personal
Communications Seminar, University of Limerick, 1996.
P. Burge and J. Shawe-Taylor: Detecting cellular fraud
using adaptive prototypes. Proceedings of AAAI-97
Workshop on AI Approaches to Fraud Detection & Risk
Management, pp. 9-13. AAAI Press, July 1997.
P. Burge, J. Shawe-Taylor, Y. Moreau, H. Verrelst, C.
Störmann and P. Gosset: BRUTUS - a hybrid detection
tool. Proceedings of ACTS Mobile Telecommunications
Summit, Aalborg, Denmark, October 1997.
C. J. C. Burges: A Tutorial on Support Vector Machines for
Pattern Recognition. Data Mining and Knowledge
accounts. IEEE Expert 11(5), 45-51, October 1996.
19. K. Fanning, K. O. Cogger and R. Srivastava: Detection of
management fraud: a neural network approach.
International Journal of Intelligent Systems in
Accounting, Finance and Management 4(2), 113-126, 1995.
20. Fawcett and F. Provost: Combining data mining and
machine learning for effective user profiling. Proceedings
of the Second International Conference on Knowledge
Discovery and Data Mining (KDD-96), pp. 8-13. AAAI Press,
July 1996.
21. Fawcett and F. Provost: Adaptive fraud detection. Journal
of Data Mining and Knowledge Discovery 1(3), 291-316,
1997.
Discovery, vol. 2, pp. 121-167, 1998.
10. M. Cahill, F. Chen, D. Lambert, J. C. Pinheiro and D. X. Sun:
Detecting Fraud in the Real World. Handbook of Massive
Datasets, ed. J. Abello, P. Pardalos and M. Resende, Kluwer
Press, New Cork, 2000.
11. P. K. Chan and S. J. Stolfo: Toward scalable learning with
non-uniform class and cost distributions: A case study in
credit card fraud detection. Proceedings of the Fourth
International Conference on Knowledge Discovery and
Data Mining (KDD'98), pp. 164-168, August 1998.
12. C.C. Chang and C.J. Lin: LIBSVM (A Library for Support
Vector Machines). Version 2.33,
www.csie.ntu.edu.tw/~cjlin/libsvm/
13. O. Chapelle, P. Haffner and V. Vapnik: Support Vector
Comunicaciones de Telefónica I+D
178
Número 34 · Septiembre 2004
J. R. Dorronsoro, F. Ginel, C. Sánchez and C. S. Cruz: Neural
fraud detection in credit card operations. IEEE
Transactions on Neural Networks 8(4), 827-834, 1997.
22. K. L. Fox, R. R. Henning, J. H. Reed and R. P. Simonian: A
neural network approach towards intrusion detection.
Proc. 13th National Computer Security Conference.
Information Systems Security. Standards -the Key to the
Future, Volume I, Gaithersburg, MD, pp. 125-134. NIST,
1990.
23. S. Ghosh and D. L. Reilly: Credit card fraud detection with
a neural network. Proc. of the Twenty-Seventh Hawaii Int.
Conf. on System Sciences, pp. 621-630. IEEE Computer
Society Press, January 1994.
24. V. Hanagandi, A. Dhar and K. Buescher: Density-based
clustering and radial basis function modelling to
generate credit card fraud scores. Proceedings of the
IEEE/IAFE Conference on Computational Intelligence for
Financial Engineering (CIFEr), pp. 247-251. IEEE Press, March
1996.
25. H. He, J. Wang, W. Graco and S. Hawkins: Application of
neural networks to detection of medical fraud. Expert
Systems with Applications 13(4), 329-336, 1997.
26. J. Hollmén: User Profiling and Classification for Fraud
component analysis, optimization problems, and neural
networks. Neural Networks, 8(4): 549-562, 1995.
40. J. A. Major and D. R. Riedinger: EFD: A hybrid
knowledge/statistical based system for the detection of
fraud. Internacional Journal of Intelligent Systems 7(7),
687-703, 1992.
Detection. Tesis Doctoral, Helsinki University of
Technology, The thesis was awarded by the Research
Foundation of Information Processing, December 2000.
27. J. Hollmén, M. Skubacz and M. Taniguch: Input dependent
misclassification costs for cost-sensitive classification.
DATA MINING II - Proceedings of the Second International
Conference on Data Mining, pp. 495-503. WIT Press, 2000.
28. J. Hollmén and V. Tresp: Call-based fraud detection in
mobile communications networks using a hierarchical
regime-switching model. Advances in Neural Information
Processing Systems: Proceedings of the 1998 Conference
(NIPS'11), pp. 889-895. MIT Press, 1999.
29. J. Hollmén, V. Tresp and O. Simula: A selforganizing map
algorithm for clustering probabilistic models. Proceedings
41. M. Markou and S. Singh: Novelty Detection: a review -- part
1: Statistical Approaches. Signal Processing, vol. 83, pp.
2481-2497, 2003.
42. M. Markou and S. Singh: Novelty Detection: a review -- part
2: Neural Network based Approaches. Signal Processing,
vol. 83, pp. 2499-2521, 2003.
43. Menkus: Some management-directed fraud incidents.
EDPACS 25 (10), 14–16, 1998.
44. Y. Moreau and J. Vandewalle: Fraud detection in mobile
communications networks using supervised neural
networks. Proceedings of SNN’97, Europe’s Best Neuronal
Networks Practice. World Scientific, 1997.
45. Y. Moreau, H. Verrelst and J. Vandewalle: Detection of
mobile phone fraud using supervised neural networks: A
of the Ninth International Conference on Artificial Neural
first prototype. International Conference on Artificial
Networks (ICANN'99), Volume 2, pp. 946-951. IEE.
September 1999.
Neural Networks Proceedings (ICANN'97), pp. 1065-1070,
October 1997.
30. J. Hollmén, V. Tresp and O. Simula: A learning vector
quantization for probabilistic models. Proceedings of
EUSIPCO 2000 –X European Signal Processing Conference,
Volume II, pp. 721-724, 2000.
31. J. Hollmén and V. Tresp: A hidden markov model for metric
and event-based data. Proceedings of EUSIPCO 2000 — X
32.
33.
34.
35.
36.
37.
38.
39.
46. K. R. Müller, S. Mika, G. Rätsch, K. Tsuda and B. Shölkopf: An
Introduction to Kernel-based Learning Algorithms. IEEE
Trans. on Neural Networks, vol. 12, pp. 181-201, 2001.
47. Navia Vázquez, F. Pérez Cruz, A. Artés Rodríguez and A.
R.Figueiras Vidal: Weighted Least Squares Training of
Support Vector Classifiers leading to Compact and
European Signal Processing Conference, Volume II, pp.
737–740, 2000.
C. W. Hsu and C. J. Lin: A comparison of methods for
Multiclass Support Vector Machines. IEEE Trans. on Neural
Networks, vol. 13, pp. 415-425, 2002.
P. Howard and P. Gosset: D20 – project final report and
results of trials. ASPeCT: Advanced Security for Personal
Communications Technologies, Report
AC095/VOD/W31/DS/P20/E, 1998.
J. Huang, X. Shao and H. Wechsler: Face pose
discrimination using support vector machines (SVM). In
Proc. of the 14th International Conference on Pattern
Recognition, vol. 1, Brisbane, Queensland, Australia, pp. 154156, 1998.
D. Jensen: Prospective assessment of AI technologies for
fraud detection: A case study. Proceedings of AAAI-97
Adaptive Schemes. IEEE Trans. on Neural Networks, vol. 12,
pp. 1047-1059, 2001.
48. Navia-Vázquez and B. Scholkopf: Statistical Learning and
Kernel Methods. In Adaptivity and Learning: An
Interdisciplinary Debate (Kühn, Menzel, Ratsch, Richter,
Stamatescu, Eds.) pp. 161-186, Springer, 2003
49. Navia Vázquez, F. Pérez Cruz, A. Artés Rodríguez and A.R.
Figueiras Vidal: Advantages of Unbiased Support Vector
Classifiers for Data Mining Applications. Journal of VLSI
Signal Processing Systems, Special Issue on "Data Mining
and Biomedical Applications of Neural Networks", vol. 37,
no. 2-3, pp. 223-235, 2004.
50. F. Pérez Cruz, A. Navia Vázquez, J.L. Rojo Álvarez and A.
Artés Rodríguez: A New Training Algorithm for Support
Vector Machines. Proc. COST #229 Workshop, pp. 343-351;
Bayona, Spain, June 2000.
Workshop on AI Approaches to Fraud Detection & Risk
Management, pp. 34-38. AAAI Press, July 1997.
T. Joachims: Text categorization with Support Vector
Machines: Learning with many relevant Features. In Proc.
of the 10th European Conference on Machine Learning,
Chemnitz, Germany, pp. 137-142, 1998.
I.T. Jolliffe: Principal Component Analysis. Springer, New
York, 1986.
H. Lodhi, J. Shawe-Taylor, N. Cristianini and C. J. C. H.
Watking: Text Classification using String Kernels. In
Advances on Neural Information Processing Systems, MIT.
Press: Cambridge, MA, pp. 563-569, 2000.
J. Karhunen and J. Joutsensalo: Generalization of principal
51. F. Pérez Cruz, A. Navia Vázquez and A. Artés Rodríguez: An
IRWLS procedure for SVR. In 10th European Signal Processing
Conference (EUSIPCO'2000),Tampere, Finland, September 5-8
2000.
52. F. Pérez Cruz, A. Navia Vázquez, P. L. Alarcón Diana and A.
Artés Rodríguez: Support Vector Classifier with Hyperbolic
Tangent Loss Function. Proceedings IEEE International
Conference on Acoustics, Speech, and Signal Processing
ICASSP’2000, vol. 6, pp. 3458-61, Piscataway, NJ, USA, 2000.
53. F. Pérez Cruz, P. L. Alarcón Diana, A. Navia Vázquez and A.
Artés Rodríguez: Fast Training of Support Vector Machines.
Proc. Advances in Neural Information Processing Systems,
vol. 13, pp. 734-740. Cambridge, MA., 2000.
Número 34 · Septiembre 2004
Comunicaciones de Telefónica I+D
179
54. F. Pérez Cruz, A. Navia Vázquez, P. Alarcón Diana and A.
Artés Rodríguez: SVC-based Equalization of Burst TDMA
Transmissions. Signal Processing Special Number on
Communications, vol. 81, no. 8, pp. 1681-1693, 2001.
55. F. Pérez Cruz, A. Navia Vázquez, A.R. Figueiras Vidal and A.
Artés Rodríguez: Empirical Risk Minimization for Support
Vector Machines. IEEE Trans. on Neural Networks, vol. 14,
no. 2, pp. 296-303, 2003.
68. J. Sebald and J. A. Bucklew: Support Vector Machines
Techniques for Nonlinear Equalization. IEEE Trans. on
Signal Proc., vol. 48, pp. 3217-3226, 2000.
69. N. Smith and M. Gales: Speech Recognition using Support
Vector Machines. In Advances in Neural Information
Processing Systems, vol. 14, MIT Press: Cambridge, MA,
2002.
70. J. Smola and B. Schölkopf: A tutorial on Support Vector
56. E. Parrado Hernández, A. Lyhyaoui and A. Navia Vázquez:
Kernel Methods for Near-Optimal Hierarchical Clustering.
IEEE International Workshop on Intelligent Signal
Processing, WISP’2001. Budapest, Hungary, May 2001.
57. E. Parrado Hernández, J. Arenas García, I. Mora Jiménez and
A. Navia Vázquez: On Problem-Oriented Kernel Refining.
Neurocomputing, Special Issue on Support Vector
Machines. Vol. 55, No 1-2, pp. 135-150, 2003.
58. E. Parrado Hernández, I. Mora Jiménez, J. Arenas García, A.
R. Figueiras Vidal and A. Navia Vázquez: Growing Support
Regression. Tech. Report NC-TR-98-030, Royal Holloway
College, University of London, UK, 1998, www.neurocolt.
com/pub/neurocolt/tech_reports/1998/98030.ps.Z
71. L. Sokol: Using data mining to support health care fraud
detection. PADD98. Proceedings of the Second
International Conference on the Practical Application of
Knowledge Discovery and Data Mining, pp. 75-82, March
1998.
72. S. J. Stolfo, D.W. Fan, W. Lee and A. L. Prodromidis: Credit
card fraud detection using meta-learning: Issues and
Vector Classifiers with Controlled Complexity. Pattern
Recognition, vol. 36, pp. 1479-1488, 2003.
59. E. Parrado Hernández: Nuevos Algoritmos Basados en
Núcleos para Minería de Datos. Tesis Doctoral, Universidad
Carlos III de Madrid, 2003.
73. K. Tan: The application of neural networks to UNIX
computer security. IEEE International Conference on
60. J. Ryan, M.J. Ling and R. Miikkulainen: Intrusion detection
with neural networks. Proceedings of AAAI-97 Workshop
on AI Approaches to Fraud Detection & Risk Management,
pp. 72-77. AAAI Press, July 1997.
61. M. Sánchez Fernández, M. de Prado Cumplido, J. Arenas
García and F. Pérez Cruz: SVM Multiregression for Non-
Neural Networks, pp. 476-481. IEEE Press, 1995.
74. M. Taniguchi, M. Haft, J. Hollmén and V. Tresp: Fraud
detection in communications networks using neural and
probabilistic methods. Proceedings of the IEEE
International Conference in Acoustics, Speech and Signal
Processing (ICASSP'98), Volume 2, pp. 1241-1244, May 1998.
Linear Channel Estimation in Multiple-Input MultipleOutput Systems. IEEE Trans. on Signal Proc., 2004 (in
press).
62. E. Rosenberg and A. Gleit: Quantitative methods in credit
management: A survey. Operations Research 42(4), 589613, July-August 1994.
63. Schölkopf, C. J. C. Burges and V. N. Vapnik: Incorporating
Invariance in Support Vector Learning Machines. In Proc. of
the 1996 International Conference on Artificial Neural
Networks, SLNCS Vol. 1112, Berlin, pp. 47-52, 1996.
64. Schölkopf, R. Williamson, A. Smola, J. Shawe-Taylor and J.
Platt: Support vector method for novelty detection. In
Advances in Neural Information Processing Systems, vol.
75. S. Theodoridis and K. Koutroumbas: Pattern Recognition.
Academic Press, London, UK 1998.
76. V. Vapnik: The Nature of Statistical Learning Theory.
Springer-Verlag: New York, NY, 1995.
77. V. N. Vapnik, S. Golowich and A. J. Smola: Support Vector
Method for function approximation, regression
estimation, and signal processing. In Advances in Neural
Information Processing Systems, MIT Press: Cambridge,
MA, pp. 169-184, 1997.
78. Y. Yao, G.L. Marcialis, M. Pontil, P. Frasconi and F. Roli:
Combining Flat and Structured Representations for
Fingerprint Classification with Recursive Neural Networks
and Support Vector Machines. Pattern Recognition, vol. 36,
12, MIT Press: Cambridge, MA, 2000.
65. Scholkopf, R.C. Williamson, A.J. Smola and J. Shawe-Taylor:
SV estimation of a distribution's support. Neural
pp. 397-406, 2003.
79. E. González Berbés, I. Cortázar Múgica y F.J. Garijo Mazario.
Gestión del fraude en telecomunicaciones.
Information Processing Systems, 2000. (Forthcoming).
66. Schölkopf and A. J. Smola: Learning with Kernels. MIT Press,
2002.
67. T. Schuerman: Risk management in the financial services
industry: Through a statistical lens. Proceedings of AAAI97 Workshop on AI Approaches to Fraud Detection & Risk
Management, pp. 78-82. AAAI Press, July 1997.
Comunicaciones de Telefónica I+D, número 33, marzo
2004.
Comunicaciones de Telefónica I+D
180
initial results. Proceedings of AAAI-97 Workshop on AI
Approaches to Fraud Detection & Risk Management, pp.
83-90. AAAI Press, July 1997.
Número 34 · Septiembre 2004
Descargar