Aplicaciones de aprendizaje no supervisado para la detección de patrones de fraude en telecomunicaciones Alberto Montero Pérez, Emilio González Berbés, Francisco Javier Garijo Mazario Telefónica Investigación y Desarrollo Francisco Martín Nieto Telefónica Telecomunicaciones Públicas Vanessa Gómez Verdejo, Jerónimo Arenas García, Ángel Navia Vázquez, Aníbal R. Figueiras Vidal Departamento De Teoría De La Señal Y Comunicaciones, Universidad Carlos III De Madrid El fraude en telecomunicaciones tiene una amplia historia y reviste una gran variedad de formas según sea el tipo de red o de servicio, las tecnologías de implementación, los terminales o los medios de pago utilizados. Por ello la lucha contra el fraude es una tarea compleja que requiere un esfuerzo continuo de gestión con el objetivo de mejorar la metodología, las tecnologías y las herramientas necesarias para prevenir el fraude, detectarlo con rapidez cuando se produzca y minimizar sus efectos. En este artículo se describe un nuevo sistema de detección del fraude basado en las nuevas tecnologías de detección de novedad, y se hace referencia a las máquinas que se utilizan para ello: las máquinas de "vectores soporte monoclase" (SVM, Support Vector Machines), que permiten responder al reto del modelado flexible de los escenarios de fraude así como la detección temprana. Se detallan en el artículo los fundamentos de las SVM y su aplicación a la telefonía pública. También se detallan las fases necesarias para llevar a cabo la detección de patrones nuevos y las distintas etapas de cada fase. Además se presentan los tipos de novedades disponibles en el sistema implementado y los beneficios obtenidos para la detección del fraude. Finalmente, se analizan las prestaciones del sistema y se señalan las diferentes mejoras a realizar en el futuro. INTRODUCCIÓN El fraude en telecomunicaciones tiene una amplia historia y reviste una gran variedad de formas según sea el tipo de red o de servicio, las tecnologías de implementación, los terminales o los medios de pago utilizados. Los cambios en los modelos de negocio, la diversidad de dispositivos, de productos software, de proveedores de red y de servicios, no supone un obstáculo al fraude sino un acicate. Los defraudadores son imaginativos e innovadores, aprovechan cualquier vulnerabilidad de los sistemas en su propio beneficio. La lucha contra el fraude es una tarea compleja que requiere un esfuerzo continuo de gestión con el objetivo de mejorar la metodología, las tecnologías y las herramientas necesarias para prevenirlo, y para detectarlo con rapidez cuando se produzca con objeto de minimizar sus efectos. Este esfuerzo se justifica no sólo por las pérdidas económicas que ocasiona a los operadores, estimadas entre el 3 y el 6 por ciento de la cifra de negocio, sino también por la pérdida de imagen de las empresas y de confianza de los clientes. En un artículo publicado en esta revista [79] se estudiaban distintos aspectos de la gestión del fraude y se presentaban las soluciones propuestas por Telefónica I+D. En él se destacaba la necesidad de detección temprana de cualquier actividad fraudulenta. Por razones de coste y operatividad, se hace imprescindible en la mayor parte de los casos la utilización de sistemas automáticos frente a alternativas de vigilancia y Número 34 · Septiembre 2004 Comunicaciones de Telefónica I+D 161 detección por parte de expertos humanos: hoy en día la gran cantidad de datos de negocio, tráfico o facturación manejados diariamente hace prácticamente inviable un trabajo manual directo sobre ellos. En este artículo se describen las experiencias realizadas y los resultados obtenidos en la detección del fraude en la telefonía pública con una reciente tecnología de detección de novedad: las máquinas de vectores soporte monoclase (Support Vector Machines, SVM) [9] [64] [66]. Las SVM se inscriben dentro de los métodos de detección basados en aprendizaje automático, y permiten aprender la relación (lineal o no) existente entre la entrada y la salida de un sistema. Aunque inicialmente se utilizaron para resolver problemas de clasificación binaria [9], se han aplicado eficazmente a la detección de novedad [64] y a otras áreas como la clasificación multiclase [2] [32], y a la aproximación de funciones unidimensionales [70] [77] o multidimensionales [61]. Entre las ventajas del uso de las SVM destacan la flexibilidad de modelado -ya que permiten la construcción semiautomática de modelos no paramétricos de datos-,la insensibilidad ante la dimensión de los datos de entrada, la posibilidad de controlar la tasa de falsas alarmas, y su adaptación a escenarios cambiantes. En el artículo se describen con detalle los fundamentos de las SVM y su aplicación a la telefonía pública. El sistema implementado procesa los resúmenes detallados de llamadas (rutinas diarias) enviadas desde cada terminal (la cabina telefónica, en este caso particular), permitiendo discriminar cuáles son normales y cuáles atípicas, y, por tanto, merecedoras de un estudio más detallado por parte de un experto. El artículo está estructurado en tres partes. En primer lugar se describen las fases necesarias para llevar a cabo la detección de patrones nuevos (se utiliza un ejemplo con los datos obtenidos en la telefonía pública para ilustrar cada una de las fases descritas). A continuación se describe en detalle la tecnología utilizada: la máquina de vectores soporte monoclase. Finalmente, se analizan los resultados obtenidos y se indican las líneas de trabajo futuro. TECNOLOGÍAS UTILIZADAS EN LOS SISTEMAS DE DETECCIÓN DE FRAUDE La detección del fraude implica el análisis de enormes cantidades de información procedente de distintas fuentes (registros de llamada, tramas, eventos de fac- Comunicaciones de Telefónica I+D 162 Número 34 · Septiembre 2004 turación, registros de clientes, etc.), con objeto de identificar patrones anómalos respecto al comportamiento habitual. La búsqueda de estos patrones se realiza mediante herramientas informáticas, utilizando un amplio abanico de tecnologías. Entre ellas se encuentran las siguientes: Las técnicas estadísticas para la extracción de características, la clasificación y el procesado temporal de los datos. Las técnicas basadas en reglas, donde se definen de forma sencilla las condiciones de los patrones de fraude, por ejemplo, los umbrales de detección. Las técnicas de aprendizaje automático, que se basan en un entrenamiento con casos para realizar el proceso de detección. En las técnicas de aprendizaje existen diferentes modelos y formas de utilización. Así en [44] y [45] se emplean redes neuronales supervisadas y realimentadas para la detección del fraude en las comunicaciones móviles. Por otro lado, Burge y Shawe-Taylor [6] [7] se han centrado en técnicas de aprendizaje no supervisado entrenadas a partir de los perfiles de las llamadas. Sin embargo, la mayor parte de los trabajos realizados se centran en esquemas híbridos, como es el caso de los trabajos posteriores de Burge [8] o Howard y Gosset [33]. El trabajo de J. Hollmén para la detección del fraude en redes de comunicaciones ha sido bastante amplio y variado, tal y como se refleja en su tesis doctoral [26]. Como fruto de este trabajo, en [74] presenta una combinación de redes neuronales con modelos gaussianos y redes bayesianas, mientras que en [29] y [30] presenta las técnicas de aprendizaje no supervisado (mapas autoorganizativos de Kohonen y cuantificación vectorial LVQ) que ha utilizado. Por otro lado, en [27], [28] y [31] presenta los sistemas de detección del fraude basados en modelos de coste, modelos jerárquicos conmutados de series temporales y modelos probabilísticos, respectivamente. Un inconveniente de estos sistemas es que funcionan como "cajas negras" y no dan información o una explicación directa de las causas de la detección. Por ello deben complementarse con otros sistemas que informen sobre las mismas. No obstante, son muchas las líneas de trabajo abiertas hacia la obtención de mecanismos de explicación de relaciones entre variables de entrada y salida, esto es, hacia la identificación de la causa-efecto. Las técnicas de detección de novedad tienen como objetivo la identificación de patrones anómalos respecto al comportamiento normal del sistema. Se basan en métodos de estimación de densidades de probabilidad de la población de datos, o en algoritmos de agrupamiento. En el primer caso, la novedad se detecta cuando un evento tiene una probabilidad asociada muy baja; en el segundo, cuando su distancia al perfil (o centro de cada grupo obtenido) más cercano supera cierto umbral fijado en función del problema tratado y de la medida de distancia empleada. Habitualmente se utiliza la distancia euclídea, aunque es posible emplear otro tipo de distancias, como la de Mahalanobis, la norma de Manhatan, o la distancia del coseno [75]. Las máquinas de vectores soporte constituyen unas potentes herramientas para el aprendizaje de la relación (lineal o no) existente entre la entrada y la salida de un sistema. Con un fuerte fundamento en la Teoría de Aprendizaje Estadístico [76], las SVM fueron propuestas inicialmente para resolver problemas de clasificación binaria [9]. En la última década han adquirido una gran reputación debido a sus excelentes prestaciones en un gran número de aplicaciones. Posteriormente se han desarrollado nuevos modelos aplicables a la clasificación multiclase [2] [32], la detección de novedad [64], y la aproximación de funciones unidimensionales [70] [77] o multidimensionales [61]. El proceso de mejora de estas técnicas ha continuado en los últimos años obteniéndose importantes ventajas computacionales, de escalabilidad, de adaptabilidad y de prestaciones frente a otros esquemas tradicionales: véanse, por ejemplo, los resultados presentados en [2], [47], [48], [49], [50], [51], [52], [53], [54], [55], [56], [57], [58] y [59]. La aplicación de estas técnicas a la detección del fraude en telefonía pública se describe a continuación. IDENTIFICACIÓN DE PATRONES DE FRAUDE EN TELEFONÍA PÚBLICA MEDIANTE LAS TÉCNICAS DE DETECCIÓN DE NOVEDAD lada de teléfonos, la parametrización de los terminales, la actualización del programa de funcionamiento, la conservación, el tráfico y la recaudación. Entre estas funciones destaca la generación de alarmas de fallos de funcionamiento y de fraudes básicos (intento fraudulento de apertura, robo del arca, etc.). Sin embargo no proporciona información sobre la detección de indicios de fraude en las llamadas ni en los medios de pago utilizados. Esta detección requiere el análisis de los datos de tráfico (datos de las llamadas realizadas en función del destino y del medio de pago). Para implementar las técnicas de detección de novedad se han utilizado los datos de tráfico notificados por los teléfonos, completados con los datos del sistema de gestión. Estos datos se utilizan para el entrenamiento o aprendizaje de los modelos de comportamiento normal, así como para la detección de novedad y para la verificación. Diariamente el terminal envía al sistema de gestión un resumen estadístico de las llamadas realizadas, agrupadas por tipo de llamada (destino) y por pago utilizado (medio de pago). Este resumen contiene el coste de la llamada, el importe, la duración, el número de llamadas, el tipo de llamada y el medio de pago. Además el sistema de gestión le añade otros datos, como son el número de teléfono, la provincia, la localidad, la central, el tipo de central, la fecha, el día de la semana, el tipo de día (laboral o festivo) y el tipo de periodo anual en función del uso (alto, medio o bajo). Fases del proceso de detección El proceso para la detección de nuevos patrones consta de las siguientes fases: Entrenamiento inicial del sistema. Consiste en la identificación y modelado de los patrones de uso típicos del sistema; en este caso se trata de los datos obtenidos de las cabinas públicas a partir de los registros de las llamadas realizadas a lo largo de varios meses. La telefonía pública es objeto de múltiples ataques debido a sus condiciones especiales: terminales en entornos no protegidos conteniendo dinero en metálico, uso de varios medios de pago, oferta de múltiples servicios, acceso anónimo y distribución geográfica. Identificación de patrones de fraude. Los modelos ajustados durante el entrenamiento se utilizan para detectar posibles casos o indicios de fraude. En el sistema se ha utilizado una escala temporal diaria. El sistema de gestión de la telefonía pública SG-2000 administra y mantiene la planta de teléfonos públicos instalados en la vía pública y en interiores. Entre sus funciones se encuentran la gestión de la planta insta- Aprendizaje de los nuevos patrones. Se analizan los patrones potenciales de fraude detectado en la fase anterior y se utilizan los casos que no son fraude (falsos positivos) para actualizar los detectores. Número 34 · Septiembre 2004 Comunicaciones de Telefónica I+D 163 La fase de entrenamiento inicial consta de las siguientes etapas: Extracción de los datos. Diariamente cada cabina envía la información relativa al coste, importe, duración y número de llamadas realizadas, agrupadas para cada uno de los posibles tipos de llamada (local, provincial, interna, etc.) y medios de pago (efectivo, tarjeta prepago o de crédito, etc.). Esta información recopilada durante un día se denomina "rutina diaria", y es almacenada en un formato adecuado en la base de datos correspondiente, junto con otra información de registro de planta y de tarificación, para la realización de las etapas siguientes. Procesamiento de los datos. Consiste en una normalización de las variables utilizadas, y en la eliminación de la información redundante mediante la aplicación de un método de reducción dimensional. Esto facilita la aplicación de las técnicas de "aprendizaje máquina" utilizadas, mejorando asimismo las prestaciones. Desagregación de la información. Dada la gran cantidad de datos disponibles, y el alto grado de heterogeneidad existente entre ellos (factores de tipo geográfico, temporal, etc.), se ha propuesto un esquema de desagregación que permite el desplie- gue de modelos de datos más pormenorizados y que está basado en un conocimiento experto previo sobre la naturaleza del problema a resolver. Se tienen en cuenta, por tanto, las características específicas de cada dato (localización geográfica y del terminal al que pertenece, tipo de día e, incluso, tipo de llamada), factores ya identificados por los expertos como muy relevantes para el problema. Entrenamiento "one class SVM". Dado que no se dispone todavía de casos de fraude debidamente documentados y etiquetados, se ha optado por utilizar técnicas que permiten, durante la fase de entrenamiento, el aprendizaje y modelado de los patrones de uso normal de las cabinas para cada uno de los nodos resultantes tras la desagregación de datos. Posteriormente, la desviación con respecto a estos modelos de nuevos patrones permitirá detectar comportamientos anómalos que pueden indicar la presencia de fraude. A medida que se disponga de más conocimiento sobre datos de fraude medidos en este espacio de representación de datos, se podrán incorporar al sistema para mejorar todavía más sus prestaciones. En la Figura 1 se ha representado de modo esquemático la secuencia de pasos realizada en las fases de entrenamiento del sistema y en la operación normal para detección de novedad. SG-2000 ENTRENAMIENTO Extracción de datos Procesamiento IDENTIFICACIÓN DE PATRONES VALIDACIÓN Procesamiento Evaluación Datos de entrenamiento Tablas PCA Arbol de desgregación Arbol de desgregación Datos novedosos Entrenamiento one class SVM Detección de novedad Máquinas entrenadas Figura 1. Fases y etapas del proceso de detección del fraude Comunicaciones de Telefónica I+D 164 Número 34 · Septiembre 2004 Los datos seleccionados en este caso para el aprendizaje comprenden un periodo temporal de entre cuatro y cinco meses. En lo que respecta a los datos para verificación, éstos comprenden un mes y además permiten el afinado de la máquina. A partir de la disposición de la máquina entrenada y verificada, diariamente se introducen en el sistema los datos diarios de tráfico para obtener los posibles casos de fraude y analizar su validez. Las técnicas de detección utilizadas han servido para obtener automáticamente nuevos datos que tienen diferencias significativas con los patrones de comportamiento normal. El análisis de estos comportamientos nuevos respecto a los normales permite detectar indicios de fraude o identificar excepciones al comportamiento normal, que sirven para enriquecer el proceso de detección. A continuación se describen cada una de las etapas del proceso de detección de fraude, ilustrando su funcionamiento con algunos ejemplos. Preprocesado: normalización y reducción dimensional Las rutinas enviadas por cada cabina telefónica contienen generalmente datos diarios sobre el número de llamadas, coste, importe y duración, clasificados en función del tipo de llamada (local, provincial, interna, etc.) y del medio de pago empleado. En realidad no se manejan los datos reales, sino una transformación lineal de los mismos, lo que permite preservar en todo momento la información confidencial del negocio. Esta transformación no repercute negativamente en el funcionamiento del sistema, siempre que se garantice que las variables implicadas se transformen del mismo modo. En esta etapa se realiza únicamente el preprocesado de las cuatro variables anteriores. Por un lado es conveniente realizar una segunda normalización de las mismas, a fin de ajustar los rangos dinámicos. Por otro lado, la extracción de las características, que se basa en el análisis de los componentes principales, permite eliminar la información redundante y reducir el número de variables que se manejan. Normalización Con el fin de eliminar posibles tendencias estacionales (por ejemplo, las debidas a un mayor consumo en las zonas turísticas durante los meses de verano) se realiza una normalización diaria de las variables (coste, importe, duración y número de llamadas) para todos los terminales de una misma provincia, de manera que se elimina el valor medio de las rutinas diarias de cada provincia, y su desviación estándar se fija a uno. Más adelante se analizará si este proceso puede estar eliminando información relevante para la detección de fraude, en cuyo caso se sustituiría por un modelado dinámico que tenga en cuenta los cambios estacionales directamente. Análisis de los componentes principales Observando el carácter de las cuatro variables que se manejan: coste (CT), importe (CB), duración (D) y número de llamadas (NLL), por este orden, es de esperar que estén bastante relacionadas entre sí ya que, por ejemplo, el importe dependerá del coste de las llamadas, y éste a su vez de la duración y número de las llamadas realizadas. De hecho, puede comprobarse la relación existente entre ellas a partir de los valores de correlación que figuran en la siguiente matriz: Donde cada elemento de la matriz, rx,y , indica la relación estadística1 entre la variable x y la variable y, y puede calcularse a partir de la expresión: R 1 0.9910 0.5669 0.6944 0.9910 1 0.5866 0.7287 = 0.5669 0.5866 1 0.8771 0.6944 0.7287 0.8771 1 (1) Donde N es el número de cuaternas [CT, CB, D, NLL] que se utilizan para estimar las correlaciones. rx,y = 1 N ∑ xi ⋅ yi N i=1 1 N 2 1 N 2 ∑ xi ∑ y i N i=1 N i=1 (2) Al estar las cuatro variables relacionadas entre sí, es posible que se pueda eliminar información redundante. Por este motivo, se ha realizado un análisis de los 1 El valor rx,y representa el coeficiente normalizado de correlación cruzada. La dependencia total entre dos variables viene representada por un valor de rx,y = 1, y el valor 0 indica la incorrelación estadística de las mismas. Número 34 · Septiembre 2004 Comunicaciones de Telefónica I+D 165 componentes principales (Principal Component Analysis, PCA) de los datos que se utilizan para entrenar el sistema. El PCA [37] [39] es una técnica bastante empleada para la extracción de características, permitiendo una reducción del número de variables que representan a cada dato. Para ello, el PCA utiliza una transformación lineal del espacio definido por las cuatro variables (CT, CB, D y NLL), de forma que en el espacio transformado (conocido también como espacio de características) los datos pueden representarse con un número menor de componentes "efectivas". La transformación lineal del PCA identifica las direcciones en las que los datos tienen una mayor varianza, que son las que presumiblemente contienen la mayor parte de la información, de modo que, si se proyectan los datos sobre dichas direcciones, se obtiene una representación compacta de la información. La transformación lineal del PCA queda definida por los autovectores de la matriz de autocovarianza de los datos (componentes principales), mientras que sus autovalores indican la varianza de la señal en cada una de las direcciones dadas por los autovectores. Son precisamente los autovalores los que indican de cuáles de las nuevas componentes o direcciones se puede prescindir para representar los datos. Se ha observado que las componentes principales obtenidas al aplicar el PCA a los datos de entrenamiento difieren bastante en el caso de considerar llamadas con coste no nulo o llamadas con coste nulo. Por este motivo, se ha procedido a una primera separación de los datos en estos dos grupos 2 y se ha realizado un análisis de componentes principales para cada caso por separado (véase la Tabla 1). tes son las que tienen mayor importancia, la tercera componente es escasamente significativa, y la cuarta puede despreciarse prácticamente sin pérdida de información; de ahí que, en adelante, se considere que los datos se encuentran en un espacio tridimensional caracterizado por las tres primeras componentes del PCA, aunque a efectos de visualización se utilicen únicamente dos de dichas variables. En la Tabla 2 se recogen las tres proyecciones que caracterizan este espacio, ordenadas por orden de importancia. La eliminación de coordenadas carentes de información es siempre beneficiosa para las técnicas de "aprendizaje máquina". Además, el análisis de las componentes principales tiene la ventaja adicional de posibilitar representaciones bidimensionales de los datos, utilizando únicamente las dos variables más significativas. En la Figura 2 se muestra el resultado de la proyección de los datos correspondientes a una provincia mediana en las dos componentes principales identificadas mediante PCA, donde se puede observar que las distribuciones de datos no se ajustan a ningún modelo paramétrico conocido, y por tanto resulta conveniente y acertado proceder en modo no paramétrico. Por último, conviene mencionar que, durante la fase de detección de fraude, los datos que están siendo analizados también deben ser proyectados sobre las componentes principales obtenidas durante la fase de entrenamiento, antes de ser enviados al módulo de desagregación de datos, y que aunque para la representación gráfica se utilizarán las dos componentes principales, para la operación de las máquinas de detección de novedad se han elegido tres. Como puede apreciarse, las dos primeras componen2 Tal y como se verá más adelante, esta separación de los datos corresponderá a un primer nivel de desagregación. Autovalores λ1 λ2 λ3 λ4 Llamadas con coste Llamadas con coste nulo 3,29 1,84 0,58 1,10 0,12 0,89 0,006 0,16 Tabla 1. Autovalores obtenidos al aplicar el PCA a los dos grupos de llamadas elegidos (llamadas con coste mayor que cero y llamadas con coste nulo) Comunicaciones de Telefónica I+D 166 Número 34 · Septiembre 2004 Esquema de desagregación de datos Dada la gran diversidad de los datos utilizados, y para homogeneizar los mismos dentro de modelos coherentes, es necesario desagregar los datos en función de ciertas características, por ejemplo de tipo temporal o geográfico, a fin de que los subconjuntos de datos resultantes sean mucho más homogéneos entre sí y admitan modelos compactos que los representen. Estas magnitudes o indicadores podrían haberse utilizado directamente como variables de entrada, dejando que el método de "aprendizaje máquina" operase directamente con ellas, pero se ha considerado interesante utilizar este conocimiento previo sobre el sistema para simplificar la construcción y operación de los modelos. Concretamente, para llevar a cabo la desa- gregación de los datos se han considerado, por este orden, las siguientes variables: Autovectores Tipo de coste. Como se adelantó en el apartado anterior, un primer nivel de desagregación consiste en separar las llamadas con coste nulo y no nulo. Llamadas con coste nulo Llamadas con coste Componente principal 1 (0,51, 0,47, -0,20, -0,69) (-0,02, 0,71, 0,70, -0,00) Componente principal 2 (0,52, 0,46, -0,08, 0,72) (-0,07, 0,70, -0,71, 0,01) Componente principal 3 (0,46, -0,68, -0,57, 0,04) (0,71, 0,05, -0,03, -0,71) Provincia. Es la región en la que se encuentra situado el terminal telefónico. Tipo de planta. Se consideran por separado los terminales ubicados en el interior de edificios, planta de tipo 2, frente a los que se encuentran en zonas exteriores, planta de tipo 1 (dos subgrupos). Carácter del día. De domingo a jueves y de viernes a sábado (dos subgrupos). En la Figura 3 se ha representado el árbol de desagregación que se obtiene de la aplicación de los criterios que acabamos de enumerar. Por simplicidad, se ha omitido el primer nivel de desagregación (coste), por lo que el sistema real incluye dos árboles como el de la figura, uno para las llamadas sin coste y otro para las que tienen un coste asociado. Tabla 2. Direcciones de las componentes principales tanto para las llamadas con coste como para las de coste nulo En el apartado anterior ya se vio que cada uno de estos dos subárboles lleva asociado un PCA propio, que se obtiene a partir de todos los datos presentes en su máximo nivel de agregación. Por último, es importante destacar que podría realizarse una separación más detallada en función del tipo concreto de llamada. Además, las llamadas con coste no nulo podrían separarse en función del medio de pago. En cualquier caso, el número de particiones aplicado debe garantizar que el número de datos que aparece en cada uno de los nodos de más bajo nivel es a.- Con coste no nulo para plantas de tipo 1 b.- Con coste no nulo para plantas de tipo 2 c.- Con coste nulo para plantas de tipo 1 d.- Con coste nulo para plantas de tipo 2 Figura 2. Patrones en el espacio transformado mediante PCA (caso bidimensional) Número 34 · Septiembre 2004 Comunicaciones de Telefónica I+D 167 Desagrupamiento por "Tipo de dia" Desagrupamiento por "Tipo de planta" ... ... Datos agrupados ... Desagrupamiento por "Provincias" Figura 3. Esquema de desagregación para las llamadas con coste (análogo para las llamadas con coste nulo) suficiente para poder llevar a cabo el ajuste de los modelos de detección de novedad con unas prestaciones aceptables, de tal modo que a medida que se capturen, almacenen y procesen más datos reales, será posible refinar el diseño de este sistema. Sistemas de detección de novedad El último módulo del sistema aprende o modela cuáles son las características habituales de los datos de cada uno de los nodos finales de los árboles de desagregación. Posteriormente, durante la fase de evaluación, se comparan los nuevos datos con estos modelos a fin de detectar la presencia de datos anómalos, indicadores de posibles casos de fraude. Las técnicas que llevan a cabo esta tarea se conocen, en el campo del "aprendizaje máquina", como técnicas de detección de novedad [41] [42]. Las técnicas de detección de novedad suelen estar basadas en métodos de estimación de densidades de probabilidad de la población de datos, o en algoritmos de agrupamiento. En el primer caso, la novedad se detecta cuando un evento tiene una probabilidad Comunicaciones de Telefónica I+D 168 Número 34 · Septiembre 2004 asociada muy baja; en el segundo, cuando su distancia al perfil (o centro de cada grupo obtenido) más cercano, supera cierto umbral fijado en función del problema tratado y de la medida de la distancia empleada. Habitualmente se utiliza la distancia euclídea, aunque es posible emplear otro tipo de distancias, como la de Mahalanobis, la norma de Manhatan, o la distancia del coseno [75]. Una técnica de detección de novedad que ha cobrado recientemente gran importancia es la denominada máquina de vectores soporte monoclase ("one-classSVM") [64] [66], que permite la construcción de un modelo no paramétrico en función de las transformaciones no lineales de los datos, lo que permitirá posteriormente utilizarla para detectar la presencia de patrones atípicos. Dicho de forma estricta, no realiza un modelado de la distribución de los patrones, sino que directamente estima la frontera que abarca un porcentaje determinado de los casos disponibles, considerándose como atípicos los patrones que quedan fuera de dicha frontera. Precisamente, para la implementación del módulo de detección de novedad que nos atañe se ha decidido hacer uso de estas máquinas, cuyo funcionamiento se describe con mayor detalle en el siguiente apartado. DETECCIÓN DE NOVEDAD MEDIANTE "MÁQUINAS DE VECTORES SOPORTE MONOCLASE" Para la resolución de un problema determinado, las SVMs proyectan los datos a un espacio transformado o de características F (generalmente de muy alta dimensión), donde una solución lineal es capaz de obtener buenas prestaciones (véase la Figura 4) para un caso de clasificación binaria). Sin embargo, en el espacio original la solución obtenida puede ser no lineal, y esa "no linealidad" viene definida por las características de la función φ (·) utilizada para proyectar los datos. La gran potencia de las SVMs se debe a que la solución que ofrecen es regularizada en el espacio transformado, lo que garantiza buenas características de generalización, de acuerdo con un principio de mínimo riesgo estructural. Además, para su aplicación no se requiere el conocimiento explícito de φ (·), sino que es suficiente poder cacular el producto interno o núcleo en F, κ (x,y) = < φ (x), φ (y)>. En este sentido, es frecuente referirse a las máquinas de vectores soporte como un elemento de un conjunto más amplio de técnicas de aprendizaje conocido como métodos basados en núcleos, que permiten obtener fácilmente versiones no lineales de cualquier algoritmo que implique únicamente productos lineales de los puntos del conjunto de entrenamiento [46]. Otra ventaja muy importante de las SVM consiste en que su diseño implica la resolución de un problema de optimización cuadrática (de solución única), para el cual existen métodos muy eficientes y de validez contrastada. Cuando el número de patrones del conjunto de entrenamiento es muy elevado, otras aproximaciones basadas en mínimos cuadrados recursivos ofrecen ventajas muy importantes [47] [58]. De la gran eficacia y potencia de las redes SVM dan fe el elevado número de aplicaciones en las que han sido empleadas con éxito, como la minería de datos [59], la categorización automática de textos [36] [38], la clasificación de imágenes [13], o el reconocimiento de voz [69] y caracteres manuscritos [63], además de otras aplicaciones en bioingeniería [5], biometría [34] [78] y comunicaciones [14] [61] [68], aparte de las ya mencionadas aplicaciones en detección de novedad y fraude. A continuación se describe la SVM monoclase [64], la tecnología que se ha adoptado para el módulo de detección de novedad del sistema de detección de fraude. Para profundizar en el estudio de estas tecnologías recomendamos el excelente libro de B. Schölkopf y A. Smola [66]. Las versiones monoclase Para la detección de novedad se supone que los datos de entrenamiento {x1, x2,…, xm } proceden de una distribución de probabilidad P(x) que caracteriza el comportamiento considerado como normal. El objetivo es diseñar una función f(x) que tome el valor +1 al ser aplicada sobre puntos generados con una alta proba- Rn F φ (.) Figura 4. Clasificación binaria mediante un hiperplano en el espacio de características F Número 34 · Septiembre 2004 Comunicaciones de Telefónica I+D 169 bilidad por P(x), y el valor -1 en caso contrario (es decir, cuando x es un dato "atípico"). En la literatura se han propuesto numerosos métodos para resolver el problema anterior por estimación directa de P(x). Sin embargo, el diseño de f(x) es un problema más sencillo que el de la estimación de P(x), y su resolución directa debe ofrecer ventajas. F La máquina de vectores soporte monoclase propone proyectar los datos en un espacio de características F en el que asume la siguiente forma paramétrica para la solución: () ( ) f x = sgn w ,φ(x) − 1 (3) Donde φ (x) es la proyección de x en el espacio F, <·,·> representa el producto escalar en F, y "sgn" representa la función signo. A pesar de que f(x) es de carácter prácticamente lineal en F, la solución puede tener un carácter altamente no lineal en el espacio original dependiendo de cómo sea la proyección utilizada. Como vemos, el problema en F se ha reducido a encontrar un hiperplano que separe adecuadamente los puntos considerados como normales y atípicos. Para ello, se propone que el hiperplano quede lo más alejado posible del origen, de manera que, como se ilustra en la Figura 5, el origen y los datos de entrenamiento queden situados en distintos semiespacios. Es inmediato comprobar que la distancia del hiper2 plano al origen de coordenadas es 1/||w|| , por lo cual el problema de optimización puede escribirse de la forma: m inim cese con restricciones 1 2 w 2 w ,φ(xi) − 1≥ 0, i= 1,...,m (4) Dado que el conjunto de entrenamiento también podría presentar datos que no han sido generados a partir de P(x), es conveniente relajar las restricciones anteriores permitiendo que algunos puntos queden en la región correspondiente a las muestras atípicas. De esta manera, el problema (4) se convierte en: m inim cese 1 w 2 2 170 Número 34 · Septiembre 2004 Figura 5. Proyección de los datos en el espacio F e hiperplano de separación respecto al origen Donde C es una constante que regula el equilibrio entre distancia del hiperplano al origen y el número de muestras a las que se permite violar la restricción w ,φ(xi) ≥ 1 . Para encontrar la solución, utilizamos multiplicadores de Lagrange { α i } y { β i } para introducir las restricciones en la función a minimizar, obteniendo el funcional: Lp = 1 w 2 2 m m i=1 i=1 ( ) m + C ∑ ξi − ∑ ξi w ,φ(xi) − 1+ ξi − ∑ β iξi i=1 (6) Donde todos los {α i } y { β i } deben ser constantes positivas. Necesariamente, las derivadas de Lp con respecto a los parámetros que definen la solución deben anularse en el punto óptimo, es decir, en la solución se verifica que: m ∇ w Lp = w − ∑ α iφ(xi)= 0 ⇒ i=1 ∂Lp ∂ξi = C − α i − βi = 0 ⇒ m w = ∑ α iφ(xi) (7) 0 ≤ α i ≤ C, i= 1,...,m (8) i=1 m + C ∑ ξi i=1 w ,φ(xi) − 1+ ξi ≥ 0 i= 1,...,m con restricciones ξi ≥ 0 Comunicaciones de Telefónica I+D W (5) Sustituyendo ahora estas dos expresiones en el funcional Lp, y cancelando términos, se obtiene el siguiente problema dual de optimización cuadrática: m inim cese LD = con restricciones m 1 m m α iα jκ (xi,x j)− ∑ α i ∑ ∑ 2 i=1 j=1 i=1 0 ≤ α i ≤ C, i= 1,...,m fracción de datos atípicos debe aparecer en el conjunto de entrenamiento tras la optimización de la máquina. (9) Donde, según se definió anteriormente, κ (xi, xj ) = < φ ( xi ), φ ( xj )> es el producto interno en F. Una propiedad importante es que el problema a resolver es convexo, lo que garantiza la unicidad de la solución y evita ciertos problemas que sufren habitualmente las técnicas de "aprendizaje máquina", derivados de la existencia de mínimos locales. Una vez obtenidos, los { α i } deben ser sustituidos en (7), de manera que (3) se puede reescribir de la forma: m f x = sgn ∑ α iκ xi,x − 1 i=1 () ( ) (10) A pesar de que el sumatorio anterior se realiza para todas las muestras de entrenamiento, se puede demostrar que α i ≠ 0 únicamente para los puntos situados sobre el hiperplano o cuya ξ i > 0 (y por tanto son detectado como atípicos). De esta manera, se dice que los puntos con α i ≠ 0 (que normalmente son un subconjunto pequeño de los datos de entrenamiento) soportan la solución, de donde deriva el nombre de "máquinas de vectores soporte". Aun así, para grandes conjuntos de entrenamiento, el número de vectores soporte puede resultar excesivamente elevado, siendo beneficioso en esos casos el uso de versiones compactas, como las propuestas en [47] y [56], que además permiten un entrenamiento más rápido de la red. A la vista de (9) y (10), se puede comprobar que para la resolución y evaluación de la SVM monoclase no se necesitan calcular las proyecciones de los puntos en F, sino que es suficiente poder calcular los productos internos κ (xi , xj ) = < φ ( xi ), φ ( xj )>. Esta propiedad resulta de gran importancia, ya que permite, incluso, utilizar proyecciones a espacios de dimensión infinita, como en el caso del kernel gaussiano (con parámetro ajustable γ ): ( ) κ xi,x j 2 = exp −γ xi − x j (11) Un inconveniente de la formulación anterior es que el número de datos de entrenamiento que se consideran anómalos depende de la selección de la constante C. Sería deseable, no obstante, poder decidir a priori qué En [16] se propone reemplazar (3) por un hiperplano, de manera que: () ( f x = sgn w ,φ(x) − ρ ) (12) Se demuestra que en la solución de un problema de optimización ligeramente distinto a (5), una fracción υ de los datos del conjunto de entrenamiento queda dentro de la región de novedad: m inim cese 1 w 2 2 + 1 m ∑ξ − ρ υm i=1 i w ,φ(xi) − ρ + ξi ≥ 0 (13) i= 1,...,m con restricciones ξi ≥ 0 Donde la minimización se produce con respecto a w, ξ i y ρ . Siguiendo un desarrollo parecido al anterior, es posible reescribir (13) como un proceso de optimización cuadrática de propiedades similares a (9): m inim cese LD = 1 m m ∑ ∑ α α κ (x ,x ) 2 i=1 j=1 i j i j 1 , i= 1,...,m 0 ≤ α i ≤ υm con restricciones m αi = 1 ∑ i=1 (14) Finalmente, es posible reescribir la función de detección de novedad en función de la solución de (14) de la forma: m f x = sgn ∑ α iκ xi,x − ρ i=1 () ( ) (15) Esta es la forma práctica en que finalmente se aplica la máquina de detección de novedad. RESULTADOS OBTENIDOS La evaluación del sistema se ha realizado con los datos provenientes de tres provincias de tamaño pequeño, mediano y grande, obtenidos entre el 10 de agosto y el 31 de diciembre de 2003. En primer lugar se ha realizado el entrenamiento con estos datos. A continuación se han utilizado como un conjunto de tests los datos obtenidos en el mes de enero de 2004. Número 34 · Septiembre 2004 Comunicaciones de Telefónica I+D 171 El análisis de los resultados se ha extendido a las tres provincias indicadas. Como muestra se presentan los resultados para una provincia de tamaño medio. Entrenamiento de la SVM monoclase Dado que el conjunto de datos correspondiente a cada uno de los nodos del árbol de desagregación presenta unas características distintas, se debe entrenar una SVM monoclase para cada uno de ellos. Para todas las máquinas, independientemente del nodo al que pertenezcan, se ha elegido un núcleo de tipo gaussiano (11), aunque unos difieren de otros en el valor seleccionado para el parámetro γ . Este valor se ha fijado a 0,05 para los nodos correspondientes a las llamadas con coste, y a 0,04 para aquellos asociados a llamadas de coste nulo. Por otro lado, la tasa de posibles datos anómalos ( ν ) se ha fijado al 0,1 por ciento para todas las máquinas. En el entrenamiento de las SVM monoclase se ha empleado la librería LIBSVM 2.33 [26], disponible para su uso libre en investigación. No obstante, para futuras fases del proyecto, así como para posibles desarrollos "ad hoc" a fin de optimizar prestaciones, estaría disponible la tecnología propia del equipo investigador de la Universidad Carlos III, fácilmente extensible a este caso particular [2] [47] [56]. Resultados del entrenamiento Los resultados del entrenamiento de cada máquina se muestran en la Figura 6, la Figura 7, la Figura 8 y la Figura 9, a través de la representación de dos dimen- Vectores soporte Datos entrenamiento a.- Proyección para casos de entrenamiento siones de la región de novedad, concretamente para los nodos correspondientes a las llamadas realizadas de domingo a jueves. Estas figuras dan una idea de la región de comportamiento típico que la máquina ha considerado para cada caso. Hay que tener en cuenta que estas representaciones se han realizado en dos dimensiones, mientras que los datos y la propia frontera están realmente en un espacio de tres dimensiones (número de variables que manejadas después de aplicar la extracción de características), por lo que puede haber datos detectados como atípicos cuyas proyecciones aparezcan dentro de la región de comportamiento típico, así como datos típicos cuyas proyecciones se sitúen en la región de novedad: dichas "anomalías" se dan solamente a nivel de representación gráfica, estando los patrones procesados correctamente. En estas figuras se puede observar cómo en los casos de entrenamiento (a) la mayor parte de los patrones (marcados con puntos azules) quedan dentro de la frontera del percentil correspondiente, y son algunos de ellos, los más atípicos, los que se identifican como vectores soporte (representados como aspas), y por tanto definen la arquitectura de la máquina para detección de novedad en los nuevos casos presentados. Dichos puntos son los representados en los casos de prueba (b), donde se puede observar la correcta generalización de los modelos, al estar la mayor parte de los patrones de prueba (puntos) dentro de la frontera de decisión (zona más clara), mientras que los patrones que se ubican en el exterior (zona gris) han sido etiquetados como novedosos y por tanto sospechosos de encubrir una actividad de fraude. Como ya se ha indicado con anterioridad, las aparentes "anomalías" correspondientes a los puntos marcados con un asterisco dentro de la frontera, o los puntos nor- Datos típicos Datos novedosos b.- Proyección para casos de prueba Figura 6. Proyección de los datos en el espacio bidimensional y fronteras de detección de novedad para el caso de llamadas con coste no nulo en planta de tipo 1 (realizadas de domingo a jueves) Comunicaciones de Telefónica I+D 172 Número 34 · Septiembre 2004 Vectores soporte Datos entrenamiento a.- Proyección para casos de entrenamiento Datos típicos Datos novedosos b.- Proyección para casos de prueba Figura 7. Proyección de los datos en el espacio bidimensional y fronteras de detección de novedad para el caso de llamadas con coste no nulo en planta de tipo 2 (realizadas de domingo a jueves) Vectores soporte Datos entrenamiento a.- Proyección para casos de entrenamiento Datos típicos Datos novedosos b.- Proyección para casos de prueba Figura 8. Proyección de los datos en el espacio bidimensional y fronteras de detección de novedad para el caso de llamadas con coste nulo en planta de tipo 1 (realizadas de domingo a jueves) Vectores soporte Datos entrenamiento a.- Proyección para casos de entrenamiento Datos típicos Datos novedosos b.- Proyección para casos de prueba Figura 9. Proyección de los datos en el espacio bidimensional y fronteras de detección de novedad para el caso de llamadas con coste nulo en planta de tipo 2 (realizadas de domingo a jueves) Número 34 · Septiembre 2004 Comunicaciones de Telefónica I+D 173 males fuera de la frontera, se deben únicamente a la representación gráfica en dos dimensiones de un problema relativo a tres dimensiones. res presentados por los datos de entrenamiento, la activación fijará su valor prácticamente a 1 ó -1. Los factores de normalización aplicados a la salida de cada una de las SVM monoclase para la provincia considerada figuran en la Tabla 3. Normalización final de la salida En la fase de detección de fraude, las SVM monoclase dan a su salida un valor positivo si el dato se encuentra dentro de la región de comportamiento típico, un valor negativo si el dato es detectado como anómalo, y devuelven cero si se encuentra sobre la frontera de alerta. Para los datos detectados como anómalos, las salidas son más negativas cuanto más alejados se encuentren los datos de la frontera de alerta, es decir, cuanto más novedosos sean. Por este motivo, y dependiendo de las distribuciones que presenten los conjuntos de datos que se hayan empleado para el entrenamiento de las máquinas, los rangos de salida obtenidos pueden ser totalmente distintos. Para facilitar la interpretación de los resultados, se ha aplicado una normalización de los valores de salida de las SVM monoclase, fijando el rango de salida permitido al intervalo [-1, 1]. Detección de anomalías en los comportamientos Para la detección de anomalías se utiliza como conjunto de test los datos del mes de enero de 2004, analizando a continuación los casos novedosos detectados por el sistema. De acuerdo con las etapas descritas en la Figura 1, una vez capturados los datos, se pasa a la etapa de preprocesado, donde se normalizan los datos para cada día y cada provincia, y se realiza la ortogonalización y la extracción de las componentes principales (por un lado las correspondientes a las llamadas con coste, y por otro las de coste nulo), empleando en ambos casos las componentes principales que se obtuvieron con los datos de entrenamiento (véase la Tabla 1 y la Tabla 2). En la etapa de desagregación se separan los datos según las indicaciones de la Figura 3, obteniéndose los datos de test correspondientes a cada nodo. Estos datos serán procesados por la correspondiente SVM monoclase. La normalización consta de dos fases. En primer lugar se aplica un factor de conversión lineal que fija los valores de salida para el conjunto de entrenamiento al intervalo [-4, 4], para a continuación pasar estos datos por una función de activación de la forma y=tanh(x). De este modo se fija el rango de salida al segmento [1, 1], y en el caso de que alguno de los datos del conjunto de tests produzca una salida mayor que los valo- De esta forma se obtiene la tasa de datos detectados como anómalos (véase la Tabla 4). Ya se han visto ante- Factores de normalización de una provincia mediana Tipo de datos D-J 3,1838 V-S 0,9968 D-J 1,7054 V-S 0,1738 D-J 0,9455 V-S 0,3279 D-J 0,6894 V-S 0,1438 Planta 1 Llamadas con coste Planta 2 Planta 1 Llamadas de coste nulo Planta 2 D-J : domingo-jueves V-S : viernes-sábado Tabla 3. Factores de normalización empleados a las salidas de las SVM monoclase Comunicaciones de Telefónica I+D 174 Número 34 · Septiembre 2004 Tasa de datos anómalos (%) Tipo de datos D-J 0,23 V-S 0,19 D-J 0,21 V-S 0,28 D-J 0,22 V-S 0,19 D-J 0,17 V-S 0,13 Planta 1 Llamadas con coste Planta 2 Planta 1 Llamadas de coste nulo Planta 2 D-J : domingo-jueves V-S : viernes-sábado Tabla 4. Tasas de datos detectados como anómalos en la provincia mediana riormente las representaciones de los datos sobre las regiones de novedad (Figuras 6, 7, 8 y 9). dato, además de indicarse el valor de decisión dado por la SVM monoclase, así como el valor obtenido a la salida del sistema, es decir, las salidas normalizadas. Por último, en la Tabla 5 se presenta un resumen de los datos particulares detectados como más anómalos en la provincia mediana, y sobre los que conviene realizar un análisis experto para comprobar si son realmente fraudulentos o no, o, en su defecto, intentar justificar el porqué de la anomalía. Para identificar cada uno de estos datos, la tabla incorpora la fecha y el identificador del terminal al que corresponde cada Análisis de las novedades detectadas Las tablas precedentes presentan las anomalías más significativas detectadas por el sistema, pero no dicen nada acerca de sus causas. Para ello se necesita analizar detalladamente los datos que componen cada Salida del detector Valor decisión Fecha Identificador del terminal D-J -1,00 -19,76 28-1-2004 90720205050914 V-S -1,00 -8,65 9-1-2004 80820109310915 D-J -1,00 -6,32 1-1-2004 55720207510913 V-S -1,00 -2,97 3-1-2004 80820003920915 D-J -1,00 -3,82 13-1-2004 46620109580915 V-S -1,00 -2,25 31-1-2004 94620106050911 D-J -1,00 -3,11 27-1-2004 65620503610910 V-S -1,00 -1,57 9-1-2004 34620505290911 Tipo de datos Planta 1 Llamadas con coste Planta 2 Planta 1 Llamadas de coste nulo Planta 2 D-J : domingo-jueves V-S : viernes-sábado Tabla 5. Rutinas detectadas como más anómalas en la provincia mediana Número 34 · Septiembre 2004 Comunicaciones de Telefónica I+D 175 novedad y encontrar las razones que han ocasionado la discrepancia con los valores normales. Para llevar a cabo este análisis se han seleccionado los datos considerados como más novedosos, es decir, aquellos que están más alejados del núcleo referido al comportamiento normal en las tablas. Para estudiar las causas de cada novedad, se han seleccionado un conjunto reducido, pero representativo, de terminales telefónicos con datos novedosos. Estos teléfonos pertenecen a tres provincias consideradas como prototipos, las provincias de tamaño pequeño, mediano y grande, respectivamente, con un total de 14.353 terminales. Para cada provincia se ha analizado un terminal por cada grupo de datos novedosos (tipo de llamada, tipo de planta y grupo de días de la semana), tal como se indica en el apartado anterior. En total se han analizado 24 terminales para el conjunto de las tres provincias. La Tabla 6 resume la relación de novedades encontradas, su descripción y el número de veces que se ha detectado en cada tipo de provincia. Para estudiar las causas de las novedades descritas en la tabla, éstas se clasifican en tres grupos denominados: 1. Desviaciones atípicas de los valores medios Existen cuatro tipos de novedades detectadas referidas a: Terminales con estadísticas de un número excesivo de llamadas al día. Terminales con un incremento de la duración media de las llamadas y/o del coste sin variación del promedio de llamadas. Terminales con una duración media excesiva de las llamadas gratuitas. Terminales con un número excesivo de llamadas con coste. Las desviaciones atípicas respecto a los valores considerados normales puede ser un indicio de fraude, sin embargo se debe comprobar las causas de dichas desviaciones y descartar que se trata de situaciones excepcionales y justificadas, por ejemplo, las referidas a factores estacionales o eventos puntuales como fiestas, eventos deportivos, etc. En caso de que se produzcan otros datos anómalos (como por ejemplo un excesivo número de llamadas en estadísticas de numeración a números tasados de tipo 806, 807, etcétera), entonces estaríamos ante una hipótesis más plausible de fraude. Provincia mediana Provincia grande Provincia pequeña Terminales con estadísticas de coste mayor que el importe 2 5 0 Terminales con estadísticas con número de llamadas al día excesivo 4 2 0 Terminales con incremento de la duración media de las llamadas y/o del coste sin variación del promedio de llamadas 0 2 0 Terminales con duración media excesiva de las llamadas gratuitas 0 0 2 Terminales con número de llamadas con coste excesivo 0 0 1 Sin identificar una causa concreta (acumulación posible de causas) 0 2 3 Datos novedosos detectados (novedad)* * Hay terminales con más de una novedad Tabla 6. Resumen de las novedades detectadas Comunicaciones de Telefónica I+D 176 Número 34 · Septiembre 2004 2. Discrepancias entre coste e importe En este caso, existe un tipo de novedad detectada: la referida a terminales con estadísticas de coste mayor que el importe. Esta anomalía puede ser un indicio de fraude. Al igual que en el punto anterior, se debe comprobar que la diferencia entre coste e importe no esté originada por una posible avería en el terminal o por fallos en la transmisión de datos. Una monitorización más detallada del comportamiento de la cabina (número de llamadas, destinos, duración, etc.) permitirá confirmar o descartar definitivamente el posible fraude. 3. Falta de datos para realizar una caracterización concreta Existe finalmente un conjunto de casos donde no se han podido extraer conclusiones, debido sin duda a la acumulación de posibles causas. Cuando se produzca esta situación es necesario disponer de datos adicionales, que pueden obtenerse mediante un seguimiento del terminal en determinadas franjas horarias o durante varios días. Las novedades encontradas permiten detectar indicios de fraude, sin embargo, para que estos indicios puedan considerarse como hipótesis plausibles de fraude, es necesario descartar, en primer lugar, otras posible causas que justificarían la aparición de los datos novedosos, y analizar nuevos datos que permitan confirmar la posible situación de fraude. Para ello se deberían extender los intervalos de datos de los terminales con objeto de caracterizar adecuadamente los comportamientos estacionales, o los comportamientos temporales atípicos. Aunque el sistema está preparado para "aprender" los casos analizados, se necesita un mayor entrenamiento para observar el comportamiento global del sistema frente a los casos aprendidos. CONCLUSIONES Los resultados obtenidos con la evaluación del sistema muestran la efectividad de las técnicas SVM para detectar patrones atípicos de comportamiento. La tasa de datos anómalos detectados es muy baja (un 0,28 por ciento el máximo y un 0,2 por ciento la media, según se muestra en la Tabla 4), esto implica que el número de terminales a examinar para toda la planta telefónica sería del orden de cien terminales. El análisis de estos casos permite inicialmente determinar si pueden ser considerados como indicios de fraude o si deben ser considerados como casos atípicos con causas justificadas. En esta última situación el sistema puede "aprenderlos", asimilando la información correspondiente como parte del comportamiento normal. En los experimentos realizados se han detectado situaciones anómalas, algunas de las cuales podrían constituir indicios de fraude. En este caso se dispone de una primera fuente de información que puede ser complementada con otros indicios detectados por el mismo sistema o por otras técnicas de detección. En este sentido el trabajo realizado puede continuar con otras actividades posteriores para extender la funcionalidad del sistema en aspectos tales como: Optimizar la selección de los parámetros que permiten definir la novedad. Aumentar la capacidad de modelado y de procesamiento para incluir datos temporales, de forma que se puedan detectar secuencias de patrones novedosos según distintos periodos: semanales, mensuales, estacionales, anuales. Incluir filtros que detecten las situaciones anómalas justificadas y eviten que sean generadas como novedades. Añadir mecanismos para caracterizar y correlacionar automáticamente las novedades obtenidas. Esto permitiría definir reglas tanto para definir las situaciones de fraude como para descartarlas. Número 34 · Septiembre 2004 Comunicaciones de Telefónica I+D 177 Glosario de Acrónimos LVQ Learning Vector Quantization PCA Principal Component Analysis SVM Support Vector Machines Referencias 1. 2. 3. 4. 5. 6. 7. 8. 9. E. Aleskerov, B. Freisleben and B. Rao. CARDWATCH: A neural network based database mining system for credit card fraud detection. Proceedings of the IEEE/IAFE Conference on Computational Intelligence for Financial Engineering (CIFEr), pp. 220-226. IEEE Press, 1997. J. Arenas García and F. Pérez Cruz: Multi-Class Support Vector Machines: A new approach. In Proc. of the 2003 IEEE Intl. Conference on Acoustics, Speech and Signal Machines for histogram-based image classification. IEEE Trans. on Neural Networks, vol. 9, pp. 1055-1064, 1999. 14. S. Chen, A. Samingan and L. Hanzo: Support Vector Machine multiuser receiver for DS-CDMA signals in multipath channels. IEEE Trans. on Neural Networks, vol. 12, pp. 604-611, 2001. 15. Curet, M. Jackson and A. Tarar: Designing and evaluating a case-based learning and reasoning agent in Proc., pp. 781-784, Hong Kong, 2003. P. Allen, R. McKendrick, C. Scott, M. Buonanno, P. Mostacci, C. Naldini, V. Scuderi and P. Stofella: Interactive anomaly detection in large transaction history databases. HighPerformance Computing and Networking. International Conference and Exhibition HPCN 1996 Proceedings, pp. 143-149, April 1996. L. Barney: Detecting trading fraud. Wall Street & Technology 12(11), 40, 1995. M. Bonneville, J. Meunier, Y. Bengio and J. P. Souvy: unstructured decision making. IEEE International Conference on Systems, Man and Cybernetics. Information Intelligence and Systems, Volume 4, pp. 2487- 2492, October 1996. 16. B. Davis and S. K. Goyal: Management of cellular fraud: Knowledge-based detection, classification and prevention. Proceedings of the 13th International Conference on Artificial Intelligence, Expert Systems and Natural Language, Avignon, France, Volume 2, pp. 155-164, 1993. Support Vector Machines for improving the Classification of PET Images. In Proc. of the SPIE Medical Imaging Symposium, vol. 3338, San Diego, CA, pp. 264- 17. 273, 1998. P. Burge and J. Shawe-Taylor: Frameworks for fraud 18. K. J. Ezawa and S. W. Norton: Constructing bayesian networks to predict uncollectible telecommunications detection in mobile telecommunications networks. Proceedings of the Fourth Annual Mobile and Personal Communications Seminar, University of Limerick, 1996. P. Burge and J. Shawe-Taylor: Detecting cellular fraud using adaptive prototypes. Proceedings of AAAI-97 Workshop on AI Approaches to Fraud Detection & Risk Management, pp. 9-13. AAAI Press, July 1997. P. Burge, J. Shawe-Taylor, Y. Moreau, H. Verrelst, C. Störmann and P. Gosset: BRUTUS - a hybrid detection tool. Proceedings of ACTS Mobile Telecommunications Summit, Aalborg, Denmark, October 1997. C. J. C. Burges: A Tutorial on Support Vector Machines for Pattern Recognition. Data Mining and Knowledge accounts. IEEE Expert 11(5), 45-51, October 1996. 19. K. Fanning, K. O. Cogger and R. Srivastava: Detection of management fraud: a neural network approach. International Journal of Intelligent Systems in Accounting, Finance and Management 4(2), 113-126, 1995. 20. Fawcett and F. Provost: Combining data mining and machine learning for effective user profiling. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96), pp. 8-13. AAAI Press, July 1996. 21. Fawcett and F. Provost: Adaptive fraud detection. Journal of Data Mining and Knowledge Discovery 1(3), 291-316, 1997. Discovery, vol. 2, pp. 121-167, 1998. 10. M. Cahill, F. Chen, D. Lambert, J. C. Pinheiro and D. X. Sun: Detecting Fraud in the Real World. Handbook of Massive Datasets, ed. J. Abello, P. Pardalos and M. Resende, Kluwer Press, New Cork, 2000. 11. P. K. Chan and S. J. Stolfo: Toward scalable learning with non-uniform class and cost distributions: A case study in credit card fraud detection. Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining (KDD'98), pp. 164-168, August 1998. 12. C.C. Chang and C.J. Lin: LIBSVM (A Library for Support Vector Machines). Version 2.33, www.csie.ntu.edu.tw/~cjlin/libsvm/ 13. O. Chapelle, P. Haffner and V. Vapnik: Support Vector Comunicaciones de Telefónica I+D 178 Número 34 · Septiembre 2004 J. R. Dorronsoro, F. Ginel, C. Sánchez and C. S. Cruz: Neural fraud detection in credit card operations. IEEE Transactions on Neural Networks 8(4), 827-834, 1997. 22. K. L. Fox, R. R. Henning, J. H. Reed and R. P. Simonian: A neural network approach towards intrusion detection. Proc. 13th National Computer Security Conference. Information Systems Security. Standards -the Key to the Future, Volume I, Gaithersburg, MD, pp. 125-134. NIST, 1990. 23. S. Ghosh and D. L. Reilly: Credit card fraud detection with a neural network. Proc. of the Twenty-Seventh Hawaii Int. Conf. on System Sciences, pp. 621-630. IEEE Computer Society Press, January 1994. 24. V. Hanagandi, A. Dhar and K. Buescher: Density-based clustering and radial basis function modelling to generate credit card fraud scores. Proceedings of the IEEE/IAFE Conference on Computational Intelligence for Financial Engineering (CIFEr), pp. 247-251. IEEE Press, March 1996. 25. H. He, J. Wang, W. Graco and S. Hawkins: Application of neural networks to detection of medical fraud. Expert Systems with Applications 13(4), 329-336, 1997. 26. J. Hollmén: User Profiling and Classification for Fraud component analysis, optimization problems, and neural networks. Neural Networks, 8(4): 549-562, 1995. 40. J. A. Major and D. R. Riedinger: EFD: A hybrid knowledge/statistical based system for the detection of fraud. Internacional Journal of Intelligent Systems 7(7), 687-703, 1992. Detection. Tesis Doctoral, Helsinki University of Technology, The thesis was awarded by the Research Foundation of Information Processing, December 2000. 27. J. Hollmén, M. Skubacz and M. Taniguch: Input dependent misclassification costs for cost-sensitive classification. DATA MINING II - Proceedings of the Second International Conference on Data Mining, pp. 495-503. WIT Press, 2000. 28. J. Hollmén and V. Tresp: Call-based fraud detection in mobile communications networks using a hierarchical regime-switching model. Advances in Neural Information Processing Systems: Proceedings of the 1998 Conference (NIPS'11), pp. 889-895. MIT Press, 1999. 29. J. Hollmén, V. Tresp and O. Simula: A selforganizing map algorithm for clustering probabilistic models. Proceedings 41. M. Markou and S. Singh: Novelty Detection: a review -- part 1: Statistical Approaches. Signal Processing, vol. 83, pp. 2481-2497, 2003. 42. M. Markou and S. Singh: Novelty Detection: a review -- part 2: Neural Network based Approaches. Signal Processing, vol. 83, pp. 2499-2521, 2003. 43. Menkus: Some management-directed fraud incidents. EDPACS 25 (10), 14–16, 1998. 44. Y. Moreau and J. Vandewalle: Fraud detection in mobile communications networks using supervised neural networks. Proceedings of SNN’97, Europe’s Best Neuronal Networks Practice. World Scientific, 1997. 45. Y. Moreau, H. Verrelst and J. Vandewalle: Detection of mobile phone fraud using supervised neural networks: A of the Ninth International Conference on Artificial Neural first prototype. International Conference on Artificial Networks (ICANN'99), Volume 2, pp. 946-951. IEE. September 1999. Neural Networks Proceedings (ICANN'97), pp. 1065-1070, October 1997. 30. J. Hollmén, V. Tresp and O. Simula: A learning vector quantization for probabilistic models. Proceedings of EUSIPCO 2000 –X European Signal Processing Conference, Volume II, pp. 721-724, 2000. 31. J. Hollmén and V. Tresp: A hidden markov model for metric and event-based data. Proceedings of EUSIPCO 2000 — X 32. 33. 34. 35. 36. 37. 38. 39. 46. K. R. Müller, S. Mika, G. Rätsch, K. Tsuda and B. Shölkopf: An Introduction to Kernel-based Learning Algorithms. IEEE Trans. on Neural Networks, vol. 12, pp. 181-201, 2001. 47. Navia Vázquez, F. Pérez Cruz, A. Artés Rodríguez and A. R.Figueiras Vidal: Weighted Least Squares Training of Support Vector Classifiers leading to Compact and European Signal Processing Conference, Volume II, pp. 737–740, 2000. C. W. Hsu and C. J. Lin: A comparison of methods for Multiclass Support Vector Machines. IEEE Trans. on Neural Networks, vol. 13, pp. 415-425, 2002. P. Howard and P. Gosset: D20 – project final report and results of trials. ASPeCT: Advanced Security for Personal Communications Technologies, Report AC095/VOD/W31/DS/P20/E, 1998. J. Huang, X. Shao and H. Wechsler: Face pose discrimination using support vector machines (SVM). In Proc. of the 14th International Conference on Pattern Recognition, vol. 1, Brisbane, Queensland, Australia, pp. 154156, 1998. D. Jensen: Prospective assessment of AI technologies for fraud detection: A case study. Proceedings of AAAI-97 Adaptive Schemes. IEEE Trans. on Neural Networks, vol. 12, pp. 1047-1059, 2001. 48. Navia-Vázquez and B. Scholkopf: Statistical Learning and Kernel Methods. In Adaptivity and Learning: An Interdisciplinary Debate (Kühn, Menzel, Ratsch, Richter, Stamatescu, Eds.) pp. 161-186, Springer, 2003 49. Navia Vázquez, F. Pérez Cruz, A. Artés Rodríguez and A.R. Figueiras Vidal: Advantages of Unbiased Support Vector Classifiers for Data Mining Applications. Journal of VLSI Signal Processing Systems, Special Issue on "Data Mining and Biomedical Applications of Neural Networks", vol. 37, no. 2-3, pp. 223-235, 2004. 50. F. Pérez Cruz, A. Navia Vázquez, J.L. Rojo Álvarez and A. Artés Rodríguez: A New Training Algorithm for Support Vector Machines. Proc. COST #229 Workshop, pp. 343-351; Bayona, Spain, June 2000. Workshop on AI Approaches to Fraud Detection & Risk Management, pp. 34-38. AAAI Press, July 1997. T. Joachims: Text categorization with Support Vector Machines: Learning with many relevant Features. In Proc. of the 10th European Conference on Machine Learning, Chemnitz, Germany, pp. 137-142, 1998. I.T. Jolliffe: Principal Component Analysis. Springer, New York, 1986. H. Lodhi, J. Shawe-Taylor, N. Cristianini and C. J. C. H. Watking: Text Classification using String Kernels. In Advances on Neural Information Processing Systems, MIT. Press: Cambridge, MA, pp. 563-569, 2000. J. Karhunen and J. Joutsensalo: Generalization of principal 51. F. Pérez Cruz, A. Navia Vázquez and A. Artés Rodríguez: An IRWLS procedure for SVR. In 10th European Signal Processing Conference (EUSIPCO'2000),Tampere, Finland, September 5-8 2000. 52. F. Pérez Cruz, A. Navia Vázquez, P. L. Alarcón Diana and A. Artés Rodríguez: Support Vector Classifier with Hyperbolic Tangent Loss Function. Proceedings IEEE International Conference on Acoustics, Speech, and Signal Processing ICASSP’2000, vol. 6, pp. 3458-61, Piscataway, NJ, USA, 2000. 53. F. Pérez Cruz, P. L. Alarcón Diana, A. Navia Vázquez and A. Artés Rodríguez: Fast Training of Support Vector Machines. Proc. Advances in Neural Information Processing Systems, vol. 13, pp. 734-740. Cambridge, MA., 2000. Número 34 · Septiembre 2004 Comunicaciones de Telefónica I+D 179 54. F. Pérez Cruz, A. Navia Vázquez, P. Alarcón Diana and A. Artés Rodríguez: SVC-based Equalization of Burst TDMA Transmissions. Signal Processing Special Number on Communications, vol. 81, no. 8, pp. 1681-1693, 2001. 55. F. Pérez Cruz, A. Navia Vázquez, A.R. Figueiras Vidal and A. Artés Rodríguez: Empirical Risk Minimization for Support Vector Machines. IEEE Trans. on Neural Networks, vol. 14, no. 2, pp. 296-303, 2003. 68. J. Sebald and J. A. Bucklew: Support Vector Machines Techniques for Nonlinear Equalization. IEEE Trans. on Signal Proc., vol. 48, pp. 3217-3226, 2000. 69. N. Smith and M. Gales: Speech Recognition using Support Vector Machines. In Advances in Neural Information Processing Systems, vol. 14, MIT Press: Cambridge, MA, 2002. 70. J. Smola and B. Schölkopf: A tutorial on Support Vector 56. E. Parrado Hernández, A. Lyhyaoui and A. Navia Vázquez: Kernel Methods for Near-Optimal Hierarchical Clustering. IEEE International Workshop on Intelligent Signal Processing, WISP’2001. Budapest, Hungary, May 2001. 57. E. Parrado Hernández, J. Arenas García, I. Mora Jiménez and A. Navia Vázquez: On Problem-Oriented Kernel Refining. Neurocomputing, Special Issue on Support Vector Machines. Vol. 55, No 1-2, pp. 135-150, 2003. 58. E. Parrado Hernández, I. Mora Jiménez, J. Arenas García, A. R. Figueiras Vidal and A. Navia Vázquez: Growing Support Regression. Tech. Report NC-TR-98-030, Royal Holloway College, University of London, UK, 1998, www.neurocolt. com/pub/neurocolt/tech_reports/1998/98030.ps.Z 71. L. Sokol: Using data mining to support health care fraud detection. PADD98. Proceedings of the Second International Conference on the Practical Application of Knowledge Discovery and Data Mining, pp. 75-82, March 1998. 72. S. J. Stolfo, D.W. Fan, W. Lee and A. L. Prodromidis: Credit card fraud detection using meta-learning: Issues and Vector Classifiers with Controlled Complexity. Pattern Recognition, vol. 36, pp. 1479-1488, 2003. 59. E. Parrado Hernández: Nuevos Algoritmos Basados en Núcleos para Minería de Datos. Tesis Doctoral, Universidad Carlos III de Madrid, 2003. 73. K. Tan: The application of neural networks to UNIX computer security. IEEE International Conference on 60. J. Ryan, M.J. Ling and R. Miikkulainen: Intrusion detection with neural networks. Proceedings of AAAI-97 Workshop on AI Approaches to Fraud Detection & Risk Management, pp. 72-77. AAAI Press, July 1997. 61. M. Sánchez Fernández, M. de Prado Cumplido, J. Arenas García and F. Pérez Cruz: SVM Multiregression for Non- Neural Networks, pp. 476-481. IEEE Press, 1995. 74. M. Taniguchi, M. Haft, J. Hollmén and V. Tresp: Fraud detection in communications networks using neural and probabilistic methods. Proceedings of the IEEE International Conference in Acoustics, Speech and Signal Processing (ICASSP'98), Volume 2, pp. 1241-1244, May 1998. Linear Channel Estimation in Multiple-Input MultipleOutput Systems. IEEE Trans. on Signal Proc., 2004 (in press). 62. E. Rosenberg and A. Gleit: Quantitative methods in credit management: A survey. Operations Research 42(4), 589613, July-August 1994. 63. Schölkopf, C. J. C. Burges and V. N. Vapnik: Incorporating Invariance in Support Vector Learning Machines. In Proc. of the 1996 International Conference on Artificial Neural Networks, SLNCS Vol. 1112, Berlin, pp. 47-52, 1996. 64. Schölkopf, R. Williamson, A. Smola, J. Shawe-Taylor and J. Platt: Support vector method for novelty detection. In Advances in Neural Information Processing Systems, vol. 75. S. Theodoridis and K. Koutroumbas: Pattern Recognition. Academic Press, London, UK 1998. 76. V. Vapnik: The Nature of Statistical Learning Theory. Springer-Verlag: New York, NY, 1995. 77. V. N. Vapnik, S. Golowich and A. J. Smola: Support Vector Method for function approximation, regression estimation, and signal processing. In Advances in Neural Information Processing Systems, MIT Press: Cambridge, MA, pp. 169-184, 1997. 78. Y. Yao, G.L. Marcialis, M. Pontil, P. Frasconi and F. Roli: Combining Flat and Structured Representations for Fingerprint Classification with Recursive Neural Networks and Support Vector Machines. Pattern Recognition, vol. 36, 12, MIT Press: Cambridge, MA, 2000. 65. Scholkopf, R.C. Williamson, A.J. Smola and J. Shawe-Taylor: SV estimation of a distribution's support. Neural pp. 397-406, 2003. 79. E. González Berbés, I. Cortázar Múgica y F.J. Garijo Mazario. Gestión del fraude en telecomunicaciones. Information Processing Systems, 2000. (Forthcoming). 66. Schölkopf and A. J. Smola: Learning with Kernels. MIT Press, 2002. 67. T. Schuerman: Risk management in the financial services industry: Through a statistical lens. Proceedings of AAAI97 Workshop on AI Approaches to Fraud Detection & Risk Management, pp. 78-82. AAAI Press, July 1997. Comunicaciones de Telefónica I+D, número 33, marzo 2004. Comunicaciones de Telefónica I+D 180 initial results. Proceedings of AAAI-97 Workshop on AI Approaches to Fraud Detection & Risk Management, pp. 83-90. AAAI Press, July 1997. Número 34 · Septiembre 2004