Subido por mwdvstp638

Survey on Anomaly Detection using Data Mining Techniques

Anuncio
Traducido del inglés al español - www.onlinedoctranslator.com
Disponible en línea en www.sciencedirect.com
ScienceDirect
Procedia Informática 60 (2015) 708 - 713
XIX Conferencia Internacional sobre Sistemas de Ingeniería e Información Inteligentes y Basados en el Conocimiento
Encuesta sobre detección de anomalías mediante técnicas de minería de datos
Shikha Agrawal, Jitendra Agrawal
Departamento de Ciencias de la Computación e Ingeniería, Rajiv Gandhi Proudyogiki Vishwavidyalaya, Bhopal, India
Abstracto
En el mundo actual, se almacenan y transfieren grandes cantidades de datos de un lugar a otro. Los datos, cuando se transfieren o almacenan, están expuestos a ataques.
Aunque se encuentran disponibles varias técnicas o aplicaciones para proteger los datos, existen lagunas. Por lo tanto, para analizar datos y determinar varios tipos de
ataques, han surgido técnicas de minería de datos para hacerlos menos vulnerables. La detección de anomalías utiliza estas técnicas de minería de datos para detectar el
comportamiento sorprendente oculto dentro de los datos, lo que aumenta las posibilidades de intrusión o ataque. También se han realizado varios enfoques híbridos
para detectar ataques conocidos y desconocidos con mayor precisión. Este artículo revisa varias técnicas de minería de datos para la detección de anomalías a fin de
proporcionar una mejor comprensión entre las técnicas existentes que pueden ayudar a los investigadores interesados a trabajar en el futuro en esta dirección.
© 2015 Los Autores. Publicado por Elsevier BV Este es un artículo de acceso abierto bajo la licencia CC BY-NC-ND
©
woanortel sY.oJgramoI/tlmiInorteCDmirnorteaseAsgramo/Breal
- naCl-,nortePAG
academia
Dtu/ 4de
B.bellas
l0es/)artesyw
h.editado por Elsevier BV
(h2tt0pag1: /5/CSrehaiktihvaCEAogramometro
real academia de bellas artesmetro
Revisión por pares bajo la responsabilidad de KES International
Palabras clave: Detección de anomalías, agrupamiento, clasificación, minería de datos, sistema de detección de intrusiones.
1. Introducción
Los sistemas de detección de intrusiones (IDS) son herramientas de seguridad que se proporcionan para fortalecer la seguridad de los sistemas de comunicación e información. Este enfoque es similar a
otras medidas como software antivirus, cortafuegos y esquemas de control de acceso. Convencionalmente, estos sistemas se han clasificado como un sistema de detección de firmas, un sistema de detección de
anomalías o un sistema de detección híbrido [29]. En la detección basada en firmas, el sistema identifica patrones de tráfico o se presume que los datos de la aplicación son maliciosos, mientras que los sistemas
de detección de anomalías comparan las actividades con un comportamiento normal definido. Los sistemas híbridos de detección de intrusos combinan las técnicas de ambos enfoques. Cada técnica tiene sus
propias ventajas y desventajas. A continuación se describen algunos beneficios de las técnicas de detección de anomalías sobre otras. Primeramente, son capaces de detectar ataques internos. Por ejemplo, si
algún usuario está usando una cuenta robada y realiza acciones que van más allá del perfil normal del usuario, el sistema de detección de anomalías generará una alarma. En segundo lugar, el sistema de
detección se basa en perfiles personalizados. Se vuelve muy difícil para un atacante realizar cualquier actividad sin activar una alarma. Finalmente, puede detectar los ataques que antes no se conocían. Los
sistemas de detección de anomalías buscan eventos anómalos en lugar de ataques. En este artículo nos centramos en las diversas técnicas de detección de anomalías. el sistema de detección se basa en perfiles
hechos a medida. Se vuelve muy difícil para un atacante realizar cualquier actividad sin activar una alarma. Finalmente, puede detectar los ataques que antes no se conocían. Los sistemas de detección de
anomalías buscan eventos anómalos en lugar de ataques. En este artículo nos centramos en las diversas técnicas de detección de anomalías. el sistema de detección se basa en perfiles hechos a medida. Se
vuelve muy difícil para un atacante realizar cualquier actividad sin activar una alarma. Finalmente, puede detectar los ataques que antes no se conocían. Los sistemas de detección de anomalías buscan eventos
anómalos en lugar de ataques. En este artículo nos centramos en las diversas técnicas de detección de anomalías.
1.1. Detección de anomalías
La detección de anomalías es el proceso de encontrar patrones en un conjunto de datos cuyo comportamiento no es normal de lo esperado. Estos comportamientos
inesperados también se denominan anomalías o valores atípicos. Las anomalías no siempre pueden clasificarse como un ataque, pero pueden
1877-0509 © 2015 Los Autores. Publicado por Elsevier BV Este es un artículo de acceso abierto bajo la licencia CC BY-NC-ND (http://
creativecommons.org/licenses/by-nc-nd/4.0/). Revisión por pares bajo la responsabilidad de KES International doi: 10.1016 /
j.procs.2015.08.220
Shikha Agrawal y Jitendra Agrawal / Procedia Computer Science 60 (2015) 708 - 713
ser un comportamiento sorprendente que antes no se conocía. Puede ser dañino o no. La detección de anomalías proporciona
información muy significativa y crítica en diversas aplicaciones, por ejemplo, robos de tarjetas de crédito o robos de identidad
[1]. Cuando los datos deben analizarse para encontrar una relación o para predecir, se utilizan técnicas de minería de datos
conocidas o desconocidas. Estos incluyen técnicas de agrupamiento, clasificación y aprendizaje automático. También se están
creando enfoques híbridos para lograr un mayor nivel de precisión en la detección de anomalías. En este enfoque, los autores
intentan combinar los algoritmos de minería de datos existentes para obtener mejores resultados. De esta manera, detectar
el comportamiento o anomalías anormales o inesperadas dará lugar a estudiarlo y categorizarlo en un nuevo tipo de ataques
o cualquier tipo de intrusiones en particular.
1.2. Metodología básica de la técnica de detección de anomalías
Aunque existen diferentes enfoques de anomalías, como se muestra en la figura 1, entrene un modelo con parámetros antes de la detección.
Parametrización: Procesar previamente los datos en formatos preestablecidos de manera que sean aceptables o de acuerdo con el comportamiento del
sistema objetivo.
Figura 1: Metodología de detección de anomalías
Etapa de entrenamiento: Un modelo se construye sobre la base del comportamiento normal (o anormal) del sistema. Existen diferentes formas de optar en
función del tipo de detección de anomalías que se considere. Puede ser tanto manual como automático.
Etapa de detección: Cuando el modelo del sistema está disponible, se compara con el tráfico observado (parametrizado o predefinido).
Si la desviación encontrada excede (o es menor que en el caso de los modelos de anomalías) de un umbral predefinido, se activará una
alarma.
2. Detección de anomalías mediante técnicas de minería de datos
Las anomalías son patrones en los datos que no se ajustan a un comportamiento normal bien definido. La causa de la anomalía puede ser una actividad
maliciosa o algún tipo de intrusión. Este comportamiento anormal encontrado en el conjunto de datos es interesante para el analista y esta es la característica
más importante para la detección de anomalías [14].
La detección de anomalías es un tema que se ha tratado en varias encuestas, artículos de revisión y libros [4, 5]. Phua et al (2010) han
realizado una encuesta detallada sobre diversas técnicas de detección de fraude que se ha llevado a cabo en los últimos años. Han
definido al defraudador profesional, los principales tipos y subtipos de fraude conocido, y también han presentado la naturaleza de las
pruebas de datos recopiladas dentro de las industrias afectadas [6]. Padhy et al (2012) proporcionaron un estudio detallado de las
aplicaciones de minería de datos y su alcance de características. Afirmaron que la detección de anomalías es una aplicación de minería
de datos donde se pueden aplicar varias técnicas de minería de datos [3]. Amanpreet, Mishra y Kumar (2012) describieron técnicas de
minería de datos listas para usar que se pueden aplicar directamente para detectar la intrusión [7].
[15]. Proporcionaron una amplia perspectiva de las técnicas de que se pueden implementar en la práctica al observar las posibles causas de la
falta de aceptación de los enfoques novedosos propuestos.
En este artículo, la revisión de diferentes enfoques de detección de anomalías se centra en la amplia clasificación de las técnicas de minería de datos
existentes. La minería de datos consta de cuatro clases de tareas; son aprendizaje de reglas de asociación, agrupamiento, clasificación y regresión. La
siguiente subsección presenta las técnicas de detección de anomalías en estas cuatro clases de tareas:
709
710
Shikha Agrawal y Jitendra Agrawal / Procedia Computer Science 60 (2015) 708 - 713
2.1. Técnicas de detección de anomalías basadas en clústeres
La agrupación en clústeres se puede definir como una división de datos en un grupo de objetos similares. Cada grupo, o agrupación, consta de objetos que
son similares entre sí y diferentes a los objetos de otros grupos [13]. Los algoritmos de agrupación en clústeres pueden detectar intrusiones sin conocimiento
previo. Existen varios métodos para realizar la agrupación en clústeres que se pueden aplicar para la detección de anomalías. A continuación se muestra la
descripción de algunos de los enfoques propuestos.
k-medias: La agrupación de k-medias es un método de análisis de agrupaciones en el que definimos k agrupaciones disjuntas en función del
valor de la característica de los objetos que se van a agrupar. Aquí, k es el parámetro definido por el usuario [9]. Ha habido un enfoque de
Minería de datos en red (NDM) que implementa el algoritmo de agrupación en clústeres K-mean para separar los intervalos de tiempo con
tráfico normal y anómalo en el conjunto de datos de entrenamiento. Los centroides de clúster resultantes se utilizan para la detección rápida
de anomalías en el seguimiento de nuevos datos [10].
k-Medoides: Este algoritmo es muy similar al algoritmo k-Means. Se diferencia principalmente en su representación de los diferentes
grupos. Aquí, cada clúster está representado por el objeto más céntrico del clúster, en lugar de la media implícita que puede no
pertenecer al clúster. El método de k-medoides es más robusto que el algoritmo de k-medias en presencia de ruido y valores
atípicos porque un medoide está menos influenciado por valores atípicos u otros valores extremos que una media. Este método
detecta anomalías en la red que contienen intrusiones desconocidas. Se ha comparado con varios otros algoritmos de
agrupamiento y se ha descubierto que cuando se trata de precisión, produce resultados mucho mejores que k-Means [11].
Agrupación EM: Este algoritmo puede verse como una extensión de k Means que asigna un objeto al grupo al que es
similar, basándose en la media del grupo. En este enfoque, en lugar de asignar un objeto en el grupo dedicado, asigne el
objeto a un grupo de acuerdo con un peso que represente la probabilidad de pertenencia. En otras palabras, no existen
límites estrictos entre los grupos. Aquí la nueva media se calcula sobre la base de medidas de peso [12]. En comparación
con k medias y k medoides, la ME los superó y dio como resultado una mayor precisión [11].
Algoritmos de detección de valores atípicos: La detección de valores atípicos es una técnica para encontrar patrones en los datos que no se ajustan al
comportamiento esperado. Dado que un valor atípico se puede definir como un punto de datos que es muy diferente del resto de los datos, en función de
determinadas medidas. Hay varios esquemas de detección de valores atípicos. El usuario puede seleccionar cualquiera de ellos en función de su eficiencia y
cómo puede resolver el problema de detección de anomalías. Uno de los enfoques es el enfoque basado en la distancia
[11]. Se basa en el algoritmo del vecino más cercano e implementa una métrica de distancia bien definida para detectar valores atípicos. Cuanto mayor sea la distancia del
objeto a su vecino, es más probable que sea un valor atípico. Es un enfoque eficaz para detectar ataques de sondeo y ataques de denegación de servicio (DoS). Otro es el
enfoque de valores atípicos locales basado en la densidad. La detección de valores atípicos basada en la distancia depende de la distribución general o global del conjunto
dado de puntos de datos. Los datos no se distribuyen uniformemente, por lo que el enfoque basado en la distancia encuentra varias dificultades durante el análisis de los
datos. La idea principal de este método basado en la densidad es asignar a cada ejemplo de datos un grado de valor atípico, que se denomina Factor de valor atípico local
(LOF). El factor atípico es local en el sentido de que solo se considera una vecindad restringida de cada objeto [14]. Se proponen varios otros algoritmos para la detección de
anomalías en las redes de sensores inalámbricos (WSN). Se ha propuesto un marco jerárquico para superar los desafíos en las WSN donde se aprende un modelo preciso y
el modelo aproximado en el servidor remoto y los nodos sumideros [8]. También se propone un algoritmo de factor de valor atípico local aproximado que se puede
aprender en los nodos sumideros para el modelo de detección en WSN. Estos proporcionan resultados más eficientes y precisos. También se propone un algoritmo de
factor de valor atípico local aproximado que se puede aprender en los nodos sumideros para el modelo de detección en WSN. Estos proporcionan resultados más eficientes
y precisos. También se propone un algoritmo de factor de valor atípico local aproximado que se puede aprender en los nodos sumideros para el modelo de detección en
WSN. Estos proporcionan resultados más eficientes y precisos.
2.2. Detección de anomalías basada en clasificación
La clasificación se puede definir como un problema de identificación de la categoría de nuevas instancias sobre la base de un conjunto de entrenamiento de
datos que contiene observaciones (o instancias o tuplas) cuya pertenencia a la categoría es conocida. La categoría se puede denominar etiqueta de clase.
Varias instancias pueden pertenecer a una o varias de las etiquetas de clase. En el aprendizaje automático, la clasificación se considera una instancia de
aprendizaje supervisado, por ejemplo, el aprendizaje en el que está disponible un conjunto de entrenamiento de observaciones correctamente identificadas.
Un algoritmo que implementa la clasificación se conoce como clasificador. Está construido para predecir etiquetas categóricas o atributos de etiqueta de
clase. En caso de detección de anomalías, clasificará los datos generalmente en dos categorías, a saber, normal o anormal. Las siguientes son tecnologías
comunes de aprendizaje automático en la detección de anomalías.
Árbol de clasificación: En el aprendizaje automático, el árbol de clasificación también se denomina modelo de predicción o árbol de decisión. Es
un gráfico de patrón de árbol que es similar a la estructura del diagrama de flujo; los nodos internos son una propiedad de prueba, cada rama
representa el resultado de la prueba y los nodos u hojas finales representan la clase a la que pertenece cualquier objeto. El algoritmo más
fundamental y común utilizado para el árbol de clasificación es ID3 y C4.5 Hay dos métodos para la construcción de árboles, la construcción de
árboles de arriba hacia abajo y la poda de abajo hacia arriba. ID3 y C4.5 pertenecen a la construcción de árboles de arriba hacia abajo [16]. Más
enfoques de árbol de clasificación en comparación con la clasificación de bayes ingenua, se encontró que el resultado obtenido de los árboles
de decisión era más preciso [19].
Lógica difusa: Se deriva de la teoría de conjuntos difusos que se ocupa del razonamiento aproximado en lugar de deducirse con precisión de la
lógica de predicados clásica. El lado de la aplicación de la teoría de conjuntos difusos se ocupa de valores expertos del mundo real bien
pensados para un problema complejo. En este enfoque, los datos se clasifican sobre la base de varias métricas estadísticas.
Shikha Agrawal y Jitendra Agrawal / Procedia Computer Science 60 (2015) 708 - 713
Estas porciones de datos se aplican con reglas de lógica difusa para clasificarlas como normales o maliciosas. Hay varias otras
técnicas de minería de datos difusos para extraer patrones que representan el comportamiento normal para la detección de
intrusiones que describen una variedad de modificaciones en los algoritmos de minería de datos existentes para aumentar la
eficiencia y precisión [17].
Red ingenua de bayes: Hay muchos casos en los que existen las dependencias estadísticas o las relaciones causales entre las
variables del sistema. Puede resultar difícil expresar con precisión las relaciones probabilísticas entre estas variables. En otras
palabras, el conocimiento previo sobre el sistema es simplemente que alguna variable puede estar influenciada por otras. Para
aprovechar esta relación estructural entre las variables aleatorias de un problema, se puede utilizar un modelo de gráfico
probabilístico llamado Naïve Baysian Networks (NB). Este modelo proporciona respuesta a preguntas como si se dan pocos eventos
observados, ¿cuál es la probabilidad de un tipo particular de ataque? Se puede hacer usando la fórmula de probabilidad condicional.
La estructura de un NB está típicamente representada por un Gráfico Acíclico Dirigido (DAG) donde cada nodo representa una de las
variables del sistema y cada enlace codifica la influencia de un nodo sobre otro [21]. Cuando se comparan las técnicas de árbol de
decisión y baysiano, aunque la precisión del árbol de decisión es mucho mejor, el tiempo de cálculo de la red baysiana es bajo [19].
Por lo tanto, cuando el conjunto de datos es muy grande, será eficiente utilizar modelos NB.
Algoritmo genético: Fue introducido en el campo de la biología computacional. Estos algoritmos pertenecen a la clase más amplia de
algoritmos evolutivos (EA). Generan soluciones a problemas de optimización utilizando técnicas inspiradas en la evolución natural,
como herencia, selección, mutación y cruce. Desde entonces, se han aplicado en diversos campos con resultados muy
prometedores. En la detección de intrusiones, se aplica el algoritmo genético (GA) para derivar un conjunto de reglas de clasificación
a partir de los datos de auditoría de la red. El marco de apoyo y confianza se utiliza como una función de adecuación para juzgar la
calidad de cada regla. Las propiedades significativas de GA son su robustez contra el ruido y las capacidades de autoaprendizaje. Las
ventajas de las técnicas de GA comunicadas en caso de detección de anomalías son una alta tasa de detección de ataques y una
menor tasa de falsos positivos [17].
Redes neuronales:Es un conjunto de nodos interconectados diseñados para imitar el funcionamiento del cerebro humano. Cada
nodo tiene una conexión ponderada con varios otros nodos en capas vecinas. Los nodos individuales toman la entrada recibida de
los nodos conectados y usan los pesos junto con una función simple para calcular los valores de salida. Se pueden construir redes
neuronales para el aprendizaje supervisado o no supervisado [20]. El usuario especifica el número de capas ocultas, así como el
número de nodos dentro de una capa oculta específica. Dependiendo de la aplicación, la capa de salida de la red neuronal puede
contener uno o varios nodos. Las redes neuronales Multilayer Perceptions (MLP) han tenido mucho éxito en una variedad de
aplicaciones y han producido resultados más precisos que otros modelos de aprendizaje computacional existentes. Son capaces de
aproximarse a una precisión aleatoria, cualquier función continua siempre que contenga suficientes unidades ocultas. Esto significa
que tales modelos pueden formar cualquier límite de decisión de clasificación en el espacio de características y, por lo tanto, actuar
como una función discriminadora no lineal.
Máquinas de vectores soporte: Se trata de un conjunto de métodos de aprendizaje supervisado relacionados que se utilizan para la clasificación
y la regresión. Support Vector Machine (SVM) se aplica ampliamente al campo del reconocimiento de patrones. También se utiliza para un
sistema de detección de intrusos. La SVM de una clase se basa en un conjunto de ejemplos que pertenecen a una clase particular y no hay
ejemplos negativos en lugar de utilizar ejemplos positivos y negativos [18]. En comparación con las redes neuronales en el conjunto de datos
de copa KDD, se descubrió que SVM realizaba mejor que NN en términos de tasa de falsas alarmas y precisión en la mayoría de los tipos de
ataques [18].
2.3. Enfoques híbridos
El uso de un algoritmo en particular por sí solo no produce resultados adecuados. De vez en cuando se registran nuevos ataques, por lo que
utilizar un solo algoritmo no será suficiente. En los últimos años, se han realizado enfoques combinando o fusionando diferentes algoritmos.
Técnicas supervisadas en cascada: Aquí se fusionan varios algoritmos de clasificación para obtener una
mayor precisión. Se propuso una combinación de bayes ingenuos y un algoritmo de árbol de decisión. Este
algoritmo híbrido se probó en el conjunto de datos de vasos de Knowledge Data Discovery (KDD) y la
precisión lograda fue del 99 por ciento. Se concentró en el desarrollo del rendimiento del clasificador Naïve
Bayesiano (NB) y del algoritmo ID3 [22]. También se propuso un enfoque híbrido de fusionar Decision Tree
(DT) y Support Vector Machine (SVM). Describió sobre el enfoque de conjunto que utilizó el árbol de
decisión (DT), la máquina de vectores de soporte (SVM) y el clasificador híbrido DT-SVM con esperas. El
enfoque de conjunto dio como resultado una precisión del 100 por ciento en el conjunto de datos probado
[28].
Combinando técnicas supervisadas y no supervisadas: Hay varios algoritmos de aprendizaje supervisados y no supervisados cuyas
combinaciones se pueden realizar. En los últimos años se han abordado muchos de estos métodos híbridos. De este modo, la eficiencia del
algoritmo supervisado aumenta considerablemente, ya que la precisión de la tasa de detección de anomalías puede mejorarse en gran medida
mediante el uso de algoritmos no supervisados. Se propuso una combinación de k medias e ID3 para la clasificación de actividades normales y
anómalas en el tráfico del Protocolo de resolución de direcciones (ARP) de la computadora y una precisión del 98 por ciento
711
712
Shikha Agrawal y Jitendra Agrawal / Procedia Computer Science 60 (2015) 708 - 713
se logró [24]. Se propuso un nuevo enfoque para la detección de ataques a la red, que tiene como objetivo estudiar la efectividad del
método basado en el aprendizaje automático en la detección de intrusiones, incluidas las redes neuronales artificiales y la máquina
de vectores de soporte. Los resultados experimentales obtenidos al aplicar este enfoque al conjunto de datos KDD CUP'99
demuestran que el enfoque propuesto tiene un alto rendimiento, especialmente en ataques de tipo U2R y U2L [25]. Se ha propuesto
un enfoque híbrido para combinar la entropía de las características de la red y SVM que superó la entropía individual y las técnicas
de SVM [2]. Por lo tanto, los enfoques híbridos producen mejores resultados al combinar diferentes técnicas al superar los
inconvenientes entre sí y dar como resultado una mayor precisión en la detección de anomalías. La Tabla 1 presenta algunos
enfoques híbridos propuestos para la detección de anomalías:
Tabla 1: Compilación de enfoques híbridos para la detección de anomalías
Nombre del autor
Chitrakar, Roshan,
y Chuanhe (2012)
Métodos utilizados
Metodología
Pros y contras
Clasificación de SVM y
Las instancias de datos similares se
Mayor precisión.
agrupación de kmedoides
agrupan mediante la técnica k-
La complejidad del tiempo es mayor cuando el
medoides y los grupos resultantes se
conjunto de datos es muy grande.
clasifican en clasificadores SVM
Chitrakar, Roshan,
y Chuanhe (2012)
Agrupación de k-medoides y
Las instancias de datos similares se agrupan
Aumento de la tasa de detección y
clasificación de Naïve Bayes
mediante la técnica de agrupación de k-
reducción del tiempo medio de la tasa
Medoides.
de falsas alarmas.
Los clústeres resultantes se clasifican
Difícil de predecir cuando el clasificador
utilizando clasificadores Naïve Bayes.
bayes ingenuo en diferentes entornos.
Fu, Liu y
Máquinas vectoriales de soporte
La SVM de primera clase se utiliza para detectar
No requiere un historial de fallas
Pannu (2012)
de una clase y dos clases (en
la puntuación de anomalías. En segundo lugar, el
previo y es autoadaptable al aprender
computación en la nube)
detector se vuelve a entrenar cuando se incluyen
de los eventos de fallas observados.
ciertos registros de datos nuevos en el conjunto
de datos existente.
La precisión de la detección de fallas no
puede alcanzar el 100%.
Farid, Harbi y
Rahman (2010)
Bayes ingenuos y árbol de decisiones
Realiza detecciones de equilibrio y
Falsos positivos minimizados y tasas de
para la detección de intrusiones
mantiene falsos positivos a un nivel
detección de saldo maximizadas.
adaptativa
aceptable para diferentes tipos de
Requiere la mejora de la tasa de falsos
ataques a la red.
positivos para ataques remotos a
usuarios.
Yasami y
Mozaffari (2009)
k-Significa agrupamiento y
La agrupación de k-medias se aplica primero a las
Métodos de aprendizaje del árbol de
instancias de entrenamiento normales para
Supera a los k-Means
individuales y al ID3.
decisiones ID3
formar k agrupaciones.
Este enfoque se limita a un conjunto de datos
Se construye un árbol de
específico.
decisiones ID3 en cada grupo.
Peddabachigari,
Abraham, Grosan y
Thomas (2007)
Árbol de decisión (DT) y
El conjunto de datos se pasa primero a
Ofrece un buen rendimiento en el conjunto
máquinas vectoriales de
través del DT y la información del nodo
de datos de copa KDD.
soporte (SVM)
se genera y se pasa junto con el
Este enfoque, en comparación con
conjunto original de atributos.
SVM, ofrece resultados equivalentes.
a través de SVM para obtener el
resultado final.
Peddabachigari,
Abraham, Grosan y
Enfoque de conjunto
Thomas (2007)
La información de diferentes
Ofreció el mejor rendimiento para las
clasificadores individuales se combina
clases Probe y R2L.
para tomar la decisión final.
100% de precisión podría ser posible para
otras clases si la base adecuada
se seleccionan los clasificadores.
La selección de clasificadores base no se
puede realizar automáticamente.
3. Análisis y recomendaciones
En este trabajo se describen diversas técnicas de minería de datos para la detección de anomalías que se habían propuesto en los últimos años. Esta revisión
será útil para los investigadores para obtener una visión básica de varios enfoques para la detección de anomalías. Aunque se ha trabajado mucho utilizando
algoritmos independientes, los enfoques híbridos se están utilizando ampliamente, ya que proporcionan mejores resultados y superan el inconveniente de un
enfoque sobre el otro. Todos los días se observan nuevos ataques desconocidos y, por lo tanto, existe la necesidad de aquellos enfoques que puedan detectar
el comportamiento desconocido en el conjunto de datos almacenados, transferidos o modificados. En este trabajo de investigación se mencionan la fusión o
combinación de algoritmos ya existentes que se han propuesto. Los investigadores interesados pueden combinar la versión modificada de algoritmos ya
existentes. Por ejemplo, existen varios enfoques nuevos en la modificación de árboles de decisión (como ID3, C4.5), GA, SVM (incluidos enfoques optimizados
y basados en múltiples núcleos). Esto puede producir resultados más precisos.
Shikha Agrawal y Jitendra Agrawal / Procedia Computer Science 60 (2015) 708 - 713
Referencias
1. Chandola V., Banerjee A., Kumar V., Detección de anomalías: una encuesta, ACM Computing Surveys (CSUR); 41 (3); 2009; pág. 15 .
2. Agarwal B., Mittal N., Enfoque híbrido para la detección de tráfico de red de anomalías utilizando técnicas de minería de datos, Tecnología de procedimientos; 6; 2012; pag. 996-
1003.
3. Padhy N., Mishra P., Panigrahi R., The Survey of Data Mining Applications and Feature Scope; Revista Internacional de Ciencias de la Computación, Ingeniería y Tecnología
de la Información (IJCSEIT), 2 (3); 2012; pag. 43-58.
4. Lee W., Stolfo J. Salvatore, enfoques de minería de datos para la detección de intrusiones; Actas del 7th Simposio de seguridad de USENIX, San Antonio, Texas; 1998; pág.
79-94.
5. Lee W., Stolfo SJ, Mok KW, Detección adaptativa de intrusiones: un enfoque de minería de datos; Revisión de inteligencia artificial; 14 (6); 2000; pag. 533-567.
6. Phua C., Lee V., Smith K., Gayler R., Una encuesta completa de detección de fraude basada en minería de datos; investigar; 2010; pag. 1-14.
7. Chauhan A., Mishra G., Kumar G., Encuesta sobre técnicas de minería de datos en la detección de intrusiones; Revista Internacional de Investigación Científica e Ingeniería; 2 (7), 2011;
p.1-4.
8. Xu L., Yeh YR, Lee YJ, Li J., Un marco jerárquico que utiliza un factor de valor atípico local aproximado para una detección eficiente de anomalías; Procedia Ciencias de la
Computación; 19; 2013; pag. 1174-1181.
9. T. Pang-Ning, M. Steinbach, V. Kumar, Introducción a la minería de datos, Biblioteca del Congreso, 2006.
10. Munz, G., Li S., Carle G., Detección de anomalías de tráfico mediante agrupación de K-Means; Taller de GI / ITG MMBnet; 2007; p.1-8.
11. Syarif I., Prugel-Bennett A., Wills G., Enfoques de minería de datos para la detección de intrusiones en la red, desde la reducción de la dimensionalidad hasta el uso indebido y la
detección de anomalías; Revista de revisión de tecnología de la información; 3 (2); 2012; pag. 70-83.
12. Han J., Kamber M., Minería de datos: conceptos y técnicas, 2Dakota del Norte edición, Morgan Kaufmann, 2006.
13. Berkhin P., Un estudio de las técnicas de minería de datos agrupados, Agrupación de datos multidimensionales; Springer Berlín Heidelberg; 2006; pag. 25-71.
14. Dokas P.,. Ertoz L., Kumar V., Lazarevic A., Srivastava J., Tan PN, Minería de datos para la detección de intrusiones en la red, In Proceedings of NSF Workshop on Next
Generation Data Mining; 2002; pag. 21-30
15. García-Teodoro P., Díaz-Verdejo J., Maciá-Fernández G., Vázquez E., Detección de intrusiones en redes basada en anomalías: técnicas, sistemas y desafíos; Computadoras
y seguridad; 28 (1); 2009; pag. 18-28.
16. Wu SY, Yen E., detectores de intrusión basados en minería de datos; Sistemas Expertos con Aplicaciones; 36 (3); 2009; pag. 5605-5612.
17. Kaur N., documento de estudio sobre técnicas de minería de datos para la detección de intrusiones, Revista Internacional de Investigación en Ciencia, Ingeniería y Tecnología; 2 (4); 2013;
pag. 799-804.
18. Tang DH, Cao Z., algoritmo de detección de intrusiones basado en aprendizaje automático; Revista de sistemas de información computacional; 5 (6); 2009; pag. 1825-1831.
19. Amor NB, Benferhat S., Elouedi Z., Naive Bayes vs árboles de decisión en sistemas de detección de intrusos, en las actas del simposio ACM sobre informática aplicada;
2004; pag. 420-424
20. Kou Y., Lu CT, Sirwongwattana S., Huang YP, Estudio de técnicas de detección de fraude; En Actas de la conferencia internacional IEEE Redes, detección y
control; 2; 2004; pag. 749-754.
21. TsaiC. F., Hsu YF, Lin CY, Lin WY, Detección de intrusiones mediante aprendizaje automático: una revisión; Sistemas Expertos con Aplicaciones; 36 (10); 2009; pag. 1199412000.
22. Farid DM, Harbi N., Rahman MZ, Combinando bayes ingenuos y árbol de decisión para la detección de intrusiones adaptativa; Revista internacional de seguridad de redes y sus
aplicaciones (IJNSA); 2 (2); 2010; p. 12-25.
23. Fu S., Liu J., Pannu H., Un marco híbrido de detección de anomalías en la computación en la nube mediante el uso de máquinas vectoriales de soporte de una y dos clases; En aplicaciones
y minería de datos avanzada; Springer Berlín Heidelberg; 2012; pag. 726-738.
24. Yasami Y., Mozaffari SP, Un nuevo enfoque de clasificación no supervisado para la detección de anomalías en la red mediante la agrupación de k-medias y los métodos de aprendizaje del
árbol de decisiones ID3; The Journal of Supercomputing; 53 (1); 2010; pag. 231-245.
25. Tang DH, Cao Z., algoritmos de detección de intrusiones basados en aprendizaje automático; Revista de Sistemas de Información Computacional; 5 (6); 2009; pag. 1825-1831.
26. Chitrakar R., Chuanhe H., Detección de intrusiones basada en anomalías mediante el enfoque de aprendizaje híbrido de combinación de agrupación de k-Medoides y
clasificación de Bayes ingenua, en las actas de 8th Conferencia Internacional IEEE sobre Comunicaciones Inalámbricas, Redes y Computación Móvil (WiCOM); 2012; p 1-5.
27. Chitrakar R.,. Chuanhe, H., Detección de anomalías mediante la clasificación de máquinas de vectores de soporte con agrupación de k-Medoides; En Actas de la Tercera Conferencia
Internacional sobre Internet del Himalaya Asiático de IEEE (AH-ICI); 2012; pag. 1-5.
28. Peddabachigari S., Abraham A., Grosan C., Thomas J., Modelado del sistema de detección de intrusiones utilizando sistemas inteligentes híbridos; Revista de aplicaciones
informáticas y de red; 30 (1); 2007; pag. 114-132.
29. Patcha A., Park JM, Una descripción general de las técnicas de detección de anomalías: soluciones existentes y últimas tendencias tecnológicas; Red de computadoras; 51 (12); 2007;
pag. 3448-3470.
713
Descargar