Mendizale 15 de noviembre de 2006 Resumen Ante la creciente magnitud del problema del aseguramiento de la Seguridad de la Información en sistemas y redes de comunicaciones de todo tipo, los tradicionales mecanismos pasivos de aislamiento y control de acceso se muestran insucientes para contener el extraordinariamente ascendente número de ataques e intentos de int rusión, bien indiscriminados, bien selectivos, que se producen en la actualidad. De este modo, en dichas circunstancias, el área de conocimiento de la Detección de Intrusiones, caracterizada fundamentalmente por su comportamiento activo y por el uso de técnicas de Inteligencia Articial más o menos ambiciosas y sosticadas, se muestra como una de las tecnologías de seguridad más prometedoras, a medio plazo. Así, es posible encontrar actualmente soluciones comerciales de detección sólidas y de reconocido prestigio, las cuales, bien orientadas a la monitorización de equipamientos especícos, bien orientadas a la supervisión de redes de comunicación completas, abogan por la utilización de modelos de representación de conocimiento e inferencia basados en el concepto de Sistema Experto, de encadenamiento de reglas. De esta manera, por lo general, el conocimiento disponible en relación con ataques documentados contra dichos equipamientos o redes de comunicación, queda representado en forma de reglas de producción, confeccionadas por el administrador humano. Dichos Sistemas de Detección de Usos Indebidos, se caracterizan por ser muy precisos en sus decisiones, amén de por un habitual alto nivel de eciencia. Sin embargo, presentan una importante limitación: no son capaces de responder ante lo que no conocen. O lo que es lo mismo, ante la posibilidad de que un hipotético atacante pueda disponer del conocimiento del sistema de detección (cuestión realmente factible en la mayoría de casos), para a partir de él introducir ligeras modicaciones en sus procedimientos de ataque que camuen sus acciones, o bien ante ataques completamente novedosos, simplemente no hay respuesta. Por ello, la comunidad cientíca estudia actualmente posibles soluciones a este inconveniente, apareciendo el concepto de Detección de Anomalías como un elemento de análisis indispensable a medio plazo, bien en forma de complemento al tradicional enfoque de detección de usos indebidos, patrones o rmas, o bien como superconjunto semántico de éste. Para ello, en general, dicho enfoque de Detección de Anomalías, persigue el objetivo de ser capaz de proporcionar una respuesta incluso ante situaciones de riesgo no conocidas de antemano, en base a la elaboración del perl de comportamiento del sistema a monitorizar, y al cálculo de desviaciones de la actividad cotidiana con respecto a dicho perl. Así, toda desviación sucientemente signicativa será considerada como una anomalía del sistema, y susceptible por tanto de ser noticada al operador humano en forma de señal de alarma, de manera que sea posible un análisis pormenorizado de las causas de dicha alarma, o de procesarse automáticamente, en la línea del paradigma de Prevención de Intrusiones. De esta forma, con el objetivo de proporcionar una respuesta completa por parte del sistema de detección, tanto ante ataques conocidos como ante ataques no conocidos, la presente tesis doctoral explora el camino de la unicación de los dos grandes paradigmas de Detección de Intrusiones, mediante la utilización de modelos de representación de conocimiento e inferencia de conclusiones basados en el concepto de Red Bayesiana, el cual contempla de manera intrínseca toda la potencia de representatividad de los tradicionales Sistemas Expertos basados en reglas, amén de un amplio conjunto de poderosas capacidades adicionales, como son: inferencia explicativa de conclusiones, encadenamiento omnidireccional de relaciones de causalidad y/o correlación, representación intrínseca de la magnitud temporal, aprendizaje estructural (o Data Mining Bayesiano) a partir de los datos, aprendizaje paramétrico completo o secuencial a partir de dichos datos, capacidad de adaptación del modelo de conocimiento a variaciones del sistema observado, o posibilidad de obtención, mediante análisis de sensibilidades, de un esquema cualitativo y cuantitativo de la representatividad y grado de interdependencia de los parámetros que componen el ámbito del problema. De este modo, a partir de los estudios y experimentaciones llevadas a cabo en la presente tesis doctoral, se consigue un potente modelo de representación de conocimiento a partir del cual se desarrolla un motor de razonamiento adaptativo capaz de inferir conclusiones que contemplan, de un modo unicado y homogéneo en el tratamiento de los diversos tipos de parámetros de detección, tanto conocimiento propio del paradigma de Detección de Usos Indebidos, por un lado, como conocimiento característico del paradigma de Detección de Anomalías, por otro. Estos paradigmas se aplican en este proyecto al mundo de la tecnología móvil que se va a ir introduciendo poco a poco a lo largo de esta memoria. 2 Índice general 1. Introducción 17 1.1. El papel de la detección de Intrusiones en la Sociedad de la Información . . . . . 2 1.2. El papel innovador de la Detección de Intrusiones para dispositivos móviles . . . 12 1.3. Conceptos Fundamentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.3.1. Conceptos Fundamentales de la Seguridad de la Información . . . . . . . . 15 1.3.2. Conceptos de Detección de Intrusiones . . . . . . . . . . . . . . . . . . . . 18 1.3.3. Modelo general de funcionamiento . . . . . . . . . . . . . . . . . . . . . . 20 1.3.4. Características de los diferentes enfoques . . . . . . . . . . . . . . . . . . 26 1.4. Retos por alcanzar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 1.4.1. Respuesta ante ataques no conocidos (Zero-Day Attacks) contra teléfonos móviles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.2. Aprendizaje Bayesiano no supervisado de perles de usuario 45 . . . . . . . 45 1.4.3. Unicación de modelos de detección de intrusiones . . . . . . . . . . . . . 46 1.4.4. Respuesta preventiva mediante intercepción de llamadas al sistema . . . . 47 1.4.5. Optimización de tasas de falsos positivos y falsos negativos . . . . . . . . 47 1.4.6. Superación de limitaciones arquitectónicas . . . . . . . . . . . . . . . . . . 47 1.4.7. Base de conocimiento estándar . . . . . . . . . . . . . . . . . . . . . . . . 48 1.4.8. Análisis de tráco de redes inalámbricas . . . . . . . . . . . . . . . . . . . 48 1.4.9. Reducción de requerimientos administrativos . . . . . . . . . . . . . . . . 48 1.4.10. Adaptación al comportamiento del sistema . . . . . . . . . . . . . . . . . . 49 1.4.11. Fortalecimiento del sistema de detección . . . . . . . . . . . . . . . . . . . 49 1.4.12. Reducción del consumo de recursos computacionales . . . . . . . . . . . . 50 1.5. Hipótesis fundamentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 1.6. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 1.7. Estructura de la memoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 2. Entorno De Trabajo 57 2.1. Detección de Intrusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 2.1.1. Perspectiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3 2.1.2. Modelo conceptual de Lundin . . . . . . . . . . . . . . . . . . . . . . . . . 59 2.1.3. Taxonomía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 2.2. Técnicas de análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 2.2.1. Detección de Usos Indebidos . . . . . . . . . . . . . . . . . . . . . . . . . . 76 2.2.2. Detección de Anomalías . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 2.2.3. Modelo General de Denning . . . . . . . . . . . . . . . . . . . . . . . . . . 106 2.3. Implicaciones Arquitectónicas en el Análisis . . . . . . . . . . . . . . . . . . . . . 108 2.3.1. Detección basada en Agentes de Software . . . . . . . . . . . . . . . . . . 108 2.3.2. Detección basada en Grafos . . . . . . . . . . . . . . . . . . . . . . . . . . 110 2.3.3. Sistema Inmunológico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 2.4. Técnicas de Análisis especícas para Host Intrusion Detection Systems (HIDS) . 111 2.4.1. Preámbulo: Ataques Mimicry en Sistemas de Detección de Intrusiones . . 112 2.4.2. Detección mediante Análisis Forense . . . . . . . . . . . . . . . . . . . . . 114 2.4.3. Detección basada en análisis estático o instrumentación binaria del sistema 116 2.4.4. Detección basada en rmas . . . . . . . . . . . . . . . . . . . . . . . . . . 119 2.4.5. Detección de ataques contra la lógica de las aplicaciones . . . . . . . . . . 121 2.4.6. Detección basada en Secuencias de Syscalls . . . . . . . . . . . . . . . . . 123 2.4.7. Detección basada en grafo . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 2.4.8. Visualización e identicación del contexto de las intrusiones desde las trazas de llamadas al sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 2.4.9. Modelación de llamadas al sistema mediante ventana deslizante . . . . . . 136 2.4.10. Modelado de trayectorias de syscalls mediante en análisis del código fuente 145 2.4.11. Solución de instrumentación mediante criptografía . . . . . . . . . . . . . 150 2.4.12. Solución mediante virtualización para terminales móviles . . . . . . . . . . 151 2.5. Modelos de redes probabilísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 2.5.1. Modelos de Redes Probabilísticas . . . . . . . . . . . . . . . . . . . . . . . 154 2.5.2. Aprendizaje Estructural . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 2.5.3. Modelado de la información de estado [137] . . . . . . . . . . . . . . . . . 182 3. ESIDE-Mendizale Un Framework Bayesiano de detección de intrusiones 213 3.1. Análisis de riesgos y formalización . . . . . . . . . . . . . . . . . . . . . . . . . . 213 3.1.1. Posibles parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 3.1.2. Selección realizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 3.1.3. Futuros parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 3.2. Recogida de información . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 3.2.1. Recogida de información en sistemas GNU/Linux . . . . . . . . . . . . . . 230 3.2.2. Recogida de información en sistemas Windows Mobile. . . . . . . . . . . . 252 3.2.3. Recogida de información en sistemas Windows. . . . . . . . . . . . . . . . 258 3.2.4. Recogida de información en sistemas Symbian OS. . . . . . . . . . . . . . 270 4 3.3. Cuestiones arquitectónicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280 3.3.1. Riesgo tecnológico, un problema en alza. . . . . . . . . . . . . . . . . . . 280 3.3.2. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282 3.3.3. Detección de intrusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283 3.3.4. Introducción a DFSU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300 3.3.5. Estructura básica de DFSU . . . . . . . . . . . . . . . . . . . . . . . . . . 303 3.3.6. DFSU un programa polifacético . . . . . . . . . . . . . . . . . . . . . . . . 312 3.3.7. Componentes de DFSU . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 3.3.8. DFSU primeros pasos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328 3.3.9. DFSU conguración y puesta en marcha de una instancia . . . . . . . . . 334 3.3.10. DFSU descripción de las interfaces . . . . . . . . . . . . . . . . . . . . . . 350 3.4. Análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356 3.4.1. Modelo General Operativo . . . . . . . . . . . . . . . . . . . . . . . . . . . 356 3.4.2. Obtención de la Muestra Evidencial. . . . . . . . . . . . . . . . . . . . . . 357 3.4.3. Aprendizaje e Inferencia de Expertos Mendizale . . . . . . . . . . . . . . . 360 3.4.4. Proceso de Razonamiento en la Red Naive de Unicación de Conclusiones 367 3.5. Respuesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369 3.5.1. Tipos de respuestas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369 3.5.2. Respuesta implementada en ESIDE-Mendizale. . . . . . . . . . . . . . . . 373 3.6. Fortaleza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375 3.7. Cuestiones Operacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377 3.8. Aspectos sociales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377 4. Conclusiones y líneas de investigación futuras 379 4.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379 4.2. Líneas de investigación futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381 5 6 Índice de guras 1.1. Ratio de plataformas PC compatible infectadas en el mundo . . . . . . . . . . . . 2 1.2. Utilización de Internet por parte de empresas y organizaciones con sede en la UE 5 1.3. Utilización de Internet por parte de individuos particulares residentes en la UE . 5 1.4. Crecimiento del número de usuarios en el territorio español, en miles de usuarios 6 1.5. Evolución del comercio electrónico durante los últimos años (en Euros) . . . . . . 7 1.6. Evolución del comercio electrónico durante los últimos años (en número de transacciones) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.7. Evolución del número de incidentes de seguridad reportados anualmente por CERT/CC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.8. Evolución del número de incidentes de seguridad reportados anualmente por FBI y CSI en su Computer Crime and Security Survey . . . . . . . . . . . . . . . . . 10 1.9. Relación entre el nivel de preparación del hacker y el grado de sosticación de sus ataques, según estudios realizados por CERT/CC . . . . . . . . . . . . . . . . . . 11 1.10. Modelo General de Funcionamiento . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.11. Taxonomía general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.1. Modelo conceptual de Lundin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 2.2. Taxonomía de Alessandri et al. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 2.3. Modelo general de Alessandri et al. . . . . . . . . . . . . . . . . . . . . . . . . . . 66 2.4. Taxonomía de Allen et al. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 2.5. Taxonomía de Bace y Mell. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 2.6. Taxonomía de Axelsson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 2.7. Taxonomía de Debar, Dacier y Wespi . . . . . . . . . . . . . . . . . . . . . . . . . 69 2.8. Taxonomía revisada de Debar, Dacier y Wespi. . . . . . . . . . . . . . . . . . . . 70 2.9. Taxonomía de Lazarevic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 2.10. Taxonomía de Krügel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 2.11. Taxonomía de Indican CERT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 2.12. Arquitectura CIDF. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 2.13. Taxonomía ESIDE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 2.14. Ubicación de hipótesis fundamentales . . . . . . . . . . . . . . . . . . . . . . . . . 75 7 2.15. Modelo general de Detección de Usos Indebidos. . . . . . . . . . . . . . . . . . . . 77 2.16. Batería de reglas de Snort para detección de Shellcodes . . . . . . . . . . . . . . . 78 2.17. Firma de Snort para detección de ataques contra Apache . . . . . . . . . . . . . . 78 2.18. Firma de Bro para detección de ataques contra Apache . . . . . . . . . . . . . . . 78 2.19. Batería de reglas de Dragon para detección de Shellcodes . . . . . . . . . . . . . . 79 2.20. Firma de NFR para detección del histórico ataque Land Attack . . . . . . . . . . 79 2.21. Regla de MIDAS para monitorización de cuentas de usuario privilegiadas . . . . . 81 2.22. Regla de MIDAs para análisis de horario inusual en el acceso a cuentas de usuario 81 2.23. Base de hechos de P-BEST/EMERALD para detección del histórico ataque TCP SYN Flood. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 2.24. Batería de reglas de P-BEST/EMERALD para detección del histórico ataque TCP SYN Flood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 2.25. Escenario de STAT para detección de ataques contra servidores IMAP . . . . . . 84 2.26. Especicación en lenguaje STATL de escenario de STAT para detección de ataque contra servidores IMAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 2.27. Reglas de Snort para detección de ataques contra servidores IMAP . . . . . . . . 85 2.28. Red de Petri de IDIOT para validación del proceso de login . . . . . . . . . . . . 85 2.29. Modelo general de Detección de Anomalías . . . . . . . . . . . . . . . . . . . . . 88 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 2.31. Árbol de reglas de Wisdom and Sense . . . . . . . . . . . . . . . . . . . . . . . . 95 2.32. Aplicación de redes neuronales a Detección de Intrusiones . . . . . . . . . . . . . 96 2.33. Firma ISL de NFR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 2.34. Batería de reglas ISL de P-BEST/EMERALD . . . . . . . . . . . . . . . . . . . . 98 2.35. Firma ISL del MIT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 2.36. Red Bayesiana trivial de modelado de actividad intrusiva . . . . . . . . . . . . . . 99 2.30. Batería de reglas de TIM 2.37. Algoritmo Genético general, en pseudocódigo . . . . . . . . . . . . . . . . . . . . 100 2.38. Clasicaciones convencional y difusa de un parámetro de detección . . . . . . . . 101 2.39. Clasicación de eventos basada en máquina de vector soporte . . . . . . . . . . . 102 2.40. Modelo General de Detección de Intrusiones de Denning . . . . . . . . . . . . . . 107 2.41. Modelo General de Detección de Intrusiones de Denning . . . . . . . . . . . . . . 109 2.42. Representación conceptual de GrIDS de una epidemia vírica . . . . . . . . . . . . 110 2.43. Grafo de dependencia que puede seguirse realizando operaciones de BackTracking 116 2.44. Ciclo de vida de una vulnerabilidad en software . . . . . . . . . . . . . . . . . . . 120 2.45. Grafo de llamadas que se producen desde código fuente. . . . . . . . . . . . . . . 124 2.46. Grafo de llamadas entre librerías . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 2.47. Arquitectura bayesiana del sistema de detección de anomalías para host propuesto en [95] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 2.48. Código fuente y grafo de ejecución presentado en el paper [141] . . . . . . . . . . 130 8 2.49. Arquitectura de un sistema de detección de intrusiones sin (izq) y con (dch) un módulo de identicación del contexto de intrusiones (ICI) . . . . . . . . . . . . . 131 2.50. Set de datos utilizados para el FSG . . . . . . . . . . . . . . . . . . . . . . . . . . 133 2.51. Ejemplo de FSG para diferentes procesos . . . . . . . . . . . . . . . . . . . . . . . 133 2.52. Número de Secuencias Anómalas Mínimas (MFS) no duplicadas en todos los set de datos intrusivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 2.53. Secuencias Anómalas Mínimas (MFS) compartidas por la misma intrusión en el mismo proceso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 2.54. Entropía condicional del modelo de ventana deslizante . . . . . . . . . . . . . . . 137 2.55. Entropía condicional para una ventana de tamaño n . . . . . . . . . . . . . . . 137 2.56. Ejemplo de grafo de llamadas al sistema . . . . . . . . . . . . . . . . . . . . . . . 139 2.57. Un árbol de sujos para el ejemplo de la cadena A B C C A B B C C A A B C . 141 2.58. Árbol de sujos con punteros de sujos incluidos . . . . . . . . . . . . . . . . . . 141 2.59. Árbol nal resultante de la compresión de la gura anterior . . . . . . . . . . . . 142 2.60. Ejemplo de código y representación de representación NFA . . . . . . . . . . . . . 143 2.61. Ejemplos de implementación de IAM . . . . . . . . . . . . . . . . . . . . . . . . . 143 2.62. Ejemplo de recursividad y autómata generado. . . . . . . . . . . . . . . . . . . . 144 2.63. Ejemplo de recursividad indirecta y autómata generado. . . . . . . . . . . . . . . 144 2.64. Ejemplo de código y modelo HPDA . . . . . . . . . . . . . . . . . . . . . . . . . . 145 2.65. Ejemplo de un programa en C asociado a un modelo de grafo de llamadas (NFA) y un modelo NDPDA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 2.66. Proceso de llamada a getuid utilizando el modelo VSL. . . . . . . . . . . . . . . . 148 2.67. Proceso de llamada getuid utilizando el modelo VPStatic. . . . . . . . . . . . . . 149 2.68. Instalación del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 2.69. Comprobación de las syscalls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 2.70. Imagen de la arquitectura de los nuevos procesadores para terminales de tercera generación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 2.71. Comunicación VMM asimétricos . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 2.72. Comunicación dinámica inter-dominio . . . . . . . . . . . . . . . . . . . . . . . . 154 2.73. ID de los registros del procesador lógico virtual . . . . . . . . . . . . . . . . . . . 154 2.74. Esquema de la propagación en poliárboles . . . . . . . . . . . . . . . . . . . . . . 159 2.75. Ejemplo de red naive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 2.76. Ejemplo de sustración de nodos en red Naive . . . . . . . . . . . . . . . . . . . . 162 2.77. Ejemplo de adición de un nodo a una red Naive . . . . . . . . . . . . . . . . . . . 163 2.78. Red bayesiana de ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 2.79. Trayectoria Del Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 2.80. Cadena de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 2.81. Cadena de Markov representada como red bayesiana . . . . . . . . . . . . . . . . 185 9 2.82. Tablas de probabilidad condicionada . . . . . . . . . . . . . . . . . . . . . . . . . 186 2.83. Cadena de Markov y la evolución de sus estados. . . . . . . . . . . . . . . . . . . 190 2.84. Ejemplo de PHMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 2.85. Ejemplo de IDHMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 2.86. Ejemplo de HHMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 2.87. Ejemplo de integración de cadenas interrelacionadas . . . . . . . . . . . . . . . . 192 2.88. Otra aproximación para la integración de cadenas interracionadas . . . . . . . . . 192 2.89. Complejidad del algoritmo Fordward . . . . . . . . . . . . . . . . . . . . . . . . . 195 2.90. Complejidad del algoritmo de Backward . . . . . . . . . . . . . . . . . . . . . . . 196 2.91. Cálculo del algoritmo de Viterbi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 3.1. Imagen del monitor de anomalías desarrollado por Teresa F.Lunt y R. Jagannathan.214 3.2. Arquitectura interna de los sistemas operativos . . . . . . . . . . . . . . . . . . . 218 3.3. Abstracción a dos niveles en sistemas Linux . . . . . . . . . . . . . . . . . . . . . 219 3.4. Formato IP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 3.5. Formato TCP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 3.6. Formato UDP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 3.7. Formato ICMP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 3.8. Esquema de la estructura del kernel . . . . . . . . . . . . . . . . . . . . . . . . . 231 3.9. Proceso de llamada a una syscall . . . . . . . . . . . . . . . . . . . . . . . . . . . 231 3.10. Ejemplo utilización del comando strace . . . . . . . . . . . . . . . . . . . . . . . . 234 3.11. Esquema de llamada a una interrupción mediante interrupción . . . . . . . . . . 240 3.12. Logo de SuSE, distribución alemana, respaldada por la empresa Novell . . . . . . 241 3.13. Logo del agente de snare para sistemas GNU/Linux . . . . . . . . . . . . . . . . . 242 3.14. Esquema del formato Portable Ejecutable . . . . . . . . . . . . . . . . . . . . . . 254 3.15. Esquema de llamadas para ejecutar una operación a nivel de kernel. . . . . . . . 255 3.16. Esquema de la información contenida en la estructura KDataStruct . . . . . . . . 256 3.17. Detalle de interfaz de usuario del agente. . . . . . . . . . . . . . . . . . . . . . . . 257 3.18. Esquema de memoria de NT, y posible puntos de recolección de datos. . . . . . . 261 3.19. Ejemplo de modicación de memoria en el punto de inicio . . . . . . . . . . . . . 264 3.20. Esquema de funcionamiento de la librería strace . . . . . . . . . . . . . . . . . . . 266 3.21. Monitorización de syscalls de un proceso infectado con el virus Satir.994 utilizando strace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268 3.22. Interfaz de usuario del agente, menús generales. . . . . . . . . . . . . . . . . . . . 269 3.23. Menú de selección de syscalls hookeadas . . . . . . . . . . . . . . . . . . . . . . . 269 3.24. Simplicación de la arquitectura de Symbian OS . . . . . . . . . . . . . . . . . . 270 3.25. Formato interno de los cheros ejecutables y librerías para Symbian OS . . . . . 272 3.26. Modelo simplicado de la arquitectura de procesadores de un terminal Symbian OS272 3.27. Capas del núcleo de Symbian OS . . . . . . . . . . . . . . . . . . . . . . . . . . . 273 10 3.28. Llamada ejecutiva al kernel de Symbian OS . . . . . . . . . . . . . . . . . . . . . 274 3.29. Código fuente en el que se realiza la llamada para reservar una porción de memoria275 3.30. Arquitectura de los drivers de dispositivo simplicada . . . . . . . . . . . . . . . 277 3.31. Selección de hilos en ejecución a interceptar . . . . . . . . . . . . . . . . . . . . . 278 3.32. Volcado de la memoria y de las peticiones que se realizan a la librería . . . . . . . 279 3.33. Detalles de un hilo en ejecución . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 3.34. Run-Mode Debugger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280 3.35. Ecuación del riesgo tecnológico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280 3.36. Seguridad Perimetral (Firewall) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283 3.37. Etapas en el proceso de detección 3.38. Logotipo de Snort . . . . . . . . . . . . . . . . . . . . . . . . . . 284 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286 3.39. Cabecera IP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289 3.40. Denición de patrones de uso indebido . . . . . . . . . . . . . . . . . . . . . . . . 290 3.41. Esquema de funcionamiento; Modelo de usos indebidos . . . . . . . . . . . . . . . 291 3.42. Ataque según la losofía de detección de anomalías . . . . . . . . . . . . . . . . . 292 3.43. Esquema de funcionamiento de un modelo de detección de anomalías . . . . . . . 294 3.44. IPS integrado en una red . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298 3.45. Taxonomía de los sistemas de detección de intrusiones . . . . . . . . . . . . . . . 301 3.46. Arquitectura de tres capas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304 3.47. Correlacionando HIDS y NIDS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305 3.48. Estructura de dos capas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308 3.49. Estructura de tres capas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 3.50. Estructura con plugins distribuidos . . . . . . . . . . . . . . . . . . . . . . . . . . 310 3.51. Estructura de Heads jerárquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311 3.52. Estructura de herencia de los plugins . . . . . . . . . . . . . . . . . . . . . . . . . 317 3.53. Clase PlugSkel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318 3.54. Clase ExpertSkel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319 3.55. Deln opciones de conguración . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322 3.56. Deln cambiando el modo de funcionamiento . . . . . . . . . . . . . . . . . . . . 322 3.57. Deln mostrando el modo de funcionamiento actual . . . . . . . . . . . . . . . . . 323 3.58. Listado de modos de funcionamiento de Deln . . . . . . . . . . . . . . . . . . . . 323 3.59. Deln ejemplo de una alerta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323 3.60. eForwarder opciones de conguración . . . . . . . . . . . . . . . . . . . . . . . . . 325 3.61. eForwarder listado de modos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325 3.62. eForwarer mostrando el modo de funcionamiento actual . . . . . . . . . . . . . . 326 3.63. eForwarder cambiando el modo de funcionamiento . . . . . . . . . . . . . . . . . 326 3.64. Stats, ejemplo de estadisticas de sistema. . . . . . . . . . . . . . . . . . . . . . . . 327 3.65. Head con un tail y dos masters conectados . . . . . . . . . . . . . . . . . . . . . . 347 11 3.66. Plugins cargados en el Head . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348 3.67. Plugins cargados en el Tail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348 3.68. Visualización de las alertas en el Head . . . . . . . . . . . . . . . . . . . . . . . . 349 3.69. Pantalla principal servidor WebOs . . . . . . . . . . . . . . . . . . . . . . . . . . 350 3.70. Graco del sysload . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352 3.71. Pantalla de información gráca sobre el Tail . . . . . . . . . . . . . . . . . . . . . 352 3.72. Pantalla de inicio de la consola . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353 3.73. Comandos de consola para webOs . . . . . . . . . . . . . . . . . . . . . . . . . . . 354 3.74. Pantalla de ayuda de la consola . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 3.75. Comandos de consola ls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 3.76. Aprendizaje de Parámetros de las llamadas al Sistema . . . . . . . . . . . . . . . 364 3.77. Aprendizaje de Parámetros de las llamadas al Sistema . . . . . . . . . . . . . . . 365 3.78. Aprendizaje de Parámetros de las llamadas al Sistema . . . . . . . . . . . . . . . 366 3.79. Ejemplo de envío de alerta de ataque al telefono móvil (Respuesta pasiva). . . . . 370 3.80. Problemática de la respuesta activa en sistemas NIDS . . . . . . . . . . . . . . . 372 3.81. Ejemplo de arquitectura del sistema, que asegura la fortaleza del sistema mediante VPNs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376 12 Índice de cuadros 1.1. Utilización de Internet en las diferentes regiones del globo . . . . . . . . . . . . . 3 1.2. Utilización de Internet en las diferentes regiones del globo . . . . . . . . . . . . . 4 1.3. Previsiones de crecimiento del Comercio Electrónico, según Forrester, IDC y eMarketer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.4. Previsiones de crecimiento del Comercio Electrónico, según Forrester, IDC y eMarketer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.5. Áreas de investigación sobre Detección de Intrusiones con mayor actividad . . . . 35 2.1. Líneas de Investigación sobre Detección de Intrusiones . . . . . . . . . . . . . . . 64 2.2. Relación entre retos de la Detección de Intrusiones y líneas de investigación . . . 65 2.3. Métricas utilizadas en el sistema IDES de Detección de Intrusiones basada en perles 92 2.4. Tabla de probabilidades de la gura . . . . . . . . . . . . . . . . . . . . . . . . . 185 2.5. Implementación del algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 3.1. Tipo y valores posibles de cada parámetro . . . . . . . . . . . . . . . . . . . . . . 224 3.2. Tipos y posibles parámetros del protocolo TCP . . . . . . . . . . . . . . . . . . . 225 3.3. Tipos y posibles parámetros de UDP . . . . . . . . . . . . . . . . . . . . . . . . . 226 3.4. Tipos y posibles parámetros ICMP . . . . . . . . . . . . . . . . . . . . . . . . . . 227 3.5. Tipo y parámetros de bajo nivel de Snort . . . . . . . . . . . . . . . . . . . . . . 227 3.6. Tipo y parámetros de alto nivel de Snort . . . . . . . . . . . . . . . . . . . . . . . 228 3.7. Parámetros que proponen Mahoney y Chan[364]. . . . . . . . . . . . . . . . . . . 228 3.9. Parámetros de alto nivel de Marina Bykova . . . . . . . . . . . . . . . . . . . . . 229 3.8. Parámetros y tipos de Marina Bykova . . . . . . . . . . . . . . . . . . . . . . . . 229 3.10. Fichero de compilación compileAll.sh . . . . . . . . . . . . . . . . . . . . . . . . . 334 3.11. Fichero slaveconf.xml del Head y del Tail . . . . . . . . . . . . . . . . . . . . . . 335 3.12. Fichero oaconf.xml del head y del tail . . . . . . . . . . . . . . . . . . . . . . . . 337 3.13. Fichero webos.xml del Head y del Tail . . . . . . . . . . . . . . . . . . . . . . . . 338 3.14. Fichero reload.sh del Syshooker . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339 3.15. Fichero mastercong.xml del Syshooker . . . . . . . . . . . . . . . . . . . . . . . 340 3.16. Fichero dfsumcon.cfg del Snort Modicado . . . . . . . . . . . . . . . . . . . . . 341 3.17. Fichero run.sh del Snort Modicado . . . . . . . . . . . . . . . . . . . . . . . . . 341 13 3.18. Ejemplo de conguración del chero dfsumcong.cfg del Snort Modicado . . . . 344 3.19. Ejemplo de conguración del chero run.sh en el Snort Modicado . . . . . . . . 344 3.20. Ejemplo de conguración del chero mastercong.xml en el Syshooker . . . . . . 344 3.21. Ejemplo de conguración del archivo slaveconf.xml en el Head . . . . . . . . . . . 345 3.22. Ejemplo de conguración del chero slaveconf.xml en el Tail . . . . . . . . . . . . 346 3.23. Listado de llamadas al sistema por el PID 2d82b0aa . . . . . . . . . . . . . . . . 362 3.24. Listado de parámetros para realizar una llamada write en GNU/Linux . . . . . . 363 3.25. Listado de llamadas al sistema por el PID 2d82b0aa (recordatorio) . . . . . . . . 365 14 Listings 2.1. Ejemplo de un ataque Mimicry . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 2.2. Hola esto es una prueba aquí . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 3.1. Prototipo de función VirtualAlloc de la API Win32. . . . . . . . . . . . . . . . . 220 3.2. Prototipo de la función malloc para sistemas linux provista por el API de glibc. . 220 3.3. Prototipo de syscalls write (código 4) y kill (código 37) de sistemas GNU/linux . 221 3.4. Prototipo de la función NTCreateFile del kernel de Windows . . . . . . . . . . . 221 3.5. Ejemplo de programa en ensamblador . . . . . . . . . . . . . . . . . . . . . . . . 232 3.6. Ejemplo de la mejora con lenguaje C . . . . . . . . . . . . . . . . . . . . . . . . . 233 3.7. Macro para llamar a syscall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 3.8. Contenido de unistd.h los números de las syscalls . . . . . . . . . . . . . . . . . . 235 3.9. Denición de la IDT en linux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 3.10. Inicialización de la IDT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 3.11. Gestión de la interrupción 80 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237 3.12. Gestión de la llamada sysenter . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238 3.13. Prototipo de la función ptrace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 3.14. Ejemplo de un módulo básico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244 3.15. Función que obtiene la base del vector de syscalls . . . . . . . . . . . . . . . . . . 245 3.16. Ejemplo de la intercepción de la syscall Kill . . . . . . . . . . . . . . . . . . . . . 246 3.17. Líneas que son sobreescritas con un salto a la función. . . . . . . . . . . . . . . . 248 3.18. Shellcode a la que saltamos cuando se llama a la función. . . . . . . . . . . . . . 249 3.19. Ejemplo de la creación y destrucción de un dispositovo /proc. . . . . . . . . . . . 250 3.20. Código que permite saber el ejecutable padre del que proviene el proceso. . . . . 252 3.21. Utilizanción de int2Eh en Windows . . . . . . . . . . . . . . . . . . . . . . . . . . 259 3.22. Utilizanción de int2Eh en Windows . . . . . . . . . . . . . . . . . . . . . . . . . . 259 3.23. Denición de la clase hEvent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358 3.24. Ejemplo para obtener el Identicativo de la CPU en ensamblador sobre sistemas GNU/Linux en nomenclatura AT&T . . . . . . . . . . . . . . . . . . . . . . . . . 362 15 16 Capítulo 1 Introducción 17 Resumen Internet se ha convertido en los últimos tiempos en un hábitat peligroso. Cada día que pasa se desarrollan nuevas y cada vez más potentes herramientas destinadas a atacar sistemas de información y redes de comunicación de todo tipo, y miles de ordenadores en todos los puntos del planeta son asaltados diariamente. Desgraciadamente, aún no se ha encontrado una solución al problema si bien, dentro del área de conocimiento de la Detección de Intrusiones, el campo de la Detección de Anomalías se perla como un rme candidato, con grandes posibilidades de erigirse en la tecnología de seguridad de la información por excelencia, a medio plazo. Esta situación se acerca cada día más al usuario, conforme se avanza en la tecnología, el ser humano tiene a su disposición cada vez más elementos susceptibles de ser atacados. Actualmente ya se desarrollan sistemas de protección para dispositivos móviles por parte de grandes compañías, pero el problema del mundo de Internet tradicional se encuentra desplazado encima de un nuevo mercado: la portabilidad y el multiemplazamiento de los nuevos dispositivos. 1.1. El papel de la detección de Intrusiones en la Sociedad de la Información Hasta el momento, las investigaciones llevadas a cabo en el campo de la seguridad de la información respecto de la cuestión del asalto subversivo e ilegítimo a sistemas informáticos, no han aportado más que soluciones muy parciales al problema. En el momento de escribir estas líneas, la magnitud de esta cuestión es tal que prestigiosos observatorios y centros de respuesta temprana ante incidentes de seguridad, como pueden ser el Computer Emergency Response Team Coordination Center1 CERT[60], el Equipo de Seguridad para la Coordinación de Emergencias en Redes Telemáticas2 ESCERT [123], su homólogo IrisCERT [98], o el servicio Alerta-Antivirus 3 [23], se ven colapsados con cientos de miles de casos de intrusiones al año. De hecho, se ha llegado a un punto en el que los datos estadísticos que ofrecen periódicamente dejan de ser realmente signicativos. Figura 1.1: Ratio de plataformas PC compatible infectadas en el mundo Asimismo, otros grandes referentes como pueden ser las reconocidas listas de distribución 1 Puesto en marcha en 1.988 por iniciativa del Departamento de Defensa [109] estadounidense, a través de la Defense Advanced Research Project Agency [94], y en colaboración con la Carnegie Mellon University [70]. Su constitución, el día 17 de Noviembre de 1.988, fue llevada a cabo con carácter de urgencia a raíz del ataque informático perpetrado dos semanas antes por Robert Tappan Morris. Se estima que el mítico Gusano de Morris llegó a infectar alrededor del 10 % de los servidores que en aquel momento estaban conectados a Internet en el mundo [118]. El oscuro horizonte que se abría en un sector tan crítico como el informático hizo que el todopoderoso Departamento de Defensa decidiera acometer esta iniciativa para tratar de minimizar los efectos de crisis similares en el futuro. 2 Tanto esCERT como IrisCERT son dependientes de CERT/CC y tienen un ámbito de actuación circunscrito al territorio español. Actualmente, esCERT se encuentra ubicado en la Universidad Politécnica de Cataluña, mientras que IrisCERT está soportado por la iniciativa RedIris [178]. 3 Servicio provisto por la entidad pública empresarial Red.es [295], adscrita al Ministerio de Industria, Turismo y Comercio, a través de la Secretaría de Estado para las Telecomunicaciones y para la Sociedad de la Información. 2 Cuadro 1.1: Utilización de Internet en las diferentes regiones del globo sobre cuestiones de seguridad SecurityFocus BugTraq [132] o Full Disclosure [108], o los observatorios privados pertenecientes a los grandes fabricantes mundiales de soluciones de seguridad, como pueden ser Panda Software [324], Kaspersky [222] o Symantec [74], apuntan en la misma dirección. A modo de ejemplo, sirva la gura 1.1 para ilustrar la problemática de la seguridad en el mundo, según el Global Virus Observatory de Panda Software. De esta forma, la conclusión es clara: En una sociedad de la información cuya realidad depende cada vez más de la tecnología, como puede deducirse de las cifras de crecimiento del número de usuarios conectados a Internet [181, 103, 333, 359, 99], o de los diferentes estudios realizados al respecto por las grandes consultoras como Forrester [172] o Gartner [173], la seguridad de la información es un campo de las Ciencias de la Computación que aún presenta importantes deciencias. Deciencias que, además, inciden de forma extraordinariamente negativa en el uido desarrollo de actividades cruciales para una evolución tecnológica plena como son el movimiento de capitales en general y el comercio electrónico en particular. De estar resuelta la cuestión de la conabilidad en el uso de las tecnologías de la información y las comunicaciones, dichas actividades podrían llegar a altísimas cotas de progreso; tal y como se indica en la línea prioritaria de investigación Towards a Global Dependability and Security Framework del VI Programa Marco Europeo [72, 296], dentro del Espacio Europeo de Investigación. A este respecto, las tablas 1.1 y 1.2 ilustran de forma signicativa el crecimiento del número de usuarios a nivel mundial, según cifras de Internet World Stats [180, 179]. En la misma línea, las guras 1.2 y 1.3 ilustran el grado de utilización de Internet en la Unión Europea por parte de empresas y organizaciones, y usuarios particulares, respectivamente, según cifras de la European Statistical Data Support [333]. Existen ciertos países para los que no hay datos disponibles, y que lógicamente no aparecen en dichas guras. De forma análoga, pero ya en el ámbito nacional, la gura 1.4 ilustra el crecimiento del número de usuarios y los porcentajes de penetración de Internet en el territorio español, durante los cinco últimos años, según cifras de la consultora Tatum [99]. Por otro lado, en lo relativo a la creciente relevancia que está adquiriendo el comercio electrónico a nivel mundial, la tabla 1.3 representa las 3 Cuadro 1.2: Utilización de Internet en las diferentes regiones del globo Cuadro 1.3: Previsiones de crecimiento del Comercio Electrónico, según Forrester, IDC y eMarketer 4 Figura 1.2: Utilización de Internet por parte de empresas y organizaciones con sede en la UE Figura 1.3: Utilización de Internet por parte de individuos particulares residentes en la UE 5 Figura 1.4: Crecimiento del número de usuarios en el territorio español, en miles de usuarios previsiones realizadas por tres de las mayores rmas multinacionales de consultoría tecnológica, como son Forrester, IDC y eMarketer. Dichas previsiones están recogidas en el E-Commerce and Development Report que Naciones Unidas publica anualmente [268, 267]. De la misma forma, en la tabla 1.4 puede observarse la tendencia de crecimiento prevista para la Unión Europea, entre otras regiones del planeta, como son Latinoamérica, África, regiones en vías de desarrollo de Asia y Región del Pacíco y otras regiones en vías de desarrollo, y Norteamérica y otras regiones desarrolladas de Asia y Región del Pacíco [267]. Por último, en las guras 1.5 y 1.6 pueden observarse las últimas cifras publicadas por la Comisión del Mercado de las Telecomunicaciones [103], relativas a la situación del comercio electrónico en el territorio nacional. Por otro lado, en lo relativo a la problemática de la seguridad propiamente dicha, son especialmente signicativas las tendencias observadas por CERT/CC [59], así como por el Federal Bureau of Investigation [128] en colaboración con el Computer Security Institute [79] [129], y que están representadas en las guras 1.7 y 1.8. Dichos datos deben servir como botón de muestra del problema de la seguridad en los Estados Unidos de Norteamérica, si bien la situación en el resto del orbe es análoga, como se desprende de los estudios realizados por los miembros del prestigioso Honeynet Project [283]. Dicho proyecto tiene como objetivos la detección y análisis de comportamientos no documentados, y por lo tanto de alto riesgo, en la actividad subversiva de Internet, mediante el despliegue de una vasta red (Honeynet) de servidores señuelo o Honeypots4 . De esta forma, han llegado a observarse, por ejemplo, redes domésticas atacadas diariamente en más de treinta ocasiones, o casos de intrusión en dichos servidores señuelo a los quince minutos 4 Honeypot o Tarro de miel: Recurso informático cuyo valor reside en ser atacado, comprometido y analizado, con el objeto de descubrir nuevas formas de ataques informáticos; según la denición de su autor, Lance Spitzner [221]. Por su parte, el concepto Honeynet hace referencia, como es lógico, a una red de Honeypots. 6 Cuadro 1.4: Previsiones de crecimiento del Comercio Electrónico, según Forrester, IDC y eMarketer Figura 1.5: Evolución del comercio electrónico durante los últimos años (en Euros) 7 Figura 1.6: Evolución del comercio electrónico durante los últimos años (en número de transacciones) de su conexión a Internet [282, 202]. Como puede observarse en la gura 1.7, el crecimiento del número de incidentes de seguridad observados por CERT/CC desde su puesta en marcha, presentó hasta el año 2.003 un crecimiento exponencial, que ha terminado haciendo que los responsables máximos decidieran eliminar dicho parámetro de sus estudios anuales, para pasar a proporcionar conclusiones abstractas de mayor utilidad. De nada sirve conocer el número de víctimas; lo verdaderamente importante es concienciarse del problema de la seguridad y averiguar cómo evitar convertirse en una de ellas. De esta forma, a partir de 2.004, CERT/CC publica, en colaboración con el United States Secret Service [363] y la prestigiosa revista CSO Magazine [80], su E- Crime Watch Survey [265], del cual ya ha visto la luz su primera edición. En él pueden observarse datos alarmantes, como por ejemplo el 70 % de organizaciones estadounidenses encuestadas que registraron al menos un caso de intrusión en el último año, o los más de seiscientos sesenta millones de dólares de pérdidas económicas derivadas de actividad cracker5 que se estiman durante el mismo periodo de tiempo. En la misma línea, tal y como puede observarse en la gura 1.8, el informe que anualmente 5 Cracker: Someone who tries to break the security of, and gain access to, someone else's system without being invited to do so. Denición del RFC 2828 [288] del Internet Engineering Task Force [169]. Es un término confundido habitualmente con el de Hacker: Someone with a strong interest in computers, who enjoys learning about them and experimenting with them. En cualquier caso, las connotaciones delictivas que se han arrogado a este término están tan extendidas, que se admite en general su uso. 8 Figura 1.7: Evolución del número de incidentes de seguridad reportados anualmente por CERT/CC presentan FBI y CSI12 también revela datos escalofriantes sobre la cantidad de ataques informáticos que concluyen con éxito, si bien en este caso la tendencia que se advierte permite cierto margen para el optimismo, al menos a medio plazo. No obstante, a pesar de ello, la situación dista aún mucho de ser halagüeña, ya que más de la mitad (70 % en el año 2.000) de los organismos y grandes corporaciones estadounidenses encuestadas sufren anualmente al menos un caso de intrusión. Ademýs, existe un importante número de ellas (alrededor del 10 %) que ni siquiera es capaz de determinar con precisión si sus recursos computacionales y de comunicación son accedidos subversivamente o no. Asimismo, de los resultados obtenidos por el anteriormente mencionado Honeynet Project pueden obtenerse conclusiones similares: La seguridad informática se mantiene en niveles de alto riesgo y la actividad hacker crece desmesuradamente día a día, llegando a observarse crecimientos del número de ataques en torno al 890 % anual. Sin embargo, también se observa cierta mejora en las cifras de incidentes registrados, debido fundamentalmente a una creciente concienciación por parte de usuarios, administradores de sistemas y desarrolladores de aplicaciones del problema de la seguridad, así como a una mayor utilización de las tecnologías de seguridad disponibles. De esta forma, ha podido observarse un importante progreso, por ejemplo, en la esperanza de vida media de un servidor GNU/Linux conectado a Internet, que ha pasado de tan sólo 72 horas en el año 2.000, a tres meses en la actualidad [282]. Por otro lado, existe un importante factor a 9 Figura 1.8: Evolución del número de incidentes de seguridad reportados anualmente por FBI y CSI en su Computer Crime and Security Survey tener en cuenta a la hora de analizar estos datos de crecimiento de la actividad subversiva en la red, que es el nivel de preparación técnica que necesita el potencial intruso para atacar un determinado sistema informático; factor que inuye directamente en el orden de magnitud de la amenaza. Así pues, a medida que la sosticación, la potencia y la facilidad de uso de las herramientas de hacking crece, mayor es la población potencial de individuos susceptibles de convertirse en agentes propagadores de todo tipo de epidemias informáticas. En los orígenes del delito informático era habitual observar cómo los responsables de los incidentes de seguridad seguían un perl común en el que el elemento fundamental era su alto grado de preparación técnica y sus vastos conocimientos sobre el funcionamiento a bajo nivel de sistemas, redes y arquitecturas6 . Sin embargo, hoy día la situación ha cambiado y, si bien los desarrolladores últimos de herramientas, utilidades y técnicas de hacking siguen correspondiendo a ese perl de antaño, los usuarios habituales de las mismas se encuentran a gran distancia de aquéllos7 . De esta forma, la amenaza 6 Tradicionalmente se ha utilizado el término Blackhat Hacker para hacer referencia a este tipo de atacante de elite. 7 En la gura 1.9 se ilustra esta conclusión. Como puede observarse, cada vez es necesario un menor conocimiento técnico para orquestar un ataque mucho más potente y efectivo. De hecho, esta situación ha dado origen a una nueva especie de pirata informático: El Script Kiddie, caracterizado fundamentalmente por su baja preparación técnica y su carencia de objetivos concretos; características que lo hacen especialmente peligroso, dada la gran facilidad de uso de las nuevas herramientas de hacking y lo indiscriminado de sus acciones. 10 Figura 1.9: Relación entre el nivel de preparación del hacker y el grado de sosticación de sus ataques, según estudios realizados por CERT/CC general crece aceleradamente en nuestros días, y sólo es posible contener el número de incidentes de seguridad mediante la concienciación e interiorización del problema por parte de los usuarios, y mediante la utilización de las contramedidas adecuadas, en un proceso continuo de vigilancia tecnológica [58]. Además, no sólo es relevante la amenaza que constituye esa amplísima población de usuarios malintencionados, sino que también es necesario prestar especial atención a la ingente colección de malware8 en forma de virus9 , gusanos10 , caballos de Troya11 y demás, que prolifera por doquier. Las diferentes variantes de estos tipos de códigos malignos son capaces de lanzar los anteriormente mencionados ataques de forma automática, infectando y extendiendo el ataque a otros sistemas a gran velocidad12 , lo que incrementa en varios órdenes de magnitud su impacto 8 9 Malware: Malicious software o código maligno [220]. Virus: Hidden, self-replicating section of computer software, usually malicious logic, that propagates by infecting (i.e., inserting a copy of itself into and becoming part of ) another program. A virus cannot run by itself; it requires that its host program be run to make the virus active. Denición del SANS glossary of terms used in security and intrusion detection [177]. 10 18 Gusano o Worm: Computer program that can run independently, can propagate a complete working version of itself onto other hosts on a network, and may consume computer resources destructively. [177] 11 19 Caballo de Troya (Troyano) o Trojan horse: Computer program that appears to have a useful function, but also has a hidden and potentially malicious function that evades security mechanisms, sometimes by exploiting legitimate authorizations of a system entity that invokes the program. [177] 12 Staniford-Chen, Moore, Paxson y Weaver [332] calculan que un gusano de alta velocidad (Flash Worm) podría infectar el 95 % de una población de un millón de ordenadores vulnerables en 510 milisegundos, mediante tráco 11 potencial [332]. Un ejemplo interesante de este extremo puede ser el del lamentablemente popular gusano Slammer21, considerado el caso de malware autopropagable más rápido de la historia. Según los estudios realizados por David Moore, Vern Paxson et al. [253], dicho gusano llegaba a duplicar la población de ordenadores infectados cada ocho segundos y medio. Qué decir de lo absurdo de intentar enfrentarse manualmente a amenazas como el mencionado Slammer u otros históricos como el Witty [88], el Code Red [254], o el Nimda [53], por ejemplo. En la misma línea, las interesantes cifras publicadas por CERT/CC para el año 2.002, en el cual se registraron un total de 5.500 vulnerabilidades13 en software de todo tipo, se hacían eco de esta cuestión y revelaban, además, lo inabordable del problema no ya de la respuesta ante este tipo de ataques, sino incluso simplemente de una cuestión tan trivial como la administración de las actualizaciones de seguridad del software por el operador humano. De hecho, se estimaba en 298 días de trabajo al año el esfuerzo que necesitaría un eciente administrador de sistemas solamente para leer las descripciones de dichas vulnerabilidades y descargar y aplicar los parches o hotxes correspondientes [58]. De esta forma, a raíz de esta problemática situación, surge inmediatamente y de forma natural una conclusión lógica: Es necesario responder ante estos avasalladores ataques con mecanismos tan automatizados o más que los del atacante, ya sea éste un intruso real o virtual, para poder contrarrestar ecazmente su abrumador poder ofensivo; necesidad esta que se ha visto parcialmente satisfecha en los últimos tiempos gracias a la aparición y al continuo desarrollo del área de conocimiento conocida como Detección de Intrusiones. Dicha área de conocimiento se ve materializada actualmente en los denominados Sistemas de Detección y Prevención de Intrusiones, y cuenta ya con investigaciones sólidas y de reputada solvencia que incluso han evolucionado hacia productos comerciales ampliamente extendidos. Sin embargo, los modelos de funcionamiento que se han venido explorando con mayor intensidad parecen haber tocado techo, y se hace necesario prestar una mayor atención a otras líneas de investigación, como puede ser la Detección de Anomalías. De esta forma, será posible tratar ciertas cuestiones que hasta ahora han pasado desapercibidas y que pueden resolver las deciencias que tradicionalmente han venido presentando dichos modelos [340, 297, 28, 15, 84]. Así, con el objetivo de cubrir esta necesidad y dar un paso más allá en el Área de la Detección de Intrusiones se ha planteado y llevado a cabo el presente desarrollo. 1.2. El papel innovador de la Detección de Intrusiones para dispositivos móviles Expertos en seguridad de todo el mundo alertan sobre el crecimiento extraordinario de virus, gusanos y troyanos que han encontrado en los terminales de telefonía móvil un nuevo objetivo UDP. En el caso de utilizar tráco TCP serían necesarios 1,3 segundos. 13 Vulnerabilidad o Vulnerability: A aw or weakness in a system's design, implementation, or operation and management that could be exploited to violate the system's security policy. [288] 12 a atacar, y sólo es cuestión de tiempo que alcancen las cifras de pérdidas económicas de sus homólogos cableados, según arman especialistas como Aaron Davidson, Chief Executive Ocer de SimWorks International, uno de los grandes fabricantes mundiales de servicios móviles, Bruce Hughes, investigador de la compañía TruSecure, o Norman Bennett, Gerente General de Symantec Corporation; dos de los grandes fabricantes de soluciones de seguridad. Así pues, son muchos los fraudes que puede perpetrar esta nueva generación de ataques informáticos, y contra los que actualmente no existen soluciones de seguridad, con la honrosa excepción de dos embrionarias herramientas antivirus como son F-Secure Mobile y Kaspersky, que aún tienen un marcado carácter experimental. De esta forma, un hacker puede infectar el móvil de un usuario mediante un código malicioso (malware) que realice arbitrariamente establecimientos de llamadas (con las consiguientes pérdidas económicas), envíos masivos de SMS, MMS, etc. (el denominado robo de servicio), o incluso espionaje de la información sensible (datos privados, información bancaria, claves de acceso, etc.) almacenada en la memoria de dicho terminal. Asimismo, es posible la automatización de estos ataques, lo que ha dado origen a una nueva generación de gusanos auto-propagables, que pueden reenviarse, por ejemplo, a la lista de contactos; aunque, a través de protocolos wireless como Bluetooth u 802.11a/b/g [Wi-Fi], ni siquiera es necesario este pequeño conocimiento previo de las víctimas (Overview de vulnerabilidades de Securityfocus). Por otro lado, y entrando en un área tecnológica también en creciente expansión, cada vez son más los dispositivos y soluciones domóticas y de inteligencia ambiental (Ambiental Intelligence, AmI) que abogan por la utilización de tecnologías y protocolos móviles para resolver sus requisitos de interoperabilidad y conectividad, por lo que, en caso de intrusión, no sólo quedaría en compromiso el teléfono del usuario, sino toda su red doméstica. Por último, también son posibles ataques de denegación de servicio [DoS] que inutilicen un teléfono o dispositivo, o que saturen hasta la inoperancia el ancho de banda de la red telefónica. En este ámbito, existe un terminal especialmente amenazado: El teléfono con soporte lógico de aplicaciones basado en Sistema Operativo, como Windows Mobile, o Symbian. Estos móviles tienen conectividad total con Internet, funcionan como mini-ordenadores, y pueden alojar programas (que perfectamente pueden ser subversivos) como cualquier PC; de forma que heredan automáticamente las problemáticas de seguridad que tradicionalmente han venido sufriendo éstos. Además, según varias consultoras tecnológicas como Gartner, Nielsen-NetRatings o IDC, el crecimiento en el número de ventas de estos dispositivos que se espera es extraordinario. Por ejemplo, según la rma IDC, el número de estos aparatos vendidos en 2008 puede superar los 130 millones de unidades, un 15 % del parque mundial. Según ARC Group, en 2004 se vendieron 27 millones de unidades, casi el 5 % del total de móviles vendidos en todo el mundo. Las cifras de la rma británica Canalys, que tratan los dos grandes tipos de terminales: los de voz (móviles sincronizables con PC y Smartphones con posibilidad de cargar aplicaciones) y los de datos 13 (Handhelds o PDAs, con o sin conexión inalámbrica a redes); muestran crecimientos de hasta un 101 % en el caso de los teléfonos móviles y de un 5 % en el caso de los PDA. Asimismo, el fabricante PalmOne (líder del mercado) obtuvo unas ventas de 1.503.590 equipos en el último cuarto de 2004, un 8 % más que en 2003, e incrementó un 154 % las ventas de sus conocidos terminales Treo. Por otro lado, según cifras de IDC, cada semana se venden en todo el mundo alrededor de tres millones de dispositivos con tecnología inalámbrica Bluetooth (especialmente sensible a manipulaciones subversivas), incluyendo no sólo teléfonos móviles, sino también componentes de automoción, dispositivos domóticos, accesorios informáticos, etcétera, etcétera, y se preveía para 2008 un parque de unos 922 millones de unidades en todo el mundo. También es importante, ya en un ámbito más local, el crecimiento de líneas UMTS que se espera en el estado: Según el consejero delegado de Telefónica Móviles, Javier Aguilera, "Esperamos que en 2005 haya más de un millón de líneas". A lo que hay que añadir, además del crecimiento del mercado mundial, los más de 300 millones de Euros que preveía invertir Amena, y los 1700 de Telefónica Movistar. Por otro lado, según consultoras como Tatum o Nielsen-NetRatings, u organizaciones como la International Telecommunication Union (ITU), el previsible aumento de transacciones económicas realizadas a través de móviles es susceptible de convertirse en el principal motor del malware móvil, al igual que ocurrió con el auge del e-business en el mundo. Los distintos tipos de gusanos, virus y demás, permitirán el acceso a contraseñas, información bancaria o datos corporativos de millones de clientes que comienzan realmente a usar el móvil para realizar compras y operaciones nancieras, sobre todo en Europa y Japón. Se estima que en 2004 más de cuatro millones de personas usaron el teléfono móvil en el estado para pagar sus compras, según cifras de la Comisión del Mercado de las Telecomunicaciones. Por último, también es importante prestar atención al impacto que ESIDE-Mendizale puede producir en el tejido empresarial vasco, siendo dos las incidencias positivas se detectan a priori: Por un lado, este proyecto y los estudios sobre los que se basa pueden servir como base para el desarrollo de un producto de calidad de protección de terminales móviles, precisamente en un momento en el que la coyuntura mundial y local es muy favorable. Qué decir tiene que un fabricante de soluciones de seguridad como Panda Software (recientemente galardonada con el premio "Con mucho gusto" del Departamento de Industria, Comercio y Turismo del Gobierno Vasco), una las grandes empresas fabricantes de soluciones de seguridad informática a nivel mundial, y con la que la Facultad de Ingeniería - ESIDE mantiene unas estrechas relaciones, adquiriría una considerable ventaja competitiva a raíz de este estudio, adelantándose a aquellos competidores que aún no han contemplado la cuestión móvil entre sus prioridades. Por otro lado, la cuestión de la seguridad es un problema cada vez más acuciante para organizaciones y empresas que cada vez más hacen uso de soluciones de movilidad para proporcionar mayor exibilidad a sus procesos de negocio, y aunque existen herramientas que aportan cierta seguridad, se está aún muy lejos de una solución denitiva. 14 Este proyecto puede sentar las bases para el desarrollo de una arquitectura de seguridad robusta, exible y económica, que reduzca las pérdidas por hacking móvil a su mínima expresión. Además, este proyecto está orientado a servir como solución a un problema ampliamente extendido en empresas, organizaciones y usuarios particulares con todo tipo de perles, por lo que su área potencial de implantación es muy amplia. Así pues, ante un considerable volumen de actividad, es posible plantear una línea de servicio en un operador de telefonía como puede ser Euskaltel (con quien la Facultad de Ingeniería ESIDE mantiene unas estrechas relaciones), que se vería en situación de poder ofrecer un servicio de seguridad diferenciador y de valor añadido a sus clientes. Realmente los benecios que se conseguirían gracias a la reducción drástica de las pérdidas económicas debidas al acceso ilegítimo de intrusos a los recursos móviles de empresas y particulares, podrían llegar a ser muy importantes a medio plazo. Para nalizar, también es interesante tener en cuenta los benecios que podría reportar ESIDE-Mendizale a aquellas empresas que emplean a los alumnos del Máster en Seguridad de la Información que se desarrolla en la Facultad de Ingeniería - ESIDE. Dicho Máster en Seguridad de la Información acoge todos los años a un buen número de alumnos, que posteriormente incorporan los conocimientos adquiridos a su trabajo cotidiano en empresas como Panda Software, Euskaltel, IT-Deusto, Vodafone o Telefónica Movistar. A este respecto, tal y como se ha hecho con los resultados del proyecto ESIDE-Depian (subvencionado por Diputación Foral de Bizkaia a través de del programa Bizkaitek 2004) se pretende incluir en el módulo relativo a técnicas IDS/IPS un epígrafe con resultados y conclusiones obtenidas en el proyecto, lo que redundará aún más en la difusión de los mismos. 1.3. Conceptos Fundamentales Es importante presentar algunos conceptos básicos, sobre los cuales está basada la presente memoria de proyecto. En primer lugar se denen algunos conceptos fundamentales de Seguridad de la Información, y a continuación se pasa a denir conceptos básicos de Detección de Intrusiones. 1.3.1. Conceptos Fundamentales de la Seguridad de la Información A pesar de que en el Área de la Seguridad de la Información no existe un acuerdo universal sobre el propio concepto de Seguridad, una denición plausible puede ser la que proporciona el RFC2828 [288]: Denición 1.1, Seguridad: (1) Measures taken to protect a system. (2) The condition of a system that results from the establishment and maintenance of measures to protect the system. (3) The condition of system resources being free from unauthorized access and from 15 unauthorized or accidental change, destruction, or loss.14 La cual da paso de forma natural al siguiente concepto: Denición 1.2, Seguridad de la Información: The protection of data from disclosure, alteration, destruction, or loss that either is accidental or is intentional but unauthorized. 15 No obstante, es posible obtener una denición más representativa del concepto a partir de la evolución que ha sufrido el mismo hasta nuestros días. En un primer momento el área de conocimiento de la Seguridad de la Información tenía como objetivo fundamental la protección de dicha información contra accesos no autorizados; es decir, ser garante de la condencialidad de la misma. Sin embargo, con la proliferación de redes de comunicación como Internet, y el alto grado de conectividad que proporcionan, además, apareció la necesidad de proteger esa misma información contra modicaciones o alteraciones no autorizadas. Surgió de esa forma un segundo objetivo: Era necesario garantizar también la integridad de la información. Además, dichas redes de comunicación también propiciaban cierto tipo de agresiones, conocidas como ataques de denegación de servicio16 , que imposibilitaban el legítimo acceso a la información, simplemente saturando el sistema informático hasta la inoperancia; de forma que fue necesario incorporar a la denición de Seguridad de la Información el concepto de disponibilidad para incluir esta cuestión. Finalmente, con el extraordinario desarrollo que han venido presentando las transacciones económicas electrónicas, han aparecido dos nuevas problemáticas. Por un lado, es necesario prestar especial atención a la cuestión de la autenticación de las partes implicadas en dichas transacciones. Además, también es perentorio garantizar la responsabilidad de las acciones tomadas por dichas partes. No puede darse la posibilidad de que los hechos de una de las entidades implicadas en una transacción, sean repudiados por dicha entidad. De esta forma, podemos encontrar una excelente denición de Seguridad de la Información en la conferencia que pronunció Danniel G. Wolf [139], Information Assurance Director de la National Security Agency [262], en el Federal Information Security Reform Act 2.002, la cual se incluye a continuación, adaptada por cuestión de espacio17 : Denición 1.3, Seguridad de la Información: The condition of a system that results from the establishment and maintenance of measures that assure information condentiality and 14 Como puede observarse, el RFC2828 proporciona tres deniciones, cada una de las cuales adquiere un mayor nivel de concreción respecto a las precedentes: (1) Conjunto de medidas utilizadas para proteger un sistema. (2) Estado de un sistema que resulta del establecimiento y mantenimiento de medidas de protección para dicho sistema. (3) Estado en el que los recursos de un sistema se encuentran libres del peligro de ser accedidos, modicados, destruidos o dañados sin autorización. 15 Protección de los datos contra la divulgación, alteración, destrucción o menoscabo, ya sean éstas accidentales, o intencionadas pero no autorizadas. 16 Denegación de servicio o Denial of Service: The prevention of authorized access to a system resource or the delaying of system operations and functions. [288] 17 Lindqvist introduce idénticas reexiones en la denición de Seguridad de la Información que propone en su tesis doctoral [358]. 16 integrity, availability, authenticity and non-repudiation in computer and communication systems.18 De hecho, Wolf va más allá del concepto tradicional e incluye las cuestiones de la detección de intrusiones y la respuesta automática ante ellas como parte fundamental de la protección de la información; tal es la importancia que está alcanzando este campo en el área de la Seguridad de la Información: Denición de Wolf, Seguridad de la Información: In an age of constant probes and attacks of on-line networks, however, an increasingly important element of protection deals with operational responsiveness in terms of detecting and reacting to these time-sensitive events. 19 Una vez desarrollado el concepto fundamental, existe toda una colección de términos a su alrededor, los cuales pueden consultarse en la abundante bibliografía al respecto [127, 177, 151, 352, 288][OSSTMM03]. A continuación, se incluyen los más importantes y sobre los que está basada la anterior denición de Seguridad de la Información [288]: Denición 1.4, Condencialidad: The property that information is not made available or disclosed to unauthorized individuals, entities, or processes; i.e., to any unauthorized system entity.20 Denición 1.5, Integridad: The property that data has not been changed, destroyed, or lost in an unauthorized or accidental manner.21 Denición 1.6, Disponibilidad: The property of a system or a system resource being accessible and usable upon demand by an authorized system entity, according to performance specications for the system; i.e., a system is available if it provides services according to the system design whenever users request them.22 Denición 1.7, Autenticidad: The property of being genuine and able to be veried and be trusted.23 18 Estado de un sistema que resulta del establecimiento y mantenimiento de medidas de seguridad que aseguran la condencialidad e integridad de la información, así como disponibilidad, autenticidad y no repudio en sistemas de computación y de comunicaciones. 19 En una época de constantes rastreos y ataques contra redes de comunicación, un aspecto de seguridad cada vez más importante es el de presentar una respuesta operativa, en términos de detectar y reaccionar ante esos eventos que se producen en tiempo real. 20 Propiedad por la cual la información no se hace disponible ni se divulga a individuos, entidades o procesos no autorizados; esto es, a cualquier entidad del sistema. 21 22 Propiedad por la cual los datos no se modican, destruyen o dañan, de forma no autorizada o accidental. Propiedad de un sistema o de un recurso de sistema de ser utilizable ante la demanda de una entidad de sistema autorizada, de acuerdo con las especicaciones de rendimiento de dicho sistema; esto es, un sistema es disponible si proporciona sus servicios de acuerdo a su diseño en cualquier momento en el que los usuarios lo soliciten. 23 Propiedad de ser genuino y hábil para ser vericado y recibir conanza. 17 Denial by a system entity that was involved in an association Denición 1.8, Repudio: (especially an association that transfers information) of having participated in the relationship.24 1.3.2. Conceptos de Detección de Intrusiones A continuación se describen los términos fundamentales de Detección de Intrusiones sobre los cuales está basado el presente trabajo de investigación, y que se utilizarán frecuentemente a lo largo de esta memoria [288]: Denición 1.9, Ataque: An assault on system security that derives from an intelligent threat, i.e., an intelligent act that is a deliberate attempt (especially in the sense of a method or technique) to evade security services and violate the security policy of a system.25 Denición 1.10, Intruso: An entity that gains or attempts to gain access to a system or system resource without having authorization to do so.26 Denición 1.11, Intrusión: A security event, or a combination of multiple security events, that constitutes a security incident in which an intruder gains, or attempts to gain, access to a system (or system resource) without having authorization to do so.27 Respecto a la denición de Intrusión, también es interesante prestar atención a la propuesta por Zamboni [92], en la cual se relaciona explícitamente la intencionalidad de la denición de Shirey con los conceptos de Seguridad de la Información descritos anteriormente: Denición 1.12, Intrusión: Any set of actions that attempt to compromise the integrity, condentiality, or availability of a computer resource.28 29 24 Negativa de una entidad de sistema de haber estado involucrada en una asociación (especialmente en una asociación que implique transferencia de información) o de haber participado en dicha relación. 25 Asalto a la seguridad de un sistema que tiene su origen en una amenaza inteligente; esto es, un acto intelectual que debe considerarse como un deliberado intento (especialmente en la medida en que se utiliza un método o una técnica) de evadir los servicios de seguridad y violar la política de seguridad de dicho sistema. 26 Entidad que consigue o intenta conseguir acceso a un sistema o recurso de sistema sin tener autorización para hacerlo. 27 Evento de seguridad, o combinación de múltiples eventos de seguridad, que constituye un incidente de segu- ridad en el cual un intruso consigue, o intenta conseguir, acceso a un sistema (o recurso de sistema) sin tener autorización para hacerlo. 28 Cualquier conjunto de acciones que intente poner en compromiso la integridad, condencialidad o disponibi- lidad de un recurso computacional. 29 Como puede observarse, la denición de Zamboni no incluye los conceptos de Wolf de autenticidad y no repudio. A pesar de que esa primera denición es menos exhaustiva, es la que aparece de forma generalizada en la bibliografía. 18 Denición 1.13, Detección de Intrusiones: A security service that monitors and analyzes system events for the purpose of nding, and providing real-time or near real-time warning of, attempts to access system resources in an unauthorized manner.30 A pesar de que la denición de Detección de Intrusiones proporcionada por el RFC2828 es completa y perfectamente contrastada, existen algunas cuestiones que no se abordan completamente. Por ello, es interesante prestar atención a otras alternativas, entre las cuales se encuentra la excelente denición de Rebecca Bace [28], que se incluye a continuación: Denición 1.14, Detección de Intrusiones: Intrusion detection is the process of monitoring the events occurring in a computer system or network and analyzing them for signs of intrusions, dened as attempts to compromise the condentiality, integrity, availability, or to bypass the security mechanisms of a computer or network. Intrusions are caused by attackers accessing the systems from the Internet, authorized users of the systems who attempt to gain additional privileges for which they are not authorized, and authorized users who misuse the privileges given them. Intrusion Detection Systems (IDSs) are software or hardware products that automate this monitoring and analysis process. 31 Por otro lado, también es interesante observar la denición que proporciona el Instituto SANS [177], ya que introduce una primera clasicación de Sistemas de Detección de Intrusiones, en función del origen de los ataques a detectar: Denición 1.15, Detección de Intrusiones: Security management system for computers and networks. An Intrusion Detection System gathers and analyzes information from various areas within a computer or a network to identify possible security breaches, which include both intrusions (attacks from outside the organization) and misuse (attacks from within the organization). 32 De forma natural, esta denición de la expresión Detección de Intrusiones, como término genérico que da nombre a un área de conocimiento, introduce el concepto Sistema de Detección 30 Servicio de seguridad que monitoriza y analiza los eventos del sistema con el propósito de encontrar intentos de acceso a recursos de sistema de forma no autorizada, y proporcionar aviso en tiempo real (o cerca del tiempo real) sobre ellos. 31 Detección de Intrusiones es el proceso de monitorizar los eventos que se dan en un sistema de computación o en una red de comunicaciones, y analizarlos en busca de signos de intrusión; denidos éstos como intentos de poner en compromiso la condencialidad, integridad o disponibilidad, o de evadir los mecanismos de seguridad de dicho sistema o red. Dichas intrusiones son causadas por atacantes que consiguen acceder a sistemas desde Internet, por usuarios autorizados de dichos sistemas que intentan obtener privilegios adicionales para los cuales no están autorizados, o por usuarios autorizados que hacen un mal uso de los privilegios que se les han otorgado. Por otro lado, los Sistemas de Detección de Intrusiones (IDS) son productos software o hardware que automatizan este proceso de monitorización y análisis. 32 Sistema de gestión de la seguridad para computadores y redes. Un Sistema de Detección de Intrusiones recoge y analiza información de diferentes áreas dentro de dicho computador o red, con el objetivo de identicar posibles brechas de seguridad, entre las cuales se incluyen tanto intrusiones (ataques provenientes del exterior de la organización) como usos indebidos (ataques provenientes del interior de dicha organización). 19 de Intrusiones, como realización instrumental del mismo. Bace ya daba paso a esta cuestión en la denición anterior, si bien existen otras que tratan especícamente dicho concepto, como por ejemplo la que da Zamboni en su tesis doctoral: Denición 1.16, Sistema de Detección de Intrusiones: A computer system (possibly a combination of software and hardware) that attempts to perform intrusion detection.33 Por último, existe un concepto que adquiere especial relevancia en el presente trabajo de investigación, ya que es la piedra angular sobre la cual se ha desarrollado el mismo, y que se denomina Detección de Anomalías. El exhaustivo documento recopilatorio de Julia Allen [15] recoge una excelente denición, si bien es un concepto que se desarrollará en profundidad posteriormente: Denición 1.17, Sistema de Detección de Anomalías: Analysis method that identies any unacceptable deviation from expected behavior. Expected behavior is dened, in advance, by a manually developed proleor by an automatically developed prole. An automatically developed prole is created by software that collects and processes characteristics of system behavior over time and forms a statistically valid sample of such behavior. Note that unexpected behavior is not necessarily an attack; it may represent new, legitimate behavior that needs to be added to the category of expected behavior. 34 1.3.3. Modelo general de funcionamiento Desde la aparición de la Detección de Intrusiones a principios de la década de los ochenta [20] y hasta nuestros días, los diferentes enfoques propuestos han venido manteniendo, a pesar de sus lógicas particularidades, un esquema de funcionamiento común. Por lo general, las responsabilidades de todo Sistema de Detección de Intrusiones son la captura de datos del sistema de información, el análisis de dichos datos en el intento de detectar algún tipo de actividad subversiva a partir de ellos, y el proporcionar una respuesta ante aquellas situaciones susceptibles de comprometer la seguridad del sistema. De esta forma, un primer modelo general de funcionamiento quedará compuesto por estos tres pilares fundamentales: Recogida de información, Análisis y Respuesta [116, 351, 17, 28, 334, 26, 100, 204, 84, 216, 154]. La gura 1.10 describe dicho modelo general. 33 Sistema de computación (posiblemente combinación de software y hardware) que intenta llevar a cabo la tarea de detectar intrusiones. 34 Método de análisis que identica cualquier desviación inaceptable respecto del comportamiento esperado. Dicho comportamiento se dene, a priori, mediante un perl que puede construirse manual o automáticamente. Un perl construido automáticamente se realiza mediante un software que recoge y procesa características del comportamiento del sistema a lo largo del tiempo, y que produce un modelo estadístico de dicho comportamiento. Es interesante observar que un comportamiento no esperado no es necesariamente un ataque; simplemente puede representar nuevo y legítimo comportamiento que necesitará ser incorporado a la categoría de comportamiento esperado. 20 Figura 1.10: Modelo General de Funcionamiento Como puede observarse, las tres fases de este modelo se llevan a cabo de forma secuencial y por lo general ininterrumpida, ya que la mayoría de Sistemas de Detección de Intrusiones se plantean el objetivo de responder ante los diferentes eventos del sistema en tiempo real [255]. Por otro lado, esta división en fases del modelo general, introduce una categorización de los diferentes tipos de Sistemas de Detección de Intrusiones, en función de la losofía de diseño que se sigue en cada una de ellas. De esta manera, existen diferentes tipos de Sistemas de Detección de Intrusiones dependiendo de la fuente de información utilizada durante el proceso de recogida de información, dependiendo de la losofía de análisis que se sigue a la hora de determinar si un determinado comportamiento es legítimo o subversivo, y en función también del tipo de respuesta que se proporciona. Así pues, existen dos fuentes de información fundamentales, que introducen una primera categorización. El objetivo fundamental de la fase de recogida de información es obtener y registrar todo aquel dato que sea susceptible de haber tenido cualquier tipo de relación con las acciones de los usuarios del sistema. A continuación, a partir de esos datos, la fase de análisis deberá decidir qué comportamientos están justicados y cuáles no, y por último la fase de respuesta actuará en consecuencia. Para ello, en todo sistema informático, existen dos lugares fundamentales de los cuales es posible extraer este tipo de información [116, 205, 340, 336, 240, 26, 100, 204]. Por un lado, las acciones de todo usuario quedan registradas por el servicio de auditoría del Sistema Operativo o por los registros históricos de los servicios de aplicación que corren en una determinada máquina35 , de forma que ésta se convierte precisamente en el primer punto natural del cual obtener información para el proceso de análisis. Esta ubicación da origen a los denominados Sistemas de Detección de Intrusiones orientados a la Máquina, e introduce la siguiente denición [177]: Denición 1.18, Sistema de Detección de Intrusiones orientado a la Máquina (Host Intrusion Detection System): 35 Intrusion detection systems that use information from the Algunas fuentes [351, 92, 28, 15, 84, 50] consideran que esta forma de recogida de información constituye por sí misma una tercera categoría de Sistema de Detección de Intrusiones. 21 operating system audit records to watch all operations occurring on the host that the intrusion detection software has been installed upon.36 [...] Por otro lado, dado el extraordinario grado de conectividad que presentan hoy en día los sistemas de información [58], es difícil que se dé el caso de un intruso que acceda físicamente a su víctima, y sin embargo es mucho más probable que su asalto se realice a través de algún tipo de red de comunicación. De esta forma, el tráco de red se convierte en el medio de transporte habitual de las órdenes que dicho intruso envía hacia el sistema atacado, y por lo tanto en el segundo punto lógico de captura de información. Análogamente al caso anterior, esta ubicación da origen a los denominados Sistemas de Detección de Intrusiones orientados a la Red, e introduce su correspondiente denición [177]: Denición 1.19, Sistema de Detección de Intrusiones orientado a la Red (Network Intrusion Detection System): Intrusion Detection System that monitors the trac on its network segment as a data source.37 [...] Cada uno de estos enfoques presenta sus particularidades, sus ventajas, sus capacidades, sus inconvenientes y sus limitaciones; aspectos todos ellos que serán tratados en profundidad más adelante. En general, los sistemas orientados a la máquina consiguen una mayor precisión en la decisión de análisis, a costa de circunscribir su ámbito de actuación al sistema que protegen [336, 240]. Asimismo, dependen enormemente de la plataforma software sobre la cual operan. Por su parte, los sistemas orientados a la red son capaces de salvaguardar por sí mismos redes enteras de ordenadores, si bien no tienen la precisión de los anteriores y no resuelven por lo general ciertos problemas, como el análisis de tráco de red cifrado [17, 28, 15, 26]. Por otro lado, la fase de análisis también presenta una clara dicotomía38 , en función del método de análisis que se emplea [116, 351, 17, 28, 388, 100, 204, 84, 216]. Por un lado, es habitual utilizar técnicas de Inteligencia Articial basadas en reconocimiento de patrones39 , para representar todo el conocimiento de que se dispone sobre la actividad subversiva que se pretende detectar. Así, es posible construir una lista negra40 que incluye todos los comportamientos maliciosos conocidos hasta el momento, para a continuación pasar a contrastar la actividad cotidiana de los usuarios del sistema con dicha lista. Esta losofía de detección se denomina Detección de Usos Indebidos o Detección basada en Conocimiento41 , y se caracteriza por su elevada precisión a la hora de decidir la legitimidad 36 Sistema de Detección de Intrusiones que usa información del registro de auditoría del sistema operativo para observar todas las operaciones que tienen lugar en la máquina en la que está instalado el software de detección de intrusiones. 37 38 Sistema de Detección de Intrusiones que monitoriza el tráco de su segmento de red como fuente de datos. Algunas fuentes establecen una tercera categoría, denominada Detección de Anomalías de Protocolo [Go- lomb03, Das01, Axelsson00]. 39 Reconocimiento de patrones o pattern matching. En el área de la Detección de Intrusiones también se utiliza habitualmente el concepto de rma o signature. 40 Lista negra o blacklist. 41 Detección basada en Conocimiento o Knowledge-based Detection. 22 de una determinada acción. Sin embargo, adolece de ciertos problemas, entre los cuales el más relevante es su absoluta falta de respuesta ante ataques aún no documentados. Un intruso puede construir una ligera variante de un ataque clásico, o por supuesto un ataque completamente nuevo, y evadir así la vigilancia del Sistema de Detección de Intrusiones. Rebecca Bace y Peter Mell proponen una buena denición [28]: Denición 1.20, Detección de Usos Indebidos (Misuse Detection): Detection method that analyzes system activity, looking for events or sets of events that match a predened pattern of events that describe a known attack.42 [...] Otro método de detección, que precisamente trata de ir más allá de las limitaciones inherentes a los métodos de Detección de Usos Indebidos, y conseguir que los Sistemas de Detección de Intrusiones puedan responder ante ataques novedosos43 , no documentados, es la Detección de Anomalías o Detección basada en Comportamiento44 . Esta losofía de detección también está basada en técnicas de Inteligencia Articial, pero plantea una forma de análisis complementaria a la anterior. En lugar de utilizar el conocimiento subversivo conocido para llevar a cabo el proceso de decisión, utiliza el conocimiento legítimo45 . De esta forma, a partir de las acciones habituales de los usuarios, se construye un perl de comportamiento que posteriormente es contrastado con la actividad cotidiana que se registra durante la explotación normal del sistema. Así, es posible detectar acciones que se salen de la forma de proceder habitual de dichos usuarios; acciones entre las cuales se encuentran los novedosos modos de ataque mencionados anteriormente. A este respecto, es importante destacar el hecho de que con este modo de operación se consigue que el proceso de detección sea completo [100]; característica de la que adolecen los sistemas de Detección de Usos Indebidos. Además de la denición enunciada por Julia Allen e incluida en el apartado anterior, existe otra precisa alternativa, propuesta también por Bace y Mell [28]: Denición 1.21, Detección de Anomalías (Anomaly Detection): Detection method that identies abnormal unusual behavior (anomalies) on a host or network.46 [...] Este enfoque proporciona capacidad de respuesta ante los peligrosos Zero-Day Attacks y llega más allá de las habilidades propias de los Sistemas de Detección de Usos Indebidos. No obstante, también presenta un importante inconveniente: Un nuevo elemento o componente en el sistema introduce de forma natural nueva actividad, la cual no deja de ser legítima y, sin 42 Método de detección que analiza la actividad del sistema, en busca de eventos o conjuntos de eventos que concuerden con un patrón de eventos predenido que describe un ataque conocido. 43 Conocidos como zero-day attacks, en contraposición con los anteriormente mencionados ataques conocidos o well-known attacks. 44 45 46 Detección basada en Comportamiento o Behaviour-based Detection. En este caso se está usando política de lista blanca o whitelist. Método de detección que identica comportamiento inusual o anormal (anómalo) en una máquina o en una red. 23 embargo, es calicada por el sistema de detección como subversiva [15, 26]. Esta cuestión obliga a una actualización continua del perl de comportamiento, y hace que el sistema presente una indeseada característica conocida como falso positivo47 48 49 . Una buena denición es la que proponen Ptacek y Newsham [385]: Denición 1.22, Falso Positivo (False Positive): An event, incorrectly identied by the Intrusion Detection System as being an intrusion when none has occurred.50 Asimismo, Ptacek y Newsham también proponen la correspondiente denición del concepto complementario: el falso negativo. Denición 1.23, Falso Negativo (False Negative): An event that the Intrusion Detection System fails to identify as an intrusion when one has in fact occurred.51 Existe una gran colección de estudios realizados en el área de la Detección de Anomalías [116, 227, 26, 50], si bien aún no se ha conseguido un modelo que consiga integrar todos los benecios que teóricamente caracterizan a este tipo de enfoques [165]. La práctica totalidad de productos comerciales aún no se ha decido por ella, y se siguen utilizando modelos basados en Detección de Usos Indebidos [116, 351, 205, 78, 28, 204, 49], debido fundamentalmente a que su ecacia aún es discutida y al mencionado problema de los falsos positivos [116, 28]. Por último, la fase de respuesta, que tradicionalmente ha mantenido una única losofía de funcionamiento, también ha visto aparecer en los últimos tiempos un nuevo enfoque. De esta forma, al clásico método de respuesta pasivo consistente en la simple noticación de eventos de alarma al administrador, se suma la posibilidad de llevar a cabo una reacción activa, como puede ser la reconguración del entorno de la víctima para aislarla del agresor. Asimismo, también es posible activar la recogida detallada de información, de cara a la toma de las pertinentes acciones legales, o pasar directamente al contraataque [28]. Además, actualmente, la tendencia consiste en hacer que esta reacción suponga el ltrado de las acciones del usuario, para lo cual el Sistema de Detección de Intrusiones debe ubicarse en un punto del sistema en el que sea posible interceptar las órdenes de dicho usuario. De este modo, es posible analizar dichas órdenes antes de ser enviadas nalmente al sistema para su ejecución. 47 Falso positivo o falsa alarma. Un Sistema de Detección de Intrusiones basado en Detección de Anomalías con una conguración deciente puede saturar de falsos positivos al administrador de dicho sistema, incapacitándole incluso para responder ante los verdaderos ataques [Newman+02]. 48 Se estima que es bastante común obtener ratios de alrededor de diez falsos positivos por cada alarma real [78]. 49 En contraposición con el fenómeno del falso positivo, se encuentra el denominado falso negativo. Esta cuestión es incluso más preocupante que la anterior, ya que es fruto de la falta de reacción del sistema de detección ante un cierto ataque. Sin embargo, dado el enorme riesgo que supone, es habitual optar por soluciones de compromiso que eliminen la posibilidad de su aparición, por lo general a costa de perjudicar la tasa de falsos positivos. 50 Evento incorrectamente identicado como intrusión por el Sistema de Detección de Intrusiones, cuando por el contrario no ha ocurrido tal intrusión. 51 Evento no identicado como intrusión por el Sistema de Detección de Intrusiones, cuando por el contrario sí es merecedor de dicha identicación. 24 Figura 1.11: Taxonomía general Este método de respuesta recibe la denominación de Prevención de Intrusiones y pretende dar un paso más allá en la evolución. De hecho, algunos autores consideran que dicha tecnología deberá constituir a medio plazo el método de respuesta por defecto de todo Sistema de Detección de Intrusiones [337, 341], aunque aún existen poderosas argumentaciones en contra [133]. Timothy Wickham propone una precisa denición de Sistema de Prevención de Intrusiones en su polémico artículo Intrusion Detection is Dead. Long Live Intrusion Prevention! : Denición 1.24, Sistema de Prevención de Intrusiones (Intrusion Prevention System): System that actively monitor a network or host for attacks and block those attacks from occurring.52 De esta forma, a partir de las tres categorizaciones descritas es posible plantear una primera taxonomía general, que ilustra de forma conveniente una primera aproximación al área de conocimiento de la Detección de Intrusiones. La gura 1.11 ilustra dicha taxonomía 52 Sistema que monitoriza activamente una red o una máquina en busca de ataques, y que evita que dichos ataques ocurran. 25 1.3.4. Características de los diferentes enfoques En la actualidad aún no se ha desarrollado un modelo conceptual de Sistema de Detección de Intrusiones de amplio espectro que minimice los inconvenientes que parecen estar inherentemente asociados a sus diversas alternativas. Cada uno de los enfoques de diseño existentes proporciona soluciones a determinadas cuestiones, pero adolece invariablemente de ciertos problemas, por lo que se hace necesario contemplar la vía de la integración de múltiples métodos de análisis como el camino a seguir [65, 116, 165, 398, 15, 105]. A continuación se incluye una relación de las ventajas e inconvenientes que presentan cada una de las ramas de la taxonomía del apartado anterior. 0.3.4.1 Recogida de información Respecto a la cuestión de la recogida de información, o lo que es lo mismo, al objetivo estratégico de un Sistema de Detección de Intrusiones que dene su ámbito de aplicación, las dos losofías de funcionamiento que se han introducido anteriormente (Detección orientada a la Máquina y Detección orientada a la Red) presentan poderosas capacidades, que convierten a ambas en extraordinarias herramientas de seguridad en prácticamente todo tipo de sistemas. Sin embargo, ambos métodos muestran importantes debilidades, que hacen necesario un profundo esfuerzo de reexión, de cara a la consecución de un modelo híbrido que maximice las capacidades reduciendo los inconvenientes [116, 164, 240, 92, 15, 204]. A continuación se relacionan las cualidades y defectos de ambas. 0.3.4.1.1 Detección de Intrusiones orientada a la Máquina La Detección de Intrusiones orientada a la Máquina fue el primer enfoque de diseño sobre el que se empezó a trabajar en los orígenes de la Detección de Intrusiones [20], y constituye probablemente la rama sobre la que tradicionalmente se ha desarrollado un mayor número de investigaciones. En general, este tipo de detección está considerado como el potencialmente más exacto en la toma de decisiones, debido simplemente a su ubicación dentro del propio sistema que se pretende proteger. Este emplazamiento permite que el Sistema de Detección pueda determinar con precisión los usuarios y procesos que están involucrados en un determinado ataque. Además, desde esta localización, es capaz de analizar el impacto en el sistema de cualquier acción, ya que tiene a su disposición toda la potencia del Sistema Operativo, y puede analizar detalladamente sistemas de cheros, interfaces de red, etcétera, de forma ágil [116, 78, 28, 240, 92]. Sin embargo, en redes corporativas de medio o gran tamaño, el alto coste administrativo que suponen los procesos de instalación, conguración y mantenimiento de todo un parque de Sistemas de Detección de Intrusiones orientados a la Máquina, hace que esta solución sea inviable en la mayoría de los casos. Por lo general su utilización queda circunscrita a sistemas servidores [351, 28]. Éstas son las principales características de este tipo de sistemas, aunque es importante 26 prestar atención al conjunto de sus particularidades. A continuación se relacionan las ventajas e inconvenientes que supone la utilización de esta clase de métodos. 0.3.4.1.1.1 Ventajas Posibilidad de determinar el éxito o fracaso de un ataque Habitualmente, los Sistemas de Detección de Intrusiones orientados a la máquina basan sus decisiones de análisis en los registros históricos de eventos del sistema o de servicios de aplicación, por lo que pueden obtener una medida precisa del grado de éxito o fracaso de un ataque. Los sistemas orientados a la red, por el contrario, solamente pueden detectar intentos de intrusión, pero no son capaces de determinar si dichos intentos han fructicado o no. De esta forma, en general, los sistemas orientados a la máquina presentan una tasa de falsos positivos muy reducida, lo que hace que sean un buen complemento de los sistemas de red: Éstos detectan los primeros indicios de actividad sospechosa que aparecen en la red y sus homólogos orientados a la máquina comprueban si esa actividad ha tenido impacto en el sistema o no. [351, 336, 28, 164, 240] Monitorización de actividades especícas Este tipo de sistemas de detección puede monitorizar la utilización que los usuarios de un sistema hacen de sus recursos, pudiendo centrar su atención en cuestiones particulares como el acceso o modicación de archivos, utilización de credenciales y privilegios, manipulación de software, ejecución y manipulación de procesos, etcétera. Además, su especial ubicación hace posible que cualquier actividad sospechosa de poner en compromiso la seguridad del sistema pueda ser no sólo detectada, sino incluso interceptada, mediante una simple redirección de los servicios del Sistema Operativo en el que se encuentran instalados. [351, 78, 336, 28, 164, 240, 92, 100] Detección de ataques físicos Evidentemente, un sistema de detección orientado a la máquina puede revelar cualquier actividad subversiva que se lleve a cabo mediante la presencia física del intruso ante la víctima. En aquellos casos en los que el atacante ha alcanzado tan importante nivel de acceso, un sistema orientado a la red es incapaz de responder, ya que es posible que el intruso no necesite utilizar los recursos de comunicaciones de dicho sistema, o que incluso sea consciente de que no debe hacerlo para pasar desapercibido. Por el contrario, un sistema de detección orientado a la máquina no tiene ninguna dicultad para detectar dicha intrusión y noticarla convenientemente. [164, 92, 204] Detección de ataques a través de medios de comunicación cifrados Dado que este tipo de sistemas se instala directamente en la máquina a proteger, es posible dar respuesta a un problema que tradicionalmente se ha caracterizado por la ceguera absoluta que produce en los sistemas de detección orientados a la red, como es la cuestión del tráco de red 27 cifrado. Para poder analizar correctamente cualquier tipo de información, un sistema de detección orientado a la red debe ser capaz de comprender su estructura, lo cual puede convertirse en una tarea imposible de realizar en la práctica en el caso de que el atacante decida aplicar métodos de cifrado sobre dicha información. De esta forma, un intruso puede apoyarse en dichos algoritmos para conseguir eludir la vigilancia del sistema de detección. Sin embargo, dado que la información que llega al sistema atacado (conteniendo órdenes, archivos o herramientas) debe ser descifrada antes de ser interpretada por el Sistema Operativo, un sistema de detección orientado a la máquina no tiene dicultad alguna para realizar su cometido. [116, 336, 28, 164, 92, 100, 204, 50] Detección de ataques en redes de comunicación conmutadas Una de las soluciones que tradicionalmente han abordado el problema de las escuchas ilegítimas en redes de comunicación, como es el diseño de redes conmutadas, hace que los sistemas de detección orientados a la red convencionales no puedan acceder a la información que necesitan para llevar a cabo su actividad de análisis, ya que dichos entornos impiden que esa información llegue a ellos. Sin embargo, en el caso de los sistemas orientados a la máquina, esa cuestión no representa un problema, ya que pueden disponer de forma natural de toda la información dirigida hacia el sistema que protegen. [340, 28, 100, 204, 50] Reducido tiempo de respuesta Dado que este tipo de sistemas sólo es responsable de analizar la actividad que se da en el sistema al cual dedican su vigilancia, el volumen de información que deben analizar es relativamente pequeño. Por ello, es posible proporcionar una respuesta en condiciones de tiempo real, o muy cerca de ellas. De esta forma, en la mayoría de los casos, la actividad del intruso puede ser detenida antes de que pueda producir cualquier daño en el sistema. [240, 92] 0.3.4.1.1.2 Inconvenientes Elevado coste administrativo y económico En el caso de utilizar Sistemas de Detección orientados a la Máquina en una red corporativa con múltiples sistemas conectados, es necesario instalar, congurar, administrar y mantener un sistema de detección en cada uno de dichos sistemas. Evidentemente, esta consideración implica un extraordinario coste de administración, que a menudo hace que este tipo de soluciones sea descartado. Por el contrario, un único sistema orientado a la red es capaz, por sí solo o en pequeñas colectividades de agentes, de llevar a cabo la vigilancia de toda una red corporativa. Por ello, los costes económicos derivados tanto de los mencionados esfuerzos administrativos, como de la inversión económica propiamente dicha, son por lo general muy altos, en comparación con los sistemas orientados a la red. [116, 351, 78, 28, 240, 92, 204] Vulnerabilidad de emplazamiento 28 Dado que este tipo de sistemas de detección se ubica en el propio sistema a proteger como si fuera un aplicativo convencional, en aquellos casos en los que el intruso consigue alcanzar cierto nivel de operatividad en dicho sistema, aparece el riesgo potencial de que el sistema de detección pueda ser desactivado o subvertido por dicho atacante. Por el contrario, un sistema de detección orientado a la red es susceptible congurarse de forma que su presencia sea no sólo inexpugnable sino incluso inadvertida para cualquier usuario. [351, 336, 28, 240, 92, 100, 50] Limitada área de inuencia La propia idiosincrasia de estos sistemas hace que su ámbito de protección se vea limitado a un único sistema, debido a que solamente son capaces de detectar actividad subversiva a partir de los registros de solicitudes de servicio que los aplicativos hacen al Sistema Operativo de dicho sistema (ya sea en el nivel de aplicación o en el nivel de servicio), o a partir del tráco de red exclusivamente dirigido hacia el mismo. Además, esta forma de actuación hace que el sistema de detección sea dependiente de la plataforma software (fundamentalmente del Sistema Operativo), lo que introduce una compleja componente de heterogeneidad en sistemas de información en los que conviven múltiples tipos de plataformas. Un sistema de detección orientado a la red, por el contrario, es capaz de detectar comportamientos ilegítimos dirigidos contra redes enteras, ya que la información que maneja uye por el medio de comunicación y está rigurosamente estandarizada en forma de protocolos de comunicación. [351, 340, 78, 336, 28, 240, 204] Sensibilidad del propio sistema de detección Un intruso potencial puede orquestar un ataque de denegación de servicio dirigido hacia el propio sistema de detección, con el objetivo de deshabilitarlo. De esta forma, una vez conseguida la desactivación de dicho sistema, las acciones de dicho intruso pueden realizarse con total impunidad e incluso sin dejar rastro. Ésta es una característica especialmente indeseada, tanto en este tipo de sistemas como en sistemas de detección orientados a la red, y que debe minimizarse haciendo especial énfasis en el desarrollo eciente y optimizado de toda la arquitectura interna del sistema de detección. [336, 28, 240, 100, 204] Alto consumo de recursos Dado que este tipo de sistemas de detección debe ubicarse en el propio sistema a proteger, necesita hacer uso de sus recursos para su ejecución. Por un lado, el consumo de recursos de almacenamiento suele verse incrementado notablemente, debido al volumen que habitualmente presentan los registros históricos de los sistemas operativos, así como al tamaño de los registros generados por el propio sistema de detección. Por otro, también es importante el consumo de capacidad de procesamiento que se requiere, ya que es necesario analizar cada una de las peticiones de servicio que los usuarios del sistema o sus aplicativos solicitan al Sistema Operativo local. Además, es necesario observar que, tal y como se ha explicado anteriormente, cada máquina de 29 la red corporativa debe tener instalado su propio sistema de detección, por lo que esos grandes consumos se extienden a todo el parque informático de la organización. [116, 336, 28, 100, 204, 50] 0.3.4.1.2 Detección de Intrusiones orientada a la Red La Detección de Intrusiones orientada a la Red constituyó una importante evolución, introducida por L. Todd Heberlein [161], del concepto de Detección de Intrusiones original. Hasta aquel momento la protección de sistemas informáticos se había realizado desde las propias infraestructuras hardware y software que se deseaban salvaguardar, y esta nueva losofía originó un gran interés académico, y numerosas investigaciones cientícas e inversiones comerciales. En general, este tipo de detección está considerado como el más poderoso y el que mejores prestaciones ofrece en grandes infraestructuras informáticas [240]. Su ubicación, anexa al sistema de explotación de la organización, a través de la captura continua del ujo de información transmitido a través de las redes corporativas, consigue que la interferencia o sobrecarga introducidas en el sistema sean nulas y que las decisiones generadas por el sistema de detección tengan carácter global [50]; todo ello sin los costosos requerimientos de administración de los sistemas orientados a la máquina. No obstante, estos sistemas también presentan algunas limitaciones, como por ejemplo su incapacidad para detectar ataques locales o para determinar el impacto de los ataques que detectan [28, 92]. Por otro lado, el reducido impacto económico que tiene en los presupuestos de infraestructura de la organización, hace que la Detección de Intrusiones orientada a la Red sea una opción muy utilizada, y que alcanza en la actualidad altas cotas de cuota de mercado [351]. En rasgos generales, éstas son las principales propiedades de este tipo de soluciones, aunque es importante observar sus características en conjunto. A continuación se relacionan las ventajas e inconvenientes que supone la utilización de esta clase de métodos. 0.3.4.1.2.1 Ventajas Extensa área de inuencia Un único Sistema de Detección de Intrusiones orientado a la Red es capaz de detectar por sí mismo cualquier tipo de actividad subversiva o anómala que utilice la infraestructura de comunicaciones de una organización como medio de transporte, incluso en redes con alto número de sistemas conectados. Además, en casos en los que el volumen de información que uye a través del sistema de información supera la capacidad de respuesta del sistema de detección, su arquitectura general permite que el escalado de dicho sistema sea realmente sencillo y natural [92]. De esta manera, en el caso de grandes redes corporativas, la vigilancia de los recursos computacionales del sistema queda en manos no ya de un único sistema de detección, sino en una pequeña colectividad de procesos agente que colaboran en las tareas de recogida de información, análisis y respuesta. [351, 78, 336, 28, 240, 92, 204] Nulas interferencia y sobrecarga en el sistema objetivo 30 El despliegue de este tipo de sistemas de detección tiene un impacto nulo sobre la infraestructura computacional y de comunicaciones subyacente, ya que por lo general se destina para ello una máquina adicional dedicada en exclusiva. Así, habitualmente, un sistema orientado a la red captura de forma pasiva el tráco de dicha red, sin intervenir activamente en ningún momento. Simplemente escucha, decide e informa si lo considera necesario. Por ello, esta solución es ampliamente adoptada por empresas y organizaciones de todo tipo [351]; en perjuicio de los sistemas orientados a la máquina, que sí necesitan una importante cantidad de recursos provenientes del sistema a proteger, como pueden ser memoria principal, capacidad de almacenamiento, capacidad de procesamiento, etcétera. [116, 336, 28, 100, 204, 50] Fortaleza de emplazamiento Un sistema de Detección de Intrusiones orientado a la Red puede congurarse de manera que sea virtualmente invisible para cualquier usuario de la organización, incluyendo por supuesto a cualquier potencial intruso que tenga como objetivo a dicha organización. Su carácter pasivo propicia esta característica e incluso es posible utilizar dispositivos hardware o componentes software que garantizan dicha propiedad [83]. Existen ciertas soluciones de detección orientada a la red que abogan por un comportamiento reactivo ante las amenazas, pero mantienen igualmente esta propiedad de su inexpugnabilidad. Por el contrario, un sistema orientado a la máquina es fácilmente detectable por un intruso, quien puede intentar ponerlo en compromiso para conseguir sus nes. Además, esta invisibilidad evita cualquier posibilidad de alteración o corrupción de los recursos del sistema de detección mismo, de forma que los habituales métodos de eliminación de evidencias son inviables de antemano; a pesar de que existan ciertas técnicas [385] dirigidas a evadir la vigilancia de dicho sistema de detección. [351, 336, 28, 240, 92, 100, 50] Detección de ataques orientados a la red Dado que este tipo de sistemas de detección analizan todos y cada uno de los paquetes de información que circulan por la red de comunicaciones, pueden detectar ataques que se realizan por debajo de los niveles de aplicación o de servicio a los que habitualmente acceden los usuarios de una máquina. Por lo general, un sistema orientado a la máquina no analiza todos los diferentes aspectos del tráco de red, por lo que es incapaz de detectar numerosos tipos de ataque, como pueden ser los de denegación de servicio o los de fragmentación [385]. Por el contrario, un sistema orientado a la red sí observa cada uno de los diferentes parámetros que componen dichos paquetes, y puede responder de forma eciente ante un mayor número de amenazas. [116, 336, 240, 100, 50] Bajo coste administrativo y económico Debido a la notable amplitud del ámbito de inuencia que por lo general poseen los sistemas orientados a la red, unas mínimas tareas administrativas y de supervisión y mantenimiento son en general sucientes para una explotación adecuada de dicho sistema de detección. Asimismo, la 31 inversión económica necesaria se mantiene contenida en la mayoría de los casos, y es susceptible de incrementarse progresivamente a lo largo del tiempo en aquellas situaciones cuya evolución va requiriendo mayores prestaciones. [116, 78, 28, 240, 92, 204] Reducido tiempo de respuesta Al igual que los sistemas orientados a la máquina, los sistemas orientados a la red proporcionan por lo general excelentes tiempos de respuesta, lo que permite detectar un ataque mientras se está llevando a cabo. Esta capacidad de respuesta posibilita que el administrador reciba la noticación de dicho ataque a tiempo para responder convenientemente. Además, en el caso de que el sistema de detección incorpore capacidades de reacción, la respuesta puede en muchos casos llegar incluso a detener el ataque en cuestión. [28, 164] Independencia de la plataforma Como se ha explicado anteriormente, este tipo de sistemas de detección utiliza los paquetes de información que se transmiten por la red para tomar sus decisiones; paquetes que se caracterizan por estar conformados en virtud de estándares que regulan sus diferentes características. Dado que dichos estándares tienen como objetivo la denición formal de protocolos de comunicación entre plataformas habitualmente heterogéneas, la información de la que se nutren los sistemas de detección orientados a la red es compatible e interpretable por un amplio número de plataformas hardware y software. Esto hace que un mismo sistema de detección sea capaz de advertir comportamientos subversivos en redes que interconectan sistemas de computación heterogéneos, lo que lo convierte en una herramienta de seguridad excepcional. Por el contrario, los sistemas orientados a la máquina son especícos de la plataforma, por lo que ante la necesidad de vigilancia de sistemas de información heterogéneos son necesarias diferentes soluciones de detección; con los costes administrativos y económicos que ello conlleva. [116, 78, 336, 240, 100, 50] 0.3.4.1.2.2 Inconvenientes Rendimiento en redes de alta velocidad Ante el problema de la detección de intrusiones en redes de alta velocidad, los sistemas de detección orientados a la red adolecen por lo general de dicultades en el correcto procesamiento de todos los paquetes de información que uyen por dichas redes, en situaciones de alta ocupación. Habitualmente, dichos sistemas integran en su arquitectura interna mecanismos de control de congestión para tratar de paliar este problema, pero, como es lógico, dichos mecanismos tienen capacidades nitas. Por ello, es posible la pérdida de paquetes de red que el sistema no ha sido capaz de capturar temporalmente para su análisis. Esta característica constituye una importante fuente de inspiración para todo tipo de intrusos, que intentan saturar el sistema de detección, incapacitándole para responder correctamente. Actualmente, la tendencia consiste en migrar 32 el software de detección a dispositivos hardware que incrementen el rendimiento, así como la especialización de los tipos de ataque a detectar, y la optimización de los recursos computacionales necesarios para proporcionar una respuesta en unos márgenes de tiempo aceptables. A este respecto, está comúnmente aceptada la consideración de estos sistemas de detección orientados a la red como sistemas de tiempo real acríticos. [116, 336, 28, 164, 240, 92, 100, 204, 50] Problemas de detección de ataques en redes de comunicación conmutadas Las redes de comunicación conmutadas se utilizan actualmente de forma habitual en redes corporativas de tamaño medio y grande, y están basadas en la separación lógica de distintos segmentos de red, lo que permite alcanzar mayores rendimientos de transferencia de información que en los anteriores medios compartidos. Sin embargo, esta deseable característica evita el libre acceso al tráco de red, lo cual es una cualidad imprescindible para el funcionamiento de todo sistema de detección orientado a la red. Para poder analizar el tráco de información, el sistema detector tiene que poder acceder a él. En cualquier caso, esta problemática tiene una repercusión relativa, ya que la mayoría de dispositivos de conmutación incorpora puertos especiales53 que permiten acceder al ujo completo de información. Basta con conectar el sistema de detección a uno de esos puertos para garantizar su correcto funcionamiento. [340, 28, 100, 204, 50] Problemas de detección de ataques a través de medios de comunicación cifrados Dado que los Sistemas de Detección de Intrusiones orientados a la Red necesitan acceder libremente a la información que circula por dicha red, cualquier obstáculo a ese acceso, ya sea físico como en el caso anterior, o lógico como en el caso en el que las comunicaciones estén sujetas a esquemas de cifrado de la información, incapacita a dichos sistemas para cumplir con su cometido. Un sistema de detección que no es capaz de interpretar la información contenida en un paquete de red, no puede realizar ningún análisis respecto de dicho paquete, ni tomar decisión alguna. Éste es uno de los grandes handicaps que tradicionalmente ha venido sufriendo la Detección de Intrusiones orientada a la Red, si bien existe una evolución de estos sistemas por la cual es posible solventar este problema, y que se conoce como Detección de Intrusiones orientada al Nodo de Red54 [84, 78, 241]. Este enfoque consiste en convertir un sistema orientado a la red en un sistema orientado a la máquina, que analice el tráco proveniente del subsistema de comunicaciones de dicha máquina, después de haber sido descifrado por la capa criptográca de la pila de protocolos de red. Por supuesto, este avance implica un retroceso en la tradicional capacidad de los sistemas orientados a la red de detectar intrusiones en grandes redes. [116, 336, 50, 28, 164, 92, 100, 204] Imposibilidad de determinar el éxito o fracaso de un ataque 53 54 Conocidos como tap ports o mirroring ports. Este enfoque da lugar a los conocidos Sistemas de Detección de Intrusiones de Nodo de Red o Network Node Intrusion Detection Systems. 33 Por lo general, los sistemas de detección orientados a la red no son capaces de determinar si un ataque detectado por ellos ha sido exitoso para el atacante o no. Sólo pueden precisar que en un momento dado se produjo dicho ataque. Esta particularidad obliga a que, después de detectado un determinado ataque, el administrador del sistema deba investigar manualmente el impacto que ha podido tener dicho ataque en su organización. [351, 336, 28, 164, 240] 0.3.4.2 Análisis La fase de análisis constituye el núcleo central del modelo general de funcionamiento de todo sistema de detección, ya que es en él donde deben tomarse las decisiones importantes que afectan a la seguridad del sistema de información que se pretende proteger. La anterior fase de recogida de información, así como la siguiente, de respuesta, están caracterizadas por realizarse de forma prácticamente automática, mecánica. Por el contrario, en esta fase de análisis es necesario disponer de un modelo de representación de conocimiento y de un mecanismo de inferencia de conclusiones que sean capaces de procesar las complejas relaciones que existen entre los múltiples parámetros que es necesario estudiar. Por supuesto, es en esta fase de análisis donde se encuentra concentrado el mayor interés estratégico de todo el área de conocimiento de la Detección de Intrusiones, y es en ella también donde se registra una mayor actividad investigadora, ya que aún no se ha conseguido un modelo general que consiga superar los retos existentes. A este respecto, es interesante observar las conclusiones que se desprenden del estudio realizado por Emilie Lundin y Erland Jonsson sobre la actividad investigadora en el área de la Detección de Intrusiones [379] en los últimos años55 . La tabla 1.5 es ruto de dicho estudio, y muestra claramente como la fase de Análisis es el área que oncentra un mayor interés en la comunidad académica. A continuación se describen las principales características de las dos grandes losofías de funcionamiento sobre las cuales está construida la mayoría de los componentes de análisis de los actuales Sistemas de Detección de Intrusiones: Detección de Usos Indebidos y Detección de Anomalías. Como se comprobará, ambos métodos proporcionan importantes benecios, pero no consiguen evitar ciertas debilidades. Esta situación obliga a seguir investigando en búsqueda de un modelo que sea capaz de aunar las ventajas de ambos métodos, minimizando en la medida de lo posible los inconvenientes [65, 116, 351, 147, 165, 336, 28, 164, 92, 15, 26, 339]. 0.3.4.2.1 Detección de Usos Indebidos Actualmente, la Detección de Usos Indebidos es el enfoque más extendido y el que ha fructicado con mayor rmeza en el mercado [351, 50, 28]; éxito que ha venido producido fundamentalmente por su eciencia y sencillez de administración. Su principio de funcionamiento es simple: 55 Para el desarrollo de este estudio se han tomado en consideración las conferencias de mayor prestigio y contabilizado el número de publicaciones en cada una de las diferentes áreas. En la tabla 1.5 se han seleccionado solamente las áreas descritas en el modelo general, si bien existen otras líneas de investigación laterales más especícas, que escapan a los objetivos de esta introducción. 34 Cuadro 1.5: Áreas de investigación sobre Detección de Intrusiones con mayor actividad 35 A partir del conocimiento de los diferentes tipos de ataques utilizados por la comunidad hacker, basta con recoger los eventos que se produzcan en un determinado sistema y contrastarlos contra dicho conocimiento, para poder detectar intentos de subversión en el sistema. Por lo general, este conocimiento se estructura en forma patrones que describen las peculiaridades de cada ataque. De esta forma, una base de conocimiento puede estar compuesta por varios miles de patrones o rmas [29, 18], cada uno de los cuales debe ser comparado con los sucesos que van teniendo lugar en la explotación cotidiana del sistema de producción. Este modo de operación hace que el sistema sea realmente sólido y que detecte con precisión toda actividad maliciosa que tenga registrada en su base de rmas. Sin embargo, es precisamente este mismo modo de operación la causa de su más importante limitación: No es posible detectar nada que no esté previamente documentado. De esta manera, un intruso (que puede estar al corriente de la conguración de las bases de conocimiento que se estén utilizando) puede realizar una ligera modicación de un ataque y pasar desapercibido para el sistema de detección. Es más, cada día aparecen ataques completamente nuevos, que por supuesto pasan inadvertidos a los detectores, a menos que se incluyan las nuevas rmas. Como es obvio, esta cuestión obliga a realizar un continuo y costoso proceso de mantenimiento, que queda en manos del operador humano, y que hace que el sistema de detección vaya perdiendo progresivamente su eciencia. Ante continuas actualizaciones de la base de rmas, llega un momento en el que el volumen de patrones a contrastar consume más tiempo del que tardan en producirse los eventos del sistema. El detector se satura y se empiezan a ignorar dichos eventos. Por todo ello, si se desea conseguir una auténtica protección ante ataques novedosos, es necesario explorar otras vías de investigación que complementen a los sistemas basados en rmas. [116, 147, 84, 165, 28, 26, 100, 204] A continuación se relacionan las ventajas e inconvenientes fundamentales que presenta este tipo de sistemas de detección: 0.3.4.2.1.1 Ventajas Precisión en la detección Los Sistemas de Detección de Usos Indebidos son muy efectivos en la detección de los ataques que tienen documentados. Esto es debido a que su principio de funcionamiento se reduce a la comparación de la actividad cotidiana del sistema que se pretende proteger, con una base de rmas de ataques que se construye a partir de vasto conocimiento experto sobre métodos de intrusión y procedimientos para explotar vulnerabilidades conocidas. De esta forma, cualquier actividad subversiva que se encuentre tipicada en dicha base de conocimiento es advertida rápidamente. [116, 147, 165, 28, 26, 100] Ausencia de falsos positivos 36 Dada la simplicidad del método de detección, no es habitual que se produzca el fenómeno del falso positivo, siempre y cuando la base de conocimiento se encuentre convenientemente congurada. Ésta es precisamente la mayor ventaja que presenta este tipo de sistemas de detección con respecto a otros, como puede ser la Detección de Anomalías, que ha sufrido tradicionalmente este problema. [116, 84, 28, 15, 100, 358] Estabilidad del conocimiento Una característica negativa que presentan algunos Sistemas de Detección de Intrusiones más ambiciosos que los basados en la Detección de Usos Indebidos, es la posibilidad de que los modelos de representación de conocimiento adaptativos que utilizan puedan ser dirigidos progresiva e intencionadamente56 para que, llegado el momento, dejen pasar desapercibidos ciertos eventos que el potencial intruso no desea que sean detectados. Si el sistema de detección es capaz de adaptarse a los cambios de comportamiento de los usuarios, es posible que alguno de esos usuarios utilice esa indeseable característica con nes maliciosos. Sin embargo, en el caso de la detección de rmas, la sencilla estructura de su motor de decisión elimina este problema. [116, 84, 17, 28, 100, 204] Bajo coste administrativo Un Sistema de Detección de Usos Indebidos puede proporcionar de forma rápida y able un diagnóstico exacto sobre la situación de un sistema de información, sin necesidad de laboriosos procedimientos administrativos y sin necesidad de disponer de personal de seguridad excepcionalmente experimentado. [116, 147, 28, 15, 100, 358] 0.3.4.2.1.2 Inconvenientes Incapacidad de detección de ataques no documentados La limitación por excelencia de todo sistema de detección de usos indebidos, dada la naturaleza del propio principio de funcionamiento, consiste en la incapacidad absoluta de este tipo de sistemas de advertir cualquier comportamiento subversivo que no se encuentre documentado en su base de conocimiento. Dado el extraordinario número de vulnerabilidades que se encuentran diariamente, así como de procedimientos de ataque que las explotan [59], esta cuestión adquiere de forma natural carácter de urgencia. Actualmente, las soluciones al problema pasan por la actualización automática periódica de las bases de rmas, si bien este método termina por reducir la eciencia del sistema de detección a medio y largo plazo. [116, 84, 205, 17, 28, 15, 26, 100, 204, 358] Rendimiento decreciente 56 Dicha técnica es conocida habitualmente como session creeping. 37 El crecimiento que se produce en las bases de conocimiento a medida que se detectan, analizan y documentan nuevos tipos de ataques, hace que dichas bases sean complejas de mantener, y que el rendimiento del sistema termine por degradarse. En esta situación, el sistema de detección puede llegar incluso a saturarse, y a tomar la decisión de ignorar aquellos eventos que están saturando sus mecanismos de control de la congestión. Por supuesto, si el sistema se ve obligado a dejar de analizar eventos, su ecacia pasa a verse en un serio compromiso. De hecho, existen técnicas de evasión de Sistemas de Detección de Intrusiones [385] que se basan en esta indeseada característica. [116, 147, 100, 204] 0.3.4.2.2 Detección de Anomalías Con el objetivo de aportar una solución al principal problema de los Sistemas de Detección de Usos Indebidos, y proporcionar un método capaz de detectar ataques desconocidos hasta el momento, surge la Detección de Anomalías [105], si bien hasta la fecha existen pocos casos de éxito de dicha tecnología, debido fundamentalmente a la complejidad de administración que la ha venido caracterizando. Tal y como se describe en la denición 1.1.17, su principio de funcionamiento consiste en primer lugar en elaborar un perl del comportamiento habitual de los usuarios. A continuación, la actividad cotidiana de los mismos es comparada con dicho perl, y en el caso de que se observe alguna desviación signicativa, dicha actividad será clasicada como anómala. Por último, se generará la pertinente respuesta, que en función de la conguración del sistema podrá quedar reducida a una noticación de alarma al administrador, o por el contrario llegar a provocar un efecto reactivo sobre el sistema. Por lo general, este modelo de funcionamiento está basado en las propiedades estadísticas de los diferentes eventos que se producen en el sistema. De esta forma, es posible que el sistema de detección aprenda la naturaleza del comportamiento de los usuarios del sistema, e inera sus conclusiones, por lo general construidas en base al concepto de probabilidad. Este modo de operación hace que el sistema pueda prescindir de todo conocimiento apriorístico, y que pueda detectar ataques para los cuales no existe un modelo previamente documentado. Sin embargo, su naturaleza probabilística y la necesidad del sistema de detección de permanecer en un estado de adaptación continua a las variaciones del comportamiento de los usuarios, hace a dichos sistemas susceptibles de generar falsos positivos. Esta característica no es preocupante siempre que se mantenga dentro de unos límites de excepcionalidad, pero puede convertirse en un serio problema si se da con mayor frecuencia. De hecho, la minimización de los falsos positivos es uno de los mayores retos que actualmente presenta esta tecnología. [116, 84, 28, 15, 26, 100, 204, 358] A continuación se relacionan las principales ventajas e inconvenientes que presenta la Detección de Anomalías: 0.3.4.2.2.1 Ventajas Detección de ataques desconocidos 38 La mayor capacidad de este tipo de Sistemas de Detección de Intrusiones es precisamente la de poder responder ante lo desconocido. Dado que su losofía de funcionamiento está basada en el aprendizaje que el propio sistema de detección hace sobre la realidad de la infraestructura hardware y software que pretende proteger, es este conocimiento aprendido el elemento que marca la diferencia entre lo legítimo y lo subversivo. De esta forma, no es necesario documentar todos y cada uno de los tipos de ataque que aparecen diariamente, sino que basta con realizar un ejercicio de introspección que determine cómo se comporta habitualmente un sistema de información, y cómo no. [116, 147, 84, 28, 15, 26, 100, 204, 358] Documentación de ataques desconocidos Dada la poderosa propiedad anterior, un sistema de detección basado en anomalías puede generar automáticamente información descriptiva sobre los nuevos ataques que detecta. De esta forma, es posible construir, en base a dicha información, nuevas rmas de ataques que pueden ser utilizadas por los sistemas de detección de usos indebidos, de cara a la utilización conjunta de ambos. [28] Rendimiento constante El modelo de representación de conocimiento de este tipo de sistemas no necesita incrementar su volumen de conocimiento, sino simplemente adaptarlo a ajustarlo a la realidad de la infraestructura subyacente. Esta propiedad hace que estos sistemas tengan un prometedor futuro, ya que no adolecen del problema de la pérdida de eciencia que sufren los modelos de detección de usos indebidos. [116, 147] 0.3.4.2.2.2 Inconvenientes Inestabilidad del conocimiento Dada la necesidad de este tipo de sistemas de detección de adaptación continua a la siempre cambiante realidad del sistema a proteger, el conocimiento adquirido por los Sistemas de Detección de Anomalías presenta cierta propensión a la inestabilidad. El comportamiento del sistema cambia, y ese cambio puede inuir para que lo que en un momento dado ha podido ser considerado como legítimo, ahora pase a ser subversivo, y viceversa: que lo que en el pasado era considerado anómalo, pase a convertirse en habitual. Por supuesto, esta cuestión se da cerca de los umbrales de detección, y no signica que el sistema sufra de indeterminismo. [116, 28, 26, 100, 204, 358] Posibilidad de subversión del conocimiento Debido a la misma necesidad de adaptación del apartado anterior, aparece una remota, aunque posible, probabilidad de que el inherente proceso de aprendizaje de este tipo de sistemas sea utilizado subversivamente, con el objetivo de que en un momento del futuro el sistema de detección deje de percibir como anómalos ciertos eventos maliciosos. Para ello, un intruso puede provocar a 39 lo largo de un cierto periodo de tiempo ciertos sucesos normales (legítimos), pero cuyos atributos cada vez se van acercando progresivamente al terreno de lo anómalo. De esta forma, teóricamente, llegaría un momento en el futuro en el que el sistema, que se habría adaptado a esos cambios, consideraría un evento antes subversivo como perfectamente legítimo. [116, 84, 17, 28, 100, 204] Alto coste administrativo En la actualidad, el proceso de aprendizaje que caracteriza a los sistemas de detección de anomalías aún no ha conseguido liberarse de una relativamente costosa tarea de conguración y administración. Asimismo, y dada la naturaleza cambiante de dichos sistemas, el mantenimiento de los mismos también contribuye de forma notable a incrementar los esfuerzos que una organización necesita soportar para que su sistema de detección pueda ser explotado con las mayores garantías. Además, dicho proceso de aprendizaje no sólo precisa de esas importantes tareas de conguración y administración, sino que, además, los modelos computacionales que se utilizan (como pueden ser las redes neuronales o los algoritmos genéticos) requieren muy frecuentemente la supervisión del mismo por parte del operador humano. [116, 28, 15, 204] Presencia de falsos positivos Debido fundamentalmente a la naturaleza probabilística de los modelos de Detección de Anomalías, es frecuente la necesidad de tomar un compromiso sobre la magnitud del volumen de respuestas que se consideran convenientes para su correcto procesamiento posterior. Dicho compromiso se establece habitualmente en base a valores umbral que separan lo que se considera normal (y por lo tanto, legítimo) de lo que se considera anómalo (y por lo tanto, ilegítimo). Un umbral muy restrictivo hace que cualquier desviación, por leve que sea, sea considerada merecedora del lanzamiento de una alarma u otra acción de respuesta. En principio, la seguridad del sistema es muy alta, y se responde ante cualquier evento sospechoso. Sin embargo, el volumen de respuestas es enorme, y en el caso habitual de utilizarse la simple respuesta pasiva mediante noticaciones de alarma, el administrador queda automáticamente saturado de ingentes cantidades de mensajes que no puede procesar y que por lo general sólo implican acciones legítimas pero ligeramente desviadas del perl de comportamiento. O lo que es lo mismo: falsos positivos. Además, y lo que es aún peor, entre esos grandes volúmenes de mensajes suelen pasar desapercibidos auténticos peligros, los cuales no pueden ser físicamente diferenciados de los anteriores. Por el contrario, un umbral muy permisivo genera un número razonable de respuestas, pero posibilita la no detección de ataques cercanos a dicho umbral, dando origen a los aún más peligrosos falsos negativos. Por todo ello, parece evidente la necesidad de buscar un equilibrio entre los dos extremos, que permita minimizar ambos efectos indeseados, si bien su eliminación completa es improbable. [116, 147, 84, 28, 15, 26, 100, 204, 358] 40 0.3.4.3 Respuesta Una vez que el sistema de detección ha recogido un determinado evento y tomado la decisión que considera más apropiada sobre él, es necesario dar una respuesta oportuna al mismo. En la mayoría de los casos, dicha respuesta implica el lanzamiento de un mensaje de alarma hacia una consola de gestión a cargo del administrador de dicho sistema. Este modo de actuación es lo que se conoce como Respuesta Pasiva, y se realiza habitualmente de forma remota, bien mediante un protocolo de noticación propio del sistema de detección, bien mediante algún esquema estándar de gestión de sistemas como puede ser por ejemplo SNMP57 [351, 147], o bien mediante los servicios de noticación de eventos que proveen los sistemas operativos. Por el contrario, existen otras soluciones que apuestan por el uso de técnicas más activas, y que intentan mitigar de forma automática los efectos de los potenciales ataques. Por lo general, una vez detectado un ataque, este tipo de aproximaciones intentan recabar toda la información posible sobre el origen de dicho ataque, tanto para poder así orquestar una respuesta más precisa, como para poder tomar las acciones legales correspondientes con mayor conocimiento de causa. Además, también es habitual llevar a cabo acciones correctoras del entorno atacado, abortando las conexiones del intruso con la víctima, bloqueando el acceso de dicho intruso, protegiendo el acceso a servicios del sistema agredido, etcétera. Asimismo, existen sistemas de detección que presentan un mayor nivel de agresividad, y optan directamente por contraatacar contra el origen de la amenaza. Por último, como se ha explicado en apartados anteriores, es importante prestar atención a un nuevo enfoque que está surgiendo al respecto, y que coloca al sistema de detección dentro del ujo de información, de forma que le es posible no ya sólo detectar un cierto ataque, sino incluso interceptarlo. Este enfoque se denomina Prevención de Intrusiones, y pretende proporcionar un mayor nivel de seguridad, ltrando de forma selectiva aquellos eventos dirigidos al sistema que se pretende proteger. [116, 351, 84, 165, 340, 336, 50, 17, 28, 15, 26, 100, 204] A continuación se describen las dos principales losofías de respuesta que presentan los actuales sistemas de detección: La respuesta pasiva y la respuesta activa. 0.3.4.3.1 Respuesta pasiva Como se ha descrito anteriormente, la respuesta pasiva constituye la forma de respuesta más simple y a su vez más extendida, fundamentalmente debido a dos razones: Por un lado, es habitual que los administradores de sistemas de detección de intrusiones preeran mantener un control estricto sobre las acciones que se llevan a cabo en el sistema de información que tienen a su cargo, de forma que cualquier hipotética decisión que pudiera tomar dicho sistema de detección representa un riesgo de inestabilidad en el sistema que en la mayoría de los casos no es aconsejable tomar automáticamente, sin un cierto proceso de reexión. Por otro lado, parece lógico que la responsabilidad de llevar a cabo acciones críticas para el sistema, como suelen ser las relativas a modicaciones en la política de seguridad (como es lo habitual), recaigan en un 57 SNMP o Simple Network Management Protocol: Protocolo de gestión de red, basado en UDP [288]. 41 operador humano, y no en un sistema que se encuentra en continuo peligro de ser subvertido. [116, 28] A continuación se relacionan las ventajas e inconvenientes más importantes de este método de respuesta: 0.3.4.3.1.1 Ventajas Rapidez de respuesta La principal característica positiva de este método de respuesta es su sencillez y rapidez. Es posible lanzar una noticación de alarma a la consola de gestión del administrador o incluso a su teléfono móvil en el mismo instante que se detecta un ataque. Una correcta conguración del sistema de detección, que mantenga la tasa de falsos positivos en unos límites razonables, en combinación con este tipo de respuesta, puede ser perfectamente válido en la mayoría de los casos. [15, 204] Imposibilidad de subversión Al contrario que en otros tipo de sistemas más ambiciosos y agresivos, con este tipo de respuesta no es posible que un potencial intruso llegue a utilizar subversivamente las peligrosas capacidades de actuación sobre el entorno de dichos sistemas. Deberá ser el operador humano quien decida si es necesario activar el registro de datos sobre el intruso, bloquear su acceso al sistema, o contraatacarle. Es un método simple, pero no adolece de los delicados efectos laterales de otros esquemas más sosticados. [351, 84, 340, 50, 28, 15, 26, 204] 0.3.4.3.1.2 Inconvenientes Incapacidad de reacción Debido a la propia naturaleza de este método de respuesta, no es posible realizar ningún tipo de operación ante una determinada evidencia de agresión. En algunos casos, existen ciertas acciones operativas que pueden tomarse sin riesgo de ser utilizadas en benecio del atacante, como por ejemplo el ltrado de paquetes de red mal formados, y que este método no puede realizar por defecto. [340, 28, 204] Posibilidad de saturación del operador humano En el caso de disponer de un sistema de detección con respuesta pasiva que sufra del problema de los falsos positivos, el método por defecto consistente en el envío de noticaciones de alarma al administrador puede llegar a saturarle por completo. De hecho, puede llevarle hasta la más absoluta inoperancia. Además, en muchos casos un determinado evento malicioso es el desencadenante de otros muchos, de forma que un único ataque se traduce en una avalancha de noticaciones. [116, 340, 204] 42 0.3.4.3.2 Respuesta activa Como se ha explicado anteriormente, existen tres niveles de agresividad en las respuestas de tipo activo: Recogida adicional de información, reconguración del entorno lógico de la víctima, y contraataque [116, 351, 84, 340, 17, 28, 15, 26, 100, 204]. Además, existe un aspecto adicional, en función de la ubicación del sistema de detección, que permite no ya sólo detectar un determinado ataque, sino además prevenir al sistema contra él [337, 116, 165, 341, 17, 358]. En el primer caso, el principio de funcionamiento consiste en, dado que habitualmente el registro de información que realiza el sistema de detección es muy limitado por cuestiones de espacio, incrementar la granularidad de la información que se recaba, una vez que se tiene constancia de estar sufriendo un ataque. De esta forma, es posible registrar las direcciones origen del ataque, los identicativos de usuario responsables del mismo, los recursos que están siendo utilizados, etcétera, etcétera, de cara a una posterior depuración de responsabilidades. En segundo lugar, se plantea la cuestión de intentar detener un ataque, una vez detectado, o al menos, evitar ataques posteriores. Para ello, la solución habitual pasa por la terminación abrupta de las conexiones de red que el intruso ha activado hacia la víctima. Es posible que el mal ya esté hecho, pero así se intenta al menos detener cualquier actividad del agresor lo antes posible. Además, también es habitual intentar evitar cualquier intento futuro de acceso por parte de dicho intruso, mediante la reconguración de los dispositivos de enrutado y de ltrado de paquetes. Asimismo, una solución de agresividad máxima consiste en atacar mediante patrones de ataque predenidos aquellas direcciones desde las cuales se lanzó el mencionado ataque. Por supuesto, este último extremo no es recomendable en la práctica, dadas las ambigüedades legales existentes. Por último, en los casos en que el sistema de detección se encuentre ubicado dentro del ujo de información por el que deben circular las órdenes de los usuarios hacia el sistema, es posible realizar ltrado de alta precisión, exclusivamente de aquellos eventos que se identican como potencialmente peligrosos. 0.3.4.3.2.1 Ventajas Reacción automática En este tipo de sistemas es posible congurar un cierto grado de respuesta automática, de forma que es posible graduar su intensidad, en función del grado de certidumbre de que se disponga. Por ejemplo, aquellos eventos de naturaleza evidentemente maliciosa pueden ser ltrados directamente por el sistema de detección, mientras que otras cuestiones en las que exista una mayor ambigüedad pueden seguir dejándose en manos del administrador. Por su parte, otros eventos de riesgo medio pueden activar un mecanismo de registro detallado. [116, 84, 340, 28, 15, 204] Reducción del volumen de noticaciones de alarma A pesar de que esta cuestión depende en gran medida de la naturaleza de la fase de análisis, una respuesta activa congurada convenientemente, de forma gradual, puede contribuir a reducir notablemente la carga de trabajo del operador del sistema de detección. [84, 340] 43 Posibilidad de intercepción del ataque En el caso de que el sistema de detección se encuentre ubicado en forma de sistema de prevención de intrusiones, esto es, dentro del ujo de información y con capacidad de intercepción de cada uno de los eventos que componen dicho ujo, a las capacidades anteriores es posible añadir esta última. Con ella, el objetivo tradicional de detección de la intrusión se extiende extraordinariamente, y hace posible que cualquier evento clasicado como malicioso sea eliminado del sistema que se está protegiendo. [28, 15, 204] 0.3.4.3.2.2 Inconvenientes Potencial exceso de responsabilidad Un importante inconveniente de los métodos de respuesta activa es precisamente una de sus capacidades. Así como la absoluta carencia de responsabilidad del sistema de detección perjudica el rendimiento de dicho sistema, un alto grado de responsabilidad supone un riesgo de inestabilidad difícilmente aceptable por cualquier administrador experimentado. De esta forma, la solución lógica pasa por encontrar un equilibrio entre ambos extremos, de manera que el sistema pueda hacerse cargo de cuestiones menores y de repercusión controlada, mientras que el operador humano toma la responsabilidad de las cuestiones de mayor impacto. [351, 84, 340, 28, 15, 26, 204] Posibilidad de subversión Esta característica se encuentra muy relacionada con la anterior, ya que en aquellos casos en los que el sistema de detección asume un gran nivel de responsabilidad, es posible que esa capacidad de actuación sea utilizada subversivamente por el intruso. Por ejemplo, es habitual la reconguración de dispositivos de red para que realicen el bloqueo de aquellas direcciones de red desde las cuales se ha detectado un determinado ataque. De esta forma, un agresor que falsica dichas direcciones en los paquetes de información que intercambia con su víctima puede conseguir que el propio sistema de detección se encargue de denegar un determinado servicio a todas las máquinas de la red que está protegiendo, con lo que habrá conseguido servirse a su antojo de la herramienta que supuestamente debía velar por la seguridad del sistema de información. [351, 84, 340, 50, 28, 15, 26, 204] 44 1.4. Retos por alcanzar La novedad más importante de ESIDE-Mendizale radica en el hecho de que hasta el momento no hay ningún producto inteligente de seguridad en terminales móviles. Las tareas que actualmente se están llevando a cabo (F-Secure Mobile, Kaspersky) son simplemente antivirales, por reconocimiento de rmas de malware conocido, y no permiten responder ante situaciones de riesgo para la que no existe un modelo claramente denido y documentado. Sin embargo, son muchas las novedades que aporta este proyecto y que lo hacen realmente interesante, tanto desde el punto de vista cientíco, como desde el tecnológico, como desde el puramente mercantil. A continuación se relacionan las más importantes: 1.4.1. Respuesta ante ataques no conocidos (Zero-Day Attacks) contra teléfonos móviles El sistema generará automáticamente y en tiempo real un modelo de comportamiento habitual del usuario que accede normalmente al teléfono móvil, en concreto a través de las interacciones internas que tienen los procesos y aplicaciones de dicho usuario con el Sistema Operativo del terminal. De esta forma, mediante auditoría continua de dispositivos, llamadas al sistema, hilos de ejecución, memoria consumida, servicios del API del Sistema Operativo, etcétera, será perfectamente posible detectar desviaciones respecto del perl habitual que puedan derivar en situaciones de peligro para el sistema. Además, esta técnica permite eliminar los costosos requerimientos de actualización que presentan los IDSs basados en reglas. A partir de las capacidades y limitaciones descritas en los apartados anteriores, se pueden observar ciertas cuestiones generales del área de conocimiento de la Detección de Intrusiones que después de veinte años de investigación permanecen sin una solución ecaz, y que actualmente constituyen los grandes retos pendientes de esta disciplina [65, 116, 351, 147, 165, 340, 78, 336, 28, 164, 15, 26, 100, 204, 358, 77, 84]. 1.4.2. Aprendizaje Bayesiano no supervisado de perles de usuario El principal reto que actualmente presenta la Detección de Intrusiones consiste en dotar a los módulos de análisis de los sistemas de detección de la capacidad de detectar ataques no conocidos, en base al comportamiento habitual de los sistemas de información y de sus usuarios. Las cifras de vulnerabilidades que aparecen periódicamente son extraordinarias [59] y, aunque las habituales actualizaciones automáticas de las bases de conocimiento contribuyen de forma notable a mitigar su impacto, la solución pasa por encontrar nuevos diseños que se enfrenten directamente al problema. Gracias a la capacidad de aprendizaje probabilístico (aprendizaje de correlaciones entre variables, e incluso aprendizaje de la estructura de las relaciones entre ellas) e inferencia que proporcionan las Redes Bayesianas y las Cadenas de Markov, se puede eliminar la costosa componente 45 de conguración y mantenimiento que presentan la mayoría de los actuales IDSs. De esta manera, tanto la generación de los antes mencionados perles de comportamiento, como el análisis propiamente dicho, se realizarán de forma transparente para el usuario nal. Como se ha mencionado en apartados anteriores, se pretende usar el entorno OpenPNL de Intel Corporation, en concreto en todo lo relativo a inferencia y aprendizaje automáticos. (Está previsto que Intel desarrolle una serie de tarjetas aceleradoras especícas para toma de decisiones mediante OpenPNL: hecho que puede aportar unos rendimientos extraordinarios -probablemente cambiará el orden de magnitud- en cualquier solución software desarrollada sobre dicho entorno.) Para ello, la Detección de Anomalías se convierte en la opción más interesante, y que presenta a priori mayores posibilidades. De hecho, es precisamente es en esta área en el que se concentra actualmente el mayor número de investigaciones. Sin embargo, tal y como se ha explicado en el apartado anterior, dicha losofía de análisis presenta importantes inconvenientes, como pueden ser el exceso de falsos positivos o la propensión a la inestabilidad de sus modelos de representación de conocimiento. Por ello, es necesario desarrollar nuevos métodos de análisis que integren de forma homogénea las capacidades de los métodos de Detección de Anomalías y de los de Detección de Usos Indebidos, potenciando de forma sinérgica las ventajas de ambos, y minimizando sus desventajas. De esta forma, será posible responder adecuadamente ante ataques bien conocidos, a la vez que ante ataques de nuevo diseño. [65, 116, 340, 78, 28, 92, 15, 83]. Además, en ESIDE-Mendizale se pretende resolver una problemática tradicional que han venido sufriendo las Cadenas de Markov, en cuanto a sus requisitos de parametrización estática. En el presente proyecto se aborda dicha cuestión de forma dinámica, mediante la novedosa técnica de Bayesian Merging desarrollada por Stolcke y Omohundro, en combinación con los algoritmos Forward, Viterbi y Baum-Welch. 1.4.3. Unicación de modelos de detección de intrusiones Otro objetivo fundamental que se plantea dentro de la Detección de Intrusiones es el de la unicación de las múltiples soluciones de análisis que existen actualmente, fundamentalmente mediante la homogeneización de los diferentes modelos de representación de conocimiento existentes, tanto de detección basada en rmas como de detección basada en anomalías. Para ello, el factor principal que debe tenerse en consideración es la taxonomía de los parámetros de análisis, ya que a partir de ellos y de su morfología deben construirse posteriormente los motores de análisis responsables de la toma de decisiones. De esta forma, en caso de conseguirse un modelo denitivo de representación que acredite potencia descriptiva y exibilidad, sería posible avanzar tanto en el mencionado objetivo de unicación, como en el anterior de detección de ataques desconocidos en base a la integración de modelos de análisis. Asimismo, y dada la naturaleza evolutiva y siempre cambiante de las tecnologías subyacentes, un paradigma de esas características contribuiría a proporcionar grandes posibilidades de extensibilidad al sistema; cualidad ésta que habitualmente marca la diferencia entre un Sistema de Detección de Intrusiones correcto y 46 uno excelente. [65, 116, 165, 205, 336, 164, 92, 15, 84]. 1.4.4. Respuesta preventiva mediante intercepción de llamadas al sistema Se pretende diseñar el IDS/IPS de manera que sea capaz de interactuar con el núcleo del Sistema Operativo, de forma que sea posible interceptar comandos y solicitudes de servicio potencialmente peligrosas. Según los grandes gurús de la detección de intrusiones, esta losofía debe marcar el futuro inmediato de los IDSs. Conseguir que según se ejecuta un determinado código se bloquee llegando a un estado anómalo en particular es como decir que se puede hacer frente a las amenazas e incluso solucionar el problema que presentan de raíz, dado que después de la intercepción hay formas en las que se puede devolver a un sistema al estado correcto de funcionamiento inmediatamente anterior. Esta casuística será cubierta en profundidad en apartados posteriores. 1.4.5. Optimización de tasas de falsos positivos y falsos negativos Como se ha explicado anteriormente, existen numerosos enfoques de Detección de Intrusiones que aún adolecen del problema de los falsos positivos, sobre todo en el caso de aquéllos que se enmarcan dentro del área de la Detección de Anomalías. La cuestión de la existencia de falsos negativos también representa un problema, sobre todo en el caso de los sistemas de Detección de Usos Indebidos, pero a menudo se solventa mediante el compromiso de realizar una conguración del sistema que proporcione una mayor seguridad, a costa de un mayor coste administrativo. Por otro lado, dicho efecto también suele mitigarse mediante una actualización frecuente de las bases de conocimiento. De esta forma, el principal asunto que queda por resolver es la reducción del volumen de falsos positivos, que en sí mismos pueden constituir una vulnerabilidad susceptible de ser explotada por un ataque de denegación de servicio, no contra el sistema de detección, sino contra el operador humano responsable de su administración. [116, 147, 165, 78, 336, 28, 92, 26, 204, 358, 77, 84]. 1.4.6. Superación de limitaciones arquitectónicas En apartados anteriores se han descrito ciertas limitaciones inherentes a los actuales Sistemas de Detección de Intrusiones orientados a la Red y al Host, como son su incapacidad para recoger (y por lo tanto analizar) convenientemente información en grandes bloques. Otra cuestión arquitectónica que frecuentemente introduce problemas de ecacia en dichos sistemas de detección es el crecimiento que habitualmente experimentan las infraestructuras hardware y software de las organizaciones. Este crecimiento puede llegar a impedir que el detector de intrusiones pueda realizar su labor convenientemente, con lo que toda la seguridad que debería aportar desaparece. Por ello, es necesario que el diseño estructural de cada una de las tres fases que componen el modelo general de todo sistema de detección contemple la cuestión de la escalabilidad con especial 47 atención. [116, 351, 78, 28, 15, 26, 100, 204, 84] Todas éstas son cuestiones en efecto problemáticas, pero no suponen propiamente un reto, ya que ya existen soluciones cuando menos parciales que las solventan. Es perfectamente posible distribuir los procesos de recogida de información, análisis y respuesta en redes con alta carga o que escalan de tamaño frecuentemente. Sin embargo, en la mayoría de los casos, dichos inconvenientes repercuten negativamente en la penetración de las tecnologías de Detección de Intrusiones en empresas y organizaciones, que no desean realizar inversiones, esfuerzos administrativos, ni reestructuraciones de infraestructura extraordinarias producto de la incorporación de dichas tecnologías. En las actuales condiciones, el retorno de la inversión no está claro, y el verdadero reto consiste en desarrollar nuevos modelos que justiquen sin lugar a dudas la implantación de la Detección de Intrusiones con todas sus consecuencias. Cuanto menos claro estaba hasta la fecha el llevar el mundo de la Seguridad de la Información a los terminales móviles, pero como se ha expuesto es de primera necesidad en los tiempos que corren. 1.4.7. Base de conocimiento estándar Se pretende diseñar la base de conocimiento que da soporte al algoritmo de análisis en formato XML, para que pueda ser portada a otros sistemas de análisis o incluso a diferentes plataformas de computación, dado el objetivo generalista del presente desarrollo en cuanto a su ámbito de aplicación. No en vano se plantea su integración con los grandes sistemas operativos que copan actualmente el mercado de terminales de telefonía móvil avanzados, como son GNU/Linux, Windows CE/Mobile, Symbian OS, Palm-OS. 1.4.8. Análisis de tráco de redes inalámbricas Dado que la utilización de redes y protocolos de comunicación inalámbricos (GSM, GPRS, EDGE, UMTS, 802.11b/g -WiFi-, Bluetooth, etc.) es una realidad cada vez mayor, este proyecto contempla el desarrollo de una batería de reglas especícas para el análisis del comportamiento de los usuarios que se conectan a los sistemas informáticos a través de estos medios, lo cual redunda de forma natural en el carácter global de esta solución de seguridad. 1.4.9. Reducción de requerimientos administrativos Actualmente, la incorporación exitosa de un Sistema de Detección de Intrusiones a la infraestructura computacional y de comunicaciones de una organización requiere un considerable esfuerzo de tiempo de administración. De hecho, por lo general, el coste principal no es el relativo a la inversión en las licencias de uso de los productos (frente al cual incluso es posible optar por 48 soluciones de detección de libre distribución58 sólidas y de reputada solvencia59 ), sino el derivado del tiempo que es necesario invertir para conseguir una conguración adecuada, así como para llevar a cabo un mantenimiento que asegure la ecacia del sistema de detección a lo largo del tiempo. Asimismo, también es determinante el hecho de que el proceso de detección pueda realizarse de forma unicada sobre arquitecturas hardware y software heterogéneas, como corresponde a la realidad de cualquier organización moderna, considerando múltiples plataformas, sistemas operativos, servicios de aplicación, etcétera. Por todo ello, cualquier modelo de funcionamiento que se plantee debe ser especialmente cuidadoso en mantener unos requisitos administrativos y de supervisión mínimos, que permitan una adopción natural del mismo por parte de empresas y organizaciones. [116, 351, 28, 164, 92, 358, 77, 84] 1.4.10. Adaptación al comportamiento del sistema A pesar de que la fructífera línea de la Detección de Usos Indebidos cuenta con casos de éxito sobresalientes, enormemente extendidos, y que se caracterizan por su relativa sencillez administrativa, cada vez es más necesario que los Sistemas de Detección de Intrusiones se adapten por sí mismos a la siempre cambiante realidad de las infraestructuras informáticas que deben salvaguardar. Esta cuestión, que en el caso anterior de los sistemas basados en rmas es importante, en el caso de los sistemas basados en anomalías es trascendental. Como se ha explicado en apartados anteriores, la Detección de Anomalías está llamada a ser la solución al problema de los ataques desconocidos, ya que es capaz a priori de ir más allá que sus homólogos basados en patrones. No obstante, aunque este extraordinario objetivo se vea satisfecho, sus habituales y costosos requisitos administrativos deberán desaparecer, o al menos igualar a los de dichos homólogos, ya que ningún modelo de detección tendrá una verdadera expansión si no minimiza sus costes de implantación y mantenimiento. [116, 351, 165, 336, 28, 164, 240, 92, 204, 358, 77] 1.4.11. Fortalecimiento del sistema de detección Actualmente, es frecuente observar cómo el propio Sistema de Detección de Intrusiones se ha convertido en uno de los primeros elementos del sistema en recibir ataques de todo tipo. De hecho, en la mente del agresor, esta realidad es fruto de un razonamiento absolutamente lógico. Para él, no es posible materializar sus subversivas intenciones de forma inadvertida bajo la estrecha vigilancia del sistema de detección. O lo que es más, en aquellos casos en los que el sistema esté congurado para prevenir ese tipo de comportamientos, dicho atacante ni siquiera 58 El concepto de software de libre distribución o software libre fue acuñado por Richard Stallman en 1.984. Dicho concepto hace referencia a una forma de entender la informática que aboga por la libertad de los usuarios para ejecutar, copiar, distribuir, estudiar, cambiar y mejorar el software [329]. 59 Actualmente, el Sistema de Detección/Prevención de Intrusiones orientado a la Red de libre distribución por antonomasia es Snort [242, 323]. 49 tendrá la posibilidad de ejecutar acción alguna. De esta forma, el sistema de detección pasa a ser una cotizada presa, que por lo general merece especial atención por parte del intruso. Por ello, es imprescindible que el diseño e implementación de dicho sistema de detección contemplen la resistencia a la subversión del mismo como un aspecto fundamental. De nada sirve un sosticado módulo de análisis basado en complejas técnicas matemáticas, si el sistema puede caer fácilmente ante un ataque de denegación de servicio, por ejemplo. Así pues, tiene que ser extremadamente difícil para un intruso potencial conseguir desactivar o manipular cualquier componente de dicho sistema de detección, así como lograr que sus acciones pasen inadvertidas ante él. De hecho, es altamente recomendable considerar la posibilidad de que el propio sistema sea capaz de automonitorizarse, en busca de ataques que hayan podido realizarse contra su integridad; solución que ya se aplica, por ejemplo, dentro de algunos sistemas operativos, para garantizar la consistencia de sus componentes internos. Además, es deseable que dicho sistema de detección sea tolerante a fallos, en la medida en que debe ser capaz de recuperar su estado ante fallos generales del sistema, ya sean éstos accidentales o intencionados. [116, 351, 165, 78, 28, 164, 92, 15, 26, 358, 77, 84]. 1.4.12. Reducción del consumo de recursos computacionales Hoy en día, la puesta en explotación de un Sistema de Detección de Intrusiones aún lleva implícito un alto consumo de los recursos computacionales de la infraestructura que se pretende proteger; especialmente en el caso de aquéllos sistemas que están orientados a la máquina. Por ello, a pesar de sus grandes virtudes, la difusión de esta tecnología encuentra actualmente grandes obstáculos a su incorporación como medida de seguridad en la infraestructura computacional y de comunicaciones de numerosas organizaciones. De esta forma, el diseño de los nuevos sistemas de detección debe asegurar la mínima sobrecarga posible de los mismos sobre los recursos del sistema de información objetivo del análisis, así como la absoluta garantía de una nula interferencia en su actividad cotidiana. A este respecto, a pesar de presentar algunas limitaciones intrínsecas (tal y como se ha explicado en apartados anteriores), la tecnología de Detección de Intrusiones orientada a la Red se revela como el más rme candidato al éxito, ya que el aprovechamiento que consigue de los recursos disponibles es máximo. [116, 351, 78, 164, 92, 100, 77, 84] 1.5. Hipótesis fundamentales A partir de los retos planteados en el apartado anterior, los cuales señalan la dirección en la que debe orientarse toda investigación cientíca que se desarrolle en estos momentos en el área de la Detección de Intrusiones, se establecen las siguientes hipótesis fundamentales,de ámbito de aplicación, de unicidad y homogeneidad, sobre las cuales se sustentan los objetivos generales, especícos y operacionales, así como el desarrollo mismo del presente trabajo: 50 Hipótesis fundamental 1: Ámbito de aplicación. Se puede aplicar cualquier tipo de técnica de Detección de Intrusiones (HIDS/HIPS) para sistemas cableados tradicionales en terminales móviles. Esta primera hipótesis se formula con el objetivo de explicar claramente que se ha llegado a un punto tecnológico tan desarrollado, que es comparable un terminal móvil a un computador cableado de hace años. Las técnicas de detección de intrusiones que se han estudiado engloban mayoritariamente técnicas para sistemas cableados de análisis de funcionamiento del Software Interno. Estás técnicas se van a poder aplicar en mayor o menor medida a los nuevos terminales móviles, debido a que actualmente tienen la misma potencia que hace unos años el resto de sistemas informáticos. Hipótesis fundamental 2: Unicidad. Es posible combinar en un único modelo de análisis las principales ventajas de los métodos de Detección de Usos Indebidos y de Detección de Anomalías orientados a la Host, e incluso alimentar el motor de Detección de Usos Indebidos con los veredictos del motor de Detección de Anomalías Esta segunda premisa se enuncia indicando que dado que los motores de Detección de Usos Indebidos son más rápidos, una vez se obtenga un resultado por parte del Motor de Anomalías, se puede incorporar a la batería de reglas del sistema. De esta forma de forma única se dispone de un sistema que aglutina el conocimiento de ambos mundos de detección que tradicionalmente han sido separados. Hipótesis fundamental 2: Homogeneidad. Es factible analizar de forma homogénea los diferentes parámetros heterogéneos propios de los Métodos de Detección de Usos Indebidos y de Detección de Anomalías orientados al Host. E incluso yendo un paso más adelante, se pueden homogeneizar los veredictos entre Sistemas de Detección basados en Host (HIDS) con los veredictos de los Sistemas de Detección basados en Red (NIDS). Como puede observarse estas hipótesis pretenden aglutinar el resultado nal de el presente proyecto: un sistema homogéneo entre diferentes fuentes: Terminales Móviles (Symbian OS, Windows Mobile, Linux Mobile...) Terminales Cableados Redes y gestión de las mismas Para lo que se ha creado una infraestructura que permita aglutinar de forma homogénea los conocimientos de los Sistemas Probabilísticos Expertos que se han desarrollado para cada submundo. Aquí se abre una vía por la que una organización puede tener a buen recaudo el completo de sus sistemas informatizados. Poco a poco se irá exponiendo la forma en la que se ha desarrollado cada parte y el modo en que se va integrando en el sistema infraestructural completo. 51 1.6. Objetivos Por todo lo anterior, el objetivo fundamental de ESIDE-Mendizale es desarrollar un Sistema de Detección y Prevención de Intrusiones en Terminales Móviles, que detecte ataques conocidos y no conocidos (Zero-Day Attacks), mediante Detección de Anomalías en las llamadas al Sistema Operativo; cumpliendo de esta forma con los objetivos del VI Programa Marco, dentro del Espacio Europeo de Investigación, en concreto en todo lo relativo a la línea "Towards a Global Dependability and Security Framework", que establece el objetivo prioritario de investigación en medidas de seguridad orientadas al fortalecimiento de sistemas informáticos, para asegurar la conabilidad en el uso de las TICs; así como con los objetivos del Plan de Ciencia y Tecnología del País Vasco, en el área prioritaria Entorno Seguro de Transacciones y Pago en Negocio Electrónicoâ, del Programa Empresa Digital. Asimismo, según las impresiones recogidas en la 11th International Conference on Concurrent Enterprising (recientemente celebrada en Munich y bajo la cual se organiza el Proyecto MOSAIC, nanciado por dicho VI Programa Marco), la Seguridad en Movilidad es uno de los pilares fundamentales para el pleno desarrollo de las TICs en Mobile Collaborative Working Environments, una de las futuras líneas prioritarias del VII FP. Así pues, para ello, se creará en tiempo real, mediante una herramienta matemática denominada Red Bayesiana (denominada así en honor al creador de su principio básico de funcionamiento, Thomas Bayes, y desarrollada como mecanismo computacional eciente de análisis multivariable por Judea Pearl, investigador de la Universidad de Cambridge), un modelo del comportamiento normal del terminal móvil, para posteriormente analizar la actividad cotidiana del mismo y detectar desviaciones que puedan comprometer su seguridad. En concreto, se pretende utilizar una tecnología recientemente desarrollada y publicada por Intel Corporation, y conocida bajo el nombre de OpenPNL (Open Probabilistic Network Library), para la programación de sus nuevos prototipos de chips de apoyo inteligente a la toma de decisiones. El objetivo fundamental que se pretende conseguir en el presente proyecto es el desarrollo de una herramienta software que detecte ataques conocidos y desconocidos (aún no documentados) contra terminales móviles, mediante el análisis de anomalías en las llamadas al Sistema Operativo. Con esta información se pretende crear un modelo del comportamiento normal del trabajo del dispositivo, para posteriormente comparar la adecuación de un determinado rastro o traza de actividad (constituida mediante múltiples parámetros recogidos del sistema en tiempo real) al modelo; permitiendo detectar desviaciones potencialmente peligrosas respecto al mismo. Estas desviaciones son indicativas de un comportamiento anormal del sistema y denotan la necesidad de noticar en forma de alarma dicho comportamiento, o de actuar de forma reactiva, impidiendo que cualquier software malicioso pueda comprometer la seguridad del terminal. Dada la actual situación de crecimiento del sector de las comunicaciones móviles, y las escasas medidas de seguridad implementadas hoy por hoy en los terminales, es realmente factible el desarrollar un producto comercial a partir del prototipo que se desarrolle en ESIDE-Mendizale. 52 Para ello, el objetivo especíco más importante que se pretende alcanzar, si bien no el único, es el de desarrollar un nuevo método de Detección de Anomalías que resuelva las problemáticas de las que aún adolecen los IDSs actuales y que, además, compatibilice dicho análisis con las habituales restricciones computacionales y de almacenamiento que suelen presentar los terminales móviles. Como ha podido observarse en el estudio del estado del arte llevado a cabo de cara a la presentación, cada uno de los actuales enfoques de diseño de IDSs proporciona soluciones a determinados problemas, pero deja sin tratamiento otras cuestiones; por lo que una labor importante que tendrá que afrontar el equipo investigador será la de desarrollar una solución que sea capaz de modelizar de forma homogénea las dos grandes losofías de detección (Patrones de Comportamiento Indebido y Anomalías), combinando las capacidades de ambas y eliminando sus respectivos inconvenientes. De esta forma, podrá darse cumplimiento al objetivo de responder ante situaciones de riesgo conocidas (mediante el conocimiento propio de la Detección de Patrones), y también ante situaciones anómalas (mediante el conocimiento propio de la Detección de Anomalías), que podrían comprometer la seguridad del terminal. Por otro lado, la capacidad preventiva de los actuales IDSs está muy limitada, y no es sucientemente efectiva en muchos casos. El IDS observa el comando, la llamada al sistema o el paquete de red enviado por el atacante, pero no está en disposición de detener ese ataque. Como mucho puede intentar abortar la conexión de red, o bloquear el rewall, cuando se trata de IDSs de red, o denegar el acceso a algunos recursos cuando se trata de IDSs de host, pero por lo general dichas respuestas suelen llegar tarde. Por lo tanto, su objetivo principal se reduce habitualmente a la mera noticación del peligro, en la conanza de que el usuario o el administrador tomen las contramedidas necesarias lo antes posible. Así pues, el segundo objetivo especíco que se persigue en ESIDE-Mendizale consiste en lograr no sólo la detección, sino también la intercepción de las solicitudes de actuación de los usuarios del terminal móvil, para poder realizar el pertinente Análisis de Anomalías antes de que dicha acción llegue realmente al Sistema Operativo, y sea por lo tanto ejecutada. De esta forma, será perfectamente posible evitar ataques evidentes, con patrones conocidos y rmas de ataque perfectamente reconocibles, y a la vez y de forma homogénea detectar ataques para los que no existe un modelo previo pero que pueden resultar en algún tipo de perjuicio para el sistema. Por último, una problemática adicional que suelen presentar los IDSs/IPSs, independientemente de su losofía de detección, es su alto grado de dependencia respecto del operador humano. Por un lado, las baterías de reglas de los IDSs basados en reconocimiento de patrones deben ser continuamente actualizadas con las rmas de los nuevos ataques se van documentando día a día, para que el sistema pueda seguir manteniéndose efectivo. Por otro lado, los IDSs basados en análisis de anomalías necesitan un profundo proceso de conguración personalizada y puesta a punto, antes de ser lanzados a explotación y durante el funcionamiento cotidiano de la plataforma en la que están instalados. Por supuesto, a este respecto, es muy conveniente mantener la losofía de continua actualización ante el enemigo, pero también es muy deseable poder disponer de un 53 mayor nivel de automatización de los diferentes procesos del IDS/IPS; nivel de automatización que puede conseguirse mediante técnicas de Inteligencia Articial como es el caso del Aprendizaje Bayesiano No Supervisado que se plantea para este proyecto. Siguiendo la línea anterior, el último objetivo especíco que se plantea en la presente propuesta consiste en alcanzar un alto nivel de autosuciencia del IDS/IPS; objetivo que redunda de forma natural en su exibilidad y adaptación a diferentes entornos y plataformas móviles. De esta forma, estos objetivos persiguen el desarrollo de un IDS/IPS de Host Móvil, que sea capaz de proteger de forma robusta toda la lógica implementada en los modernos terminales de telefonía móvil, que se anticipe de forma eciente a situaciones de peligro conocidas o no, y que requiera de una mínima interacción del operador humano; siendo su meta natural el posterior desarrollo de un producto software estable y de calidad. 1.7. Estructura de la memoria La organización de los capítulos de esta memoria es la siguiente: Capítulo primero: Introducción. En este capítulo se presenta el área de la Detección de Intrusiones desde un punto de vista global, y se maniesta su relevancia como elemento de seguridad en la actual Sociedad de la Información. Asimismo, se introducen los conceptos fundamentales de Seguridad de la Información y Detección de Intrusiones, incluyendo el modelo general de funcionamiento y las características más importantes que presentan actualmente los Sistemas de Detección de Intrusiones. A continuación, a partir de dichas características se enumeran los grandes retos que presenta la tecnología y se establecen las hipótesis fundamentales sobre las cuales se basa la presente memoria. Por último, en base a dichas hipótesis, se denen los objetivos generales, especícos y operacionales que deberán alcanzarse para la correcta validación de las anteriores hipótesis. Capítulo segundo: Entorno de trabajo. En este capítulo se describen las dos disci- plinas que conuyen en el presente estudio, como son la Detección de Intrusiones, por un lado, y los Modelos de Redes Probabilísticas, por otro. Así, en primer lugar, en relación con la primera de dichas disciplinas, se presenta la perspectiva histórica de los Sistemas de Detección de Intrusiones, desde su aparición en la década de los ochenta, hasta nuestros días. Seguidamente, se continúa describiendo las diferentes áreas de conocimiento que componen dicha disciplina, según el modelo conceptual propuesto por Emilie Lundin, y se analizan las diferentes taxonomías de sistemas de detección propuestas por diversos autores, con el objetivo de ubicar conceptualmente las hipótesis fundamentales y los objetivos enunciados. A continuación, se concluye con la descripción de las diferentes técnicas de análisis, categorizadas según los dos grandes enfoques de diseño: Detección de Usos Indebidos y Detección de Anomalías. También se incluye un breve epígrafe en el que se describen algunas implicaciones arquitectónicas. Por otro lado, en lo relativo a la segunda de las disciplinas 54 propuestas, se introducen los conceptos de Modelo de Red Probabilística y de Red Bayesiana, y se describen sus diferentes potencialidades, como son inferencia de conclusiones, mediante diversos métodos de propagación exacta de evidencia, aprendizaje automático estructural y paramétrico, y representación intrínseca de la magnitud temporal, mediante el concepto de Red Bayesiana Dinámica. Capítulo tercero: ESIDE-Mendizale. Un framework bayesiano de Detección de Intru- siones para Sistemas Móviles. En este capítulo se describe la solución propuesta, una vez explorado el área de conocimiento de la Detección de Intrusiones, así como los diferentes fundamentos probabilísticos. Dicha solución se ha dado en denominar ESIDE- Mendizale, en correspondencia con el acrónimo de Mobile Environment for Discovery of Zero-Day Attacks through Bayesian Learning. Por otro lado, para su descripción, se utiliza el modelo conceptual propuesto por Emilie Lundin, cuya exhaustiva formulación sirve en esta ocasión como inmejorable hilo conductor de la exposición. Así, a pesar de que las hipótesis fundamentales del presente estudio se ubican principalmente en la fase de Análisis, se describen las cuestiones de Análisis de Riesgos y Formalización, Recogida de Información, Análisis, Respuesta, Cuestiones Arquitectónicas, Fortaleza, Cuestiones Operacionales, Evaluación y Aspectos Sociales. Capítulo cuarto: Experimentación y Análisis de Resultados. En este capítulo, una vez denida la solución propuesta, se describe el proceso de experimentación realizado con el objetivo de contrastar la validez de las hipótesis fundamentales de la presente memoria. Por supuesto, a pesar de que son numerosas las implicaciones que presenta ESIDE-Mendizale desde los diferentes puntos de vista, dichas hipótesis fundamentales se centran en la fase de Análisis, por lo que la presente experimentación se orienta igualmente hacia esta cuestión. Se incluyen secuencialmente los análisis de los resultados obtenidos a partir de los diferentes experimentos. Capítulo quinto: Conclusiones y Líneas de Investigación Futuras. En este capítulo se recogen las diferentes conclusiones obtenidas durante el desarrollo de las investigaciones que han conducido a la consecución de los objetivos marcados en la presente tesis doctoral. Asimismo, también se incluye una relación de futuras líneas de investigación que son susceptibles de abordarse a corto y medio plazo, y en base a las cuales es posible buscar solución a ciertas cuestiones que aún permanecen por resolver, y a los nuevos retos que se plantean a raíz de las conclusiones obtenidas. Se concluye con un apartado dedicado a la bibliografía, con todas las referencias mencionadas en esta memoria. 55 56 Capítulo 2 Entorno De Trabajo 2.1. Detección de Intrusiones Durante la década de los ochenta y hasta la actualidad, el crecimiento exponencial de la actividad subversiva contra sistemas de información de todo tipo [59] ha suscitado un desarrollo igualmente acelerado en la investigación que se ha venido desarrollando en el área de la Detección de Intrusiones. Esta evolución está caracterizada por avances importantes que se han producido en momentos puntuales, y ha venido modelando un panorama general complejo y en el que entran en juego múltiples aspectos propios de los distintos enfoques de detección que se han desarrollado y sobre los que se sigue investigando. Por ello, y dado que los objetivos marcados en el presente trabajo de investigación se circunscriben a determinadas parcelas especícas de dicho panorama general, se hace necesaria una acotación del ámbito del problema que se plantea. Con este n, en la presente sección se procede a introducir las características generales del actual horizonte investigador, en concreto a lo largo de los siguientes apartados, así como las características propias de aquellos campos de la Detección de Intrusiones íntimamente ligados a los objetivos de la presente memoria, en concreto a través del apartado de Técnicas de Análisis . 2.1.1. Perspectiva Tradicionalmente, las tareas de auditoría de los eventos de seguridad que se producían en un determinado sistema de información eran llevadas a cabo de forma manual. Las máquinas en explotación existentes en los diferentes tejidos de la sociedad no eran numerosas, las cifras de usuarios y aplicaciones se mantenían en niveles bajos, y era no era descabellado el hecho de que dichas tareas se realizaran de esa manera. Sin embargo, a medida que el número de máquinas, usuarios, servicios de aplicación, capacidades de conectividad, etcétera, crecía, la magnitud del número de eventos de seguridad adquiría progresivamente una mayor dimensión que hacía inviables los tradicionales procedimientos de auditoría. Era necesario abordar la búsqueda de nuevos 57 métodos de trabajo automatizados [84, 78, 28, 271, 15] . De esta forma, en el año 1.980, James P. Anderson desarrolló un estudio, a petición de las Fuerzas Aéreas de Estados Unidos [362], en el que propuso un sistema de clasicación automático que utilizaba los eventos registrados por el subsistema de auditoría del Sistema Operativo para detectar actividades subversivas a partir del comportamiento habitual de los usuarios de un determinado sistema. Este trabajo supuso el comienzo de la Detección de Intrusiones en general, así como de la Detección orientada a la Máquina y la Detección de Anomalías, en particular. Muchas de las investigaciones que se han desarrollado desde entonces utilizan este concepto [20], incluido el presente trabajo de investigación. Posteriormente, a mediados de los ochenta, SRI International [327] comenzó un intenso esfuerzo investigador, por iniciativa del gobierno de los Estados Unidos, con el objetivo de analizar los registros de auditoría de los grandes sistemas informáticos gubernamentales y crear perles de comportamiento de los usuarios de dichos sistemas. En las primeras fases de esta investigación, la Doctora Dorothy Denning diseñó un primer modelo general de Sistema de Detección de Intrusiones, a partir del cual se desarrolló posteriormente el denominado proyecto IDES1 [237, 396]. Las conclusiones obtenidas a partir de la realización de dicho proyecto están recogidas en su histórico artículo An Intrusion Detection Model [105], y aún hoy siguen constituyendo un referente fundamental para todo trabajo de investigación que se desarrolle sobre el tema, sobre todo en el campo de la Detección de Anomalías. Por otro lado, mientras SRI International llevaba a cabo dicho proyecto IDES, el Laboratorio Lawrence Livermore [263] de la Universidad de California Davis [264] abordó el desarrollo del proyecto Haystack2 , cuyo objetivo era la construcción de una nueva versión de Sistema de Detección de Intrusiones para las Fuerzas Aéreas que proponía el análisis de los registros de auditoría mediante la comparación de los mismos con una batería de patrones de ataque predenidos [Smaha88]. Dicho proyecto dio origen a lo que hoy se conoce como Detección de Usos Indebidos, y su evolución natural, denominada DIDS3 [322], constituyó asimismo la primera solución distribuida de Detección de Intrusiones. Posteriormente, al inicio de la década de los noventa, Todd Heberlein, investigador de la Universidad de California Davis, presentó la idea de la Detección de Intrusiones orientada a la Red. Hasta entonces, los estudios realizados por Anderson, Denning y el Laboratorio Lawrence Livermore se habían centrado únicamente en la Detección orientada a la Máquina, de forma que el desarrollo del denominado proyecto NSM4 supuso una revolución conceptual en el área [161]. Además, las aportaciones de Heberlein fueron recogidas por el equipo de investigación 1 2 IDES: Intrusion Detection Expert System. En una entrevista telefónica con Crosby Marks, uno de los desarrolladores del proyecto, éste confesó que: "Searching through this large amount of data for one specic misuse was equivalent to looking for a needle in a haystack." Este sentimiento del equipo investigador ante la magnitud del problema con el que se enfrentaban les llevó a decidir dejar simbólica constancia del mismo en el propio nombre del proyecto [271]. 3 4 DIDS: Distributed Intrusion Detection System. NSM: Network Security Monitor. 58 del proyecto Haystack, quien extendió el proyecto DIDS con las nuevas ideas, proponiendo por primera vez el concepto de Sistema de Detección de Intrusiones Híbrido. En este ámbito, durante los últimos diez años, las diferentes investigaciones cientícas han ido estabilizándose (como pueden ser los proyectos NIDES5 [19], EMERALD6 [384] o la familia STAT7 [367, 170]), de forma que, desde nales de los años noventa y hasta la actualidad, han aparecido múltiples productos comerciales y de libre distribución sólidos y de contrastada solvencia (como pueden ser ISS RealSecure [335] o Snort [323]), por lo general basados en Detección de Usos Indebidos, que proporcionan soluciones ecientes a muchas de las problemáticas que presenta el área de la Detección de Intrusiones. Sin embargo, tal y como se explica en el apartado 1.3, la tecnología de la Detección de Intrusiones aún presenta grandes retos por superar, y aunque existen pruebas de concepto ambiciosas y que prometen grandes resultados, dichas aproximaciones se basan por lo general en la integración de soluciones parciales, y no en el desarrollo de un modelo de representación e inferencia intrínsecamente completo [116]. Por ello, todavía es necesario seguir trabajando en el diseño de nuevos modelos que aborden los problemas de una forma unicada y homogénea, tal y como se enuncia en las hipótesis fundamentales del apartado 1.4. 2.1.2. Modelo conceptual de Lundin El desarrollo de un Sistema de Detección de Intrusiones no se limita a la obtención de un mecanismo hardware o software que realice las tres operaciones fundamentales de recogida de información, análisis y respuesta, constituyentes del modelo general de funcionamiento descrito en el apartados anteriores. Por el contrario, dichas componentes se encuentran ubicadas dentro de un contexto más amplio y en el que existen ciertas cuestiones adicionales que es necesario tener en especial consideración a la hora de abordar el diseño de todo sistema de detección. Estas cuestiones son, en concreto, la adaptación de dicho sistema al sistema de información que se desea proteger, el impacto administrativo y económico inherente a su despliegue, y el mantenimiento de la seguridad ante ataques dirigidos hacia él [204, 154]. Asimismo, también es necesario prestar atención a otros aspectos fundamentales como puede ser la denición de la taxonomía de ataques que se pretende detectar, o la metodología de evaluación de dicho sistema de detección [17, 26, 100]. Por último, existen ciertas consideraciones éticas y legales sobre las que igualmente es necesario realizar una profunda reexión [116, 154]. Emilie Lundin describe este contexto, en su tesis doctoral, de una forma excepcionalmente precisa. La gura 2.1 está extraída de dicho estudio y pretende ilustrar las distintas áreas de conocimiento. 5 6 7 NIDES: Next Generation Intrusion Detection Expert System. EMERALD: Event Monitoring Enabling Responses to Anomalous Live Disturbances. STAT: State Transition Analysis Tool for Intrusion Detection. 59 Figura 2.1: Modelo conceptual de Lundin Áreas de conocimiento A continuación se describen las nueve áreas de conocimiento propuestas por Emilie Lundin, las cuales sirven, además de para denir el exhaustivo modelo conceptual descrito en el apartado anterior, para categorizar la actividad investigadora que se realiza actualmente en el campo de la Detección de Intrusiones: Análisis de Riesgos y Formalización Ésta es el área de conocimiento en el que se establecen los fundamentos básicos de todo el proceso de Detección de Intrusiones subsiguiente. En ella se dene el ámbito del problema de la detección y se formaliza la taxonomía de intrusiones y de parámetros de detección que se pretende utilizar como objetivo [116, 17, 26, 358, 304] . El Sistema de Detección de Intrusiones solamente será capaz de detectar aquellos ataques que puedan especicarse en base a dicha taxonomía. De esta forma, en este apartado, se estudian por tanto los diferentes tipos de vulnerabilidades, intrusiones e intrusos, que se constituyen en elementos de riesgo para las plataformas tecnológicas que se pretende proteger. Como es lógico, sin una suciente atención a esta cuestión en la fase de análisis, sería extraordinariamente difícil desarrollar un modelo de Sistema de Detección de Intrusiones que fuera realmente ecaz ante cualquier tipo de ataque. Además, sin unos objetivos claros y bien denidos también se hace especialmente ardua la tarea de evaluación de la ecacia y eciencia de cualquier tipo de sistema de detección [93]. Recogida de Información 60 En esta área se denen la taxonomía y el formato de los datos que se deben registrar para desarrollar convenientemente las tareas de análisis. Además, otras cuestiones fundamentales que se plantean en este punto son cómo debe realizarse la tarea de recogida de información, qué mecanismos de recogida son los más adecuados para ser utilizados, dónde se va a realizar el almacenamiento de dicha información, y en qué puntos del sistema es más conveniente realizar dicha recogida. El posterior análisis y por lo tanto el resultado último de la detección, serán tan ecaces como lo sea el presente proceso de recogida de información [116, 92, 204, 277, 134, 255]. Una mala calidad de los datos recogidos se traduce habitualmente en una menor cobertura ante los ataques, una mayor tasa de falsos positivos, y en una reducción de la eciencia. Análisis La tarea de análisis es el corazón de la Detección de Intrusiones, su núcleo, ya que de ella dependen las decisiones últimas que deben tomarse en el sistema de detección. En esta área recae, por lo tanto, la responsabilidad de determinar con precisión y eciencia la línea que separa el comportamiento legítimo de los usuarios de la infraestructura tecnológica de una determinada organización, del comportamiento subversivo contra dicha infraestructura. De esta forma, el reto que supone afrontar dicha responsabilidad hace que sea precisamente este componente de análisis el que constituya el área de conocimiento sobre la cual se viene realizando en los últimos años el mayor número de investigaciones y publicaciones cientícas [65, 116, 84, 340, 78, 28, 92, 15, 26, 367, 100]. Respuesta Una vez que el componente de análisis ha tomado una decisión, es responsabilidad del componente de respuesta llevar a cabo las acciones pertinentes. En el caso de haberse detectado un intento de intrusión, o bien una intrusión efectiva, es necesario poner en marcha los mecanismos de alerta pasiva o activa de que se disponga. Es perentorio noticar dicha intrusión al administrador del sistema, y mitigar en la medida de lo posible el impacto potencial de dicha intrusión sobre la infraestructura tecnológica. Las investigaciones en esta área apuntan hacia el desarrollo de nuevos modelos de representación gráca de intrusiones, mecanismos de respuesta automática ecaces y seguros, y elaboración de deniciones formales de las limitaciones a las que deben estar sujetos dichos mecanismos de respuesta activa [116, 27, 28]. Cuestiones Arquitectónicas La realidad tecnológica de la mayoría de las actuales corporaciones y organizaciones está caracterizada por el alto nivel de conectividad de sus sistemas de computación. La presencia de redes de comunicación de diferentes tipos es condición sine qua non y la distribución de los componentes de los modelos de negocio propiciada por dicha conectividad es una práctica ampliamente extendida. 61 De esta forma, no es descabellado pensar, asimismo, en la distribución de las distintas etapas del proceso de Detección de Intrusiones [89, 116, 49, 92, 384, 330, 322], con el objetivo de alcanzar mayores cotas de eciencia, tolerancia a fallos y escalabilidad. Sin embargo, la habitual heterogeneidad de los sistemas de computación, así como de las redes de comunicación, introduce una importante componente de complejidad en el sistema de detección, a la hora de recoger información proveniente de diferentes sistemas operativos, diferentes protocolos de comunicación, diferentes servicios de aplicación, etcétera. Por otro lado, existen ciertas particularidades técnicas propias de los diferentes tipos de arquitecturas que pueden llegar a suponer un obstáculo en la labor de dicho sistema de detección, como pueden ser las anteriormente descritas cuestiones de las redes conmutadas o del cifrado de las comunicaciones. Los costes de administración pueden elevarse considerablemente, en función de la exibilidad que permita el sistema de detección en el momento de su despliegue. [351, 84, 78, 28, 15, 26, 100, 204] Fortaleza Como se ha explicado en apartados anteriores, el propio Sistema de Detección de Intrusiones se convierte desde el momento de su implantación en uno de los objetivos fundamentales de cualquier intruso. Para él, es necesario pasar lo más desapercibido posible, y la labor del sistema de detección es precisamente la contraria. Esta es la razón por la que los sistemas de detección suelen ser objeto de múltiples atentados contra su propia integridad y disponibilidad[116, 385]. En concreto, es muy importante proteger la etapa de recogida de información, tanto durante el desarrollo de la misma, como posteriormente, en el momento del almacenamiento de la información que debe surtir al proceso de análisis [191]. De otra forma, la información de partida puede ser objeto de subversión y el sistema de detección estaría proporcionando una falsa sensación de seguridad. [116, 351, 84, 165, 78, 28, 164, 92, 15, 26, 358, 77] Cuestiones Operacionales Existe una amplia colección de cuestiones relativas a la utilización de los Sistemas de Detección de Intrusiones por parte de los usuarios, entre las que se encuentran la cuestión del mantenimiento, la escalabilidad, la portabilidad o la extensibilidad. Además, existen otros aspectos importantes como pueden ser la interoperabilidad entre los distintos componentes o incluso entre distintos sistemas de detección, o la supervisión administrativa necesaria para la correcta parametrización de dichos sistemas. Por ello, es necesario prestar especial atención a esta cuestión de la operatividad, ya que puede marcar en muchos casos la diferencia entre una solución eciente y que ofrece resultados de conanza, y un software sin utilidad real para el usuario [116, 351, 84, 340, 28, 164, 92, 15, 358, 77]. Evaluación 62 Esta área de conocimiento debe enfrentarse a una cuestión sobre la que aún hay mucho trabajo por desarrollar, como es la vericación de los resultados, tanto de análisis como de rendimiento, ofrecidos por los Sistemas de Detección de Intrusiones. Dicha cuestión de la evaluación ha demostrado empíricamente ser un problema de difícil solución, ya que no es fácil encontrar una taxonomía precisa de las propiedades de detección que deben medirse. Es necesario denir las propiedades que caracterizan de la forma más adecuada múltiples tipos de sistemas de cómputo y diferentes tipos de redes de comunicación, y además es necesario denir el conjunto de procedimientos de evaluación que deban aplicarse sobre dichas propiedades. De lo contrario, ante la ausencia de una referencia sólida en la cuestión de la evaluación, ni los fabricantes de solución de detección podrán comprobar la efectividad de sus productos, ni los investigadores podrán estar seguros de la solidez de los modelos de detección sobre los que investigan [116, 249, 93, 232, 184]. Aspectos Sociales La última cuestión componente del modelo conceptual hace referencia al nivel de responsabilidad social que puede recaer sobre las decisiones tomadas por el Sistema de Detección de Intrusiones, y que pueden afectar a terceras partes. Los problemas básicos que pueden observarse a este respecto hacen referencia, por un lado, al nivel de agresividad que puede congurarse en la respuesta del sistema de detección (máxime teniendo en consideración cuestiones como la potencialidad de falsicación de la identidad del atacante), así como las cuestiones de privacidad derivadas de la recogida de información necesaria para el proceso de detección. Asimismo, existe una última consideración consistente en la potencial adaptación de los modelos de respuesta con el objetivo de que sean capaces de proporcionar información pericial de carácter forense[116, 28, 154, 358] . Actuales Líneas de Investigación Cada una de las áreas de conocimiento descritas anteriormente presenta en mayor o menor medida ciertas cuestiones aún no resueltas y sobre las cuales la comunidad cientíca plantea sus líneas de investigación, con mayor o menor intensidad. Con el objeto de construir una imagen de conjunto de los estudios más importantes que se están llevando a cabo en la actualidad en el área de la Detección de Intrusiones, Emilie Lundin y Erland Jonsson han realizado una recopilación de los artículos publicados en las conferencias más representativas del sector durante los últimos años [116]. En la siguiente tabla, se incluye la versión completa que aparece en el estudio original, y en la que se hace referencia al número de investigaciones realizadas en los últimos años en las nueve áreas de conocimiento que componen el modelo conceptual. 63 Cuadro 2.1: Líneas de Investigación sobre Detección de Intrusiones Relación entre retos y líneas de investigación Cada una de las líneas de investigación descritas anteriormente y cuyo volumen de publicaciones se recoge en el apartado anterior, está íntimamente relacionada con los retos tecnológicos descritos en el Capítulo 1. La tabla puesta a continuación describe de forma gráca dichas relaciones. Como puede observarse, la línea de investigación de análisis (la cual presenta, con una gran diferencia con respecto al resto de líneas, el mayor número de publicaciones, según la tabla anterior) aborda por sí misma la mayoría de los retos fundamentales descritos en el capítulo primero, por lo que la selección de la misma como elemento fundamental del presente trabajo de investigación puede calicarse como una opción más que razonable. 2.1.3. Taxonomía De entre los diferentes elementos componentes del modelo conceptual de Lundin, aquéllos que tradicionalmente se han utilizado para categorizar las distintas tipologías de Sistemas de Detección de Intrusiones han sido los que corresponden al conjunto de consideraciones funcionales básicas. De esta forma, la recogida de información, el análisis y la respuesta son los tres pilares fundamentales que se consideran habitualmente, si bien en algunas ocasiones otras cuestiones adicionales (arquitectónicas u operacionales, por lo general) son utilizadas también como criterios de categorización. A este respecto, autores de reconocido prestigio internacional como pueden ser Alessandri, Allen, Axelsson, Bace, Debar, Kahn, Krügel o Lazarevic, expresan diferentes sensibilidades respecto a la cuestión de la categorización, por lo que no existe una taxonomía general 64 Cuadro 2.2: Relación entre retos de la Detección de Intrusiones y líneas de investigación única que pueda utilizarse como referente universal. Por ello, y con el objetivo de establecer una clasicación general sobre la cual denir el ámbito y la ubicación conceptual del presente trabajo de investigación, se incluye a continuación un breve estudio sobre las diferentes alternativas existentes. Taxonomía de Alessandri et al. A pesar de que el objetivo principal del trabajo de Alessandri et al. [17] consiste en clasicar, fundamentalmente a nivel operacional y no tanto a nivel conceptual, tanto los distintos tipos de sistemas de detección, como los distintos tipos de actividad subversiva, incluye una interesante taxonomía general de Sistemas de Detección de Intrusiones. La gura siguiente ilustra dicha taxonomía: Dicha taxonomía está construida a partir de un modelo general de funcionamiento simple, en el cual solamente se consideran los componentes de recogida de información y análisis. Dicho modelo general es compatible con los esfuerzos que desarrolla el Intrusion Detection Working Group (IDWG) del IETF con el objetivo de estandarizar los ujos de información entre componentes [102]. Taxonomía de Allen et al. Julia Allen se aproxima considerablemente al modelo general propuesto por Alessandri [15]. En este caso, la descripción funcional de un Sistema de Detección de Intrusiones se divide en tres elementos componentes: Sensor, analizador e interfaz de usuario. Alessandri consideraba 65 Figura 2.2: Taxonomía de Alessandri et al. Figura 2.3: Modelo general de Alessandri et al. 66 Figura 2.4: Taxonomía de Allen et al. que la cuestión del interfaz podía generalizarse fuera del sistema de detección, por lo que sólo contemplaba las dos primeras cuestiones. Por otro lado, a partir de dicho modelo, se describen independientemente las cuestiones de la recogida de información y del análisis. De esta forma, en cuanto a la cuestión de la recogida de información, Allen establece cuatro tipos de fuentes de información desde las cuales puede realizarse el proceso de detección: Aplicación, máquina, red o infraestructura multi-red. Además, en concreto, en la recogida de información basada en máquina, se diferencia el nivel lógico desde el que se recoge la información para la fase de análisis: A nivel de servicio de aplicación de auditoría, y a nivel de servicio de llamadas al sistema. Por último, en cuanto a la cuestión del método de análisis, se describen las dos grandes losofías: Detección de usos indebidos, rmas, o patrones, y detección de anomalías. La taxonomía representada en la gura 2.4 es un compendio de todas estas consideraciones: Taxonomía de Bace y Mell Rebecca Bace y Peter Mell siguen un modelo de taxonomía similar al propuesto por Allen et al., si bien en este caso se presta una mayor atención al componente de respuesta, en el cual se pasa de dar por supuesta la pasividad del mecanismo de respuesta (como es característico de los casos anteriores), a considerar el hecho de que dicho mecanismo pueda responder de forma activa [28]. La gura 2.5 ilustra esta taxonomía. Taxonomía de Axelsson A pesar de que Stefan Axelsson centra su estudio general sobre Detección de Intrusiones en los principios fundamentales del componente de análisis (el cual lógicamente presenta un mayor interés cientíco), también incluye una detallada categorización sobre el resto de características propias de todo sistema de detección [26]. La gura a continuación ilustra la taxonomía presentada por dicho autor: 67 Figura 2.5: Taxonomía de Bace y Mell. Figura 2.6: Taxonomía de Axelsson 68 Figura 2.7: Taxonomía de Debar, Dacier y Wespi Taxonomía de Debar, Dacier y Wespi Una taxonomía muy utilizada como referencia en la bibliografía [297] es la desarrollada por Debar, Dacier y Wespi en 1.999 [100]. En ella, además de los tres grandes elementos de categorización que aparecen en la taxonomía de Bace, se introduce la componente de la frecuencia de análisis del sistema de detección. Este aspecto ha sido especialmente relevante durante las primeras etapas de la evolución de la Detección de Intrusiones, ya que marcaba la diferencia entre aquellos sistemas que eran capaces de detectar casos de intrusión en el mismo instante en que ésta se estaba produciendo, y aquéllos que no. Sin embargo, en la actualidad, la práctica totalidad de Sistemas de Detección de Intrusiones operan en tiempo real, por lo que dicha tipología de clasicación ha perdido cierta importancia. Esta clasicación fue revisada por Stefan Axelsson [26] y el propio Debar apenas un año después [101]. En dicha revisión, se introdujo el concepto de paradigma de detección como nuevo criterio principal de clasicación; paradigma que hace referencia al tipo de análisis que se realiza y que presenta dos alternativas posibles: Detección orientada al análisis de los estados por los que pasa el sistema, y detección orientada al análisis de las transiciones entre dichos estados. Asimismo, dichas alternativas presentan a su vez dos enfoques distintos en lo referente a la evaluación que llevan a cabo sobre el sistema: Evaluación proactiva y evaluación pasiva o no intrusiva. Por último, en cuanto al tipo de fuente de información, se introducen dos nuevas alternativas: Registro de auditoría de aplicación, por un lado8 , y registro de alertas provenientes de otros sistemas de detección9 , conectados secuencialmente, por otro. La gura 2.8 ilustra estos 8 Concepto que hace que la taxonomía en cuestión se mantenga en perfecta consonancia con las alternativas propuestas por Allen [15] y Bace [28]. 9 Concepto que contempla la posibilidad de que un determinado Sistema de Detección de Intrusiones utilice la información proveniente de otros sistemas de detección conectados, de esta forma, de manera secuencial. Esta organización cooperativa de múltiples sistemas de detección permite abordar la problemática de la Reducción de Auditoría [322] de una forma potencialmente más eciente. 69 Figura 2.8: Taxonomía revisada de Debar, Dacier y Wespi. renamientos realizados sobre la taxonomía original. Taxonomía de Lazarevic, Kumar y Srivastava El modelo taxonómico más reciente es fruto de los estudios realizados por Aleksandar Lazarevic, Vipin Kumar y Jaideep Srivastava [227], y está basado fundamentalmente en las taxonomías propuestas anteriormente por Stefan Axelsson [26] y Hervé Debar et al.[100]. En particular, a los tres pilares fundamentales de recogida de información, análisis y respuesta, se propone la agregación de la cuestión arquitectónica, así como de la cuestión de la tipología de restricciones temporales a las que el sistema de detección debe estar sujeto. Taxonomía de Krügel Christopher Krügel utiliza en su tesis doctoral[50] una taxonomía similar a la propuesta por Rebecca Bace y Peter Mell [28], a la cual añade el criterio fundamental del almacenamiento de datos de auditoría. A continuación se describe, mediante la siguiente gura, la taxonomía resultante. Taxonomía de Indian CERT El Indian Computer Emergency Response Team propone una clasicación de Sistemas de Detección de Intrusiones dividida en dos grandes grupos de características: Componentes fundamentales y cuestiones adicionales [CERT/IN03]. 70 Figura 2.9: Taxonomía de Lazarevic Figura 2.10: Taxonomía de Krügel 71 Figura 2.11: Taxonomía de Indican CERT. Como puede observarse, las cuestiones fundamentales son idénticas a las recogidas por Bace y Mell en su propuesta de taxonomía. Por otro lado, las mencionadas cuestiones adicionales toman en consideración las diferentes tipologías que pueden plantearse en cuanto a arquitecturas, estrategias de control y temporización. En concreto, en primer lugar, se hace referencia a la cuestión de la ubicación del sistema de detección, que puede realizarse bien sobre el propio sistema objetivo a proteger, o bien mediante una máquina especíca dedicada a tal efecto. En segundo lugar, se hace referencia al hecho de que el control del sistema de detección puede llevarse a cabo desde diferentes niveles de descentralización, de forma que puede optarse bien por una estrategia centralizada, bien por una solución completamente distribuida, o bien por un esquema intermedio. Por último, la periodicidad operativa del sistema de detección puede categorizarse en dos grandes grupos: por un lado, sistemas orientados a determinar la ocurrencia o no de intrusiones en el sistema con nes puramente forenses, y por otro, sistemas orientados a detectar inmediatamente cualquier intento de intrusión, con el objetivo de poder plantear una respuesta mientras dicha intrusión aún está teniendo lugar. Common Intrusion Detection Framework Con el objetivo de proporcionar un marco de trabajo estándar, que permitiera tanto a fabricantes como a investigadores eliminar las dicultades de integración y comunicación que presentaban los distintos elementos de las múltiples arquitecturas de detección existentes, Kahn, 72 Figura 2.12: Arquitectura CIDF. Porras, Staniford-Chen y Tung propusieron en 1.998 una arquitectura genérica, dividida en tres grandes pilares fundamentales [208] que se describen a continuación: Arquitectura de detección CIDF10 , construida a partir de componentes genéricos, denominados Boxes, y que son responsables de las tareas de recogida de información, almacena- miento, análisis y respuesta. Lenguaje de comunicación entre componentes CISL11 , que permite un intercambio de información semántica estándar y bien denida. Especicación de directorio, a partir de la cual los diferentes componentes pueden localizarse y autenticarse entre ellos. Contribución de Kim y Spaord Dentro del área de conocimiento de la Detección de Intrusiones orientada a la Máquina, Gene Kim y Eugene Spaord introdujeron en 1.994, en su artículo of Tripwire: A File System Integrity Checker, The Design and Implementation el concepto de Vericación de Integridad, también conocido como Detección de Intrusiones orientada a Objetivos12 . En dicho artículo, los autores proponían un Sistema de Detección de Intrusiones que aplicaba técnicas criptográcas de cifrado irreversible para garantizar la integridad de aquellos recursos críticos del sistema a proteger. De esta forma, aparecía una nueva tipología de sistema de detección que, si bien mantenía claramente su orientación a la máquina, dejaba de utilizar información proveniente de los registros de auditoría de sistemas operativos y servicios de aplicación, y pasaba a utilizar sus propios registros [389]. 10 11 12 CIDF: Common Intrusion Detection Framework. CISL: Common Intrusion Specication Languaje. Detección de Intrusiones orientada a Objetivos o Target-based Intrusion Detection. 73 Figura 2.13: Taxonomía ESIDE. Contribución de Ko, Ruschitzka y Levitt Dentro del área de conocimiento de la Detección de Anomalías, Calvin Ko, Manfred Ruschitzka y Karl Levitt introdujeron en su artículo Execution monitoring of security-critical programs in distributed systems: A specication-based approach, el concepto de Detección de Anomalías basada en Especicación. Dicho concepto supone una importante innovación con respecto a la losofía tradicional de detección de anomalías, que abogaba por la creación de perles (por lo general estadísticos) de comportamiento para su posterior contraste con la actividad cotidiana de los usuarios del sistema [213]. En el caso de la presente propuesta, dichos perles no se construyen dinámicamente, sino que se especican a partir de conocimiento experto que se formaliza en forma de reglas. De esta forma, todo comportamiento que se desvíe signicativamente del conjunto de reglas preestablecidas será susceptible de ser catalogado como subversivo, y recibirá consecuentemente una respuesta en esta línea. Taxonomía ESIDE-Mendizale A partir de las múltiples consideraciones descritas en los apartados anteriores, se propone un modelo de taxonomía general que pretende sintetizar los diferentes puntos de vista, desde una perspectiva conceptual. Dicha taxonomía presenta tres pilares fundamentales: recogida de información, análisis y respuesta [351, 28, 15] , tal y como se ilustra en la gura. Además, como puede observarse en dicha gura, cada uno de esos tres pilares fundamentales presenta una categorización propia, construida a partir de las diferentes reexiones aportadas por los autores anteriores. En primer lugar, se clasican los Sistemas de Detección de Intrusiones en base al tipo de recogida de información que implementan, que puede estar orientada a la máquina, o a la red [100]. 74 Figura 2.14: Ubicación de hipótesis fundamentales De esta forma, dentro de las soluciones orientadas a la máquina, en primer lugar, pueden observarse sistemas de detección basados en información del Sistema Operativo, de los servicios de aplicación, o de sus propios registros de auditoría (característica particular de los sistemas de vericación de integridad) [389]. Además, la recogida basada en el sistema Operativo puede realizarse, asimismo, a nivel de servicio o a nivel de kernel o núcleo [15]. Por otro lado, en segundo lugar, la recogida de información orientada a la red presenta, además de los mecanismos propios de dicha categoría, un tipo especial de sistema de detección que se caracteriza por su orientación al nodo de red [84, 78, 241]. Asimismo, en lo relativo al método de análisis, la taxonomía propuesta contempla las dos grandes losofías de Detección de Intrusiones: Detección de Usos Indebidos y Detección de Anomalías [351, 50, 28, 15, 101, 100, 208]. Además, dentro de la Detección de Anomalías, se presta especial atención a la cuestión de la presencia o no de conocimiento experto, ya que el presente trabajo de investigación considera especialmente la clara diferenciación que existe entre ambos métodos [213]. Por último, la fase de respuesta presenta dos categorías de sistemas de detección: Por un lado, la tradicional respuesta pasiva, consistente en noticaciones de alarma al operador humano, y por otro, la respuesta activa contra agresiones detectadas contra el sistema que se pretende proteger [351, 49, 28, 101, 100, 208]. Además, en lo relativo a la respuesta activa, se diferencia entre aquellos sistemas que responden a la agresión y aquéllos diseñados para impedir que dicha agresión consiga impactar en dicho sistema (concepto comúnmente identicado con el término Prevención de Intrusiones) [337, 341]. 75 2.2. Técnicas de análisis Como se ha expuesto anteriormente, en los apartados anteriores, el componente de Análisis constituye la línea de investigación en la que existe actualmente un mayor interés y sobre la cual se está llevando a cabo la mayor actividad investigadora, tanto dentro del mundo académico como dentro de la industria de la Seguridad de la Información. Dicho componente acapara en estos momentos el mayor número de publicaciones de las más prestigiosas conferencias internacionales, y centra sobre sí mismo las mayores inquietudes innovadoras del área de conocimiento de la Detección de Intrusiones. Además, tal y como se ha explicado, dicho elemento mantiene una íntima relación con los retos tecnológicos que aún esperan ser resueltos, por lo que se revela claramente como el camino por el que debe desarrollarse toda investigación relevante. Por todo ello, tanto las hipótesis fundamentales, como los objetivos generales, especícos y operacionales, se centran precisamente en el mencionado módulo de análisis, y están basados esencialmente en los principios fundamentales de éste. De esta manera, con el objetivo de situar la actividad investigadora realizada en el presente estudio en el vasto horizonte de cuestiones propias del área de la Detección de Intrusiones, se describen a continuación las principales losofías de análisis existentes en la actualidad, esto es: Detección de Usos Indebidos y Detección de Anomalías. 2.2.1. Detección de Usos Indebidos Tal y como se explica en la denición 1.20, la Detección de Usos Indebidos hace referencia al método de Detección de Intrusiones que aboga por utilizar la denición previa de dichas intrusiones para su posterior contraste con la actividad cotidiana del sistema que se desea proteger [28]. De esta manera, la operatoria del sistema de detección está basada por completo en la vasta recopilación de conocimiento experto proveniente del operador humano, y que incluye una ingente cantidad de deniciones de ataques conocidos, así como de vulnerabilidades conocidas. Así pues, una vez recogido dicho conocimiento experto, la detección de cualquier rastro de una actividad que previamente haya sido catalogada como maliciosa (y que utilice por lo tanto alguno de los ataques documentados, o intente explotar alguna de las vulnerabilidades conocidas) puede llevarse a cabo de forma eciente y, sobre todo, muy precisa. No obstante, es precisamente el motivo de su efectividad la razón de que este tipo de Sistemas de Detección de Intrusiones se encuentre enormemente limitado para responder ante situaciones de riesgo para las que no existe un modelo previamente documentado. Por lo general, ante una ligera variación de uno de los ataques documentados, el sistema de detección no localiza en su base de conocimiento la rma o patrón representativo de dicho ataque y es por lo tanto incapaz de responder. Esta cuestión obliga al administrador humano a una minuciosa (y por lo tanto, costosa) elaboración de las rmas de ataque, con el doble objetivo de que sean lo más 76 Figura 2.15: Modelo general de Detección de Usos Indebidos. genéricas posible y de que no generen falsos positivos. Por otro lado, la respuesta ante un ZeroDay Attack es igualmente fallida, lo que obliga (al igual que en el caso anterior) a una periódica actualización de dicha base de conocimiento. En general, estas características propias de los sistemas de detección basados en Detección de Usos Indebidos hacen que dichos sistemas sean calicados habitualmente como precisos pero incompletos [100]. Así pues, con el objetivo de proporcionar una visión general sobre el funcionamiento interno de este tipo de sistemas de detección, que permita extraer las conclusiones necesarias para identicar las problemáticas existentes y enunciar los grandes retos que aún presenta esta tecnología, se describen a continuación los principios básicos de funcionamiento sobre los cuales está construida la inmensa mayoría de ellos. Reconocimiento estático de Patrones. Está técnica es la forma de Detección de Usos Indebidos más simple que existe, así como la más extendida, y está basada en la búsqueda de patrones o rmas básicas13 dentro del ujo de eventos proporcionado por el mecanismo de recogida de información [297, 317]. Dichos patrones están constituidos por lo general por un conjunto de atributos discretos que tiene el objetivo de formalizar el conocimiento experto que se deberá utilizar durante el proceso de detección. Por otro lado, a pesar de las limitaciones semánticas que presenta este método, su sencillez permite conseguir una gran eciencia a la hora de tomar decisiones, por lo que su utilización es en muchos casos más que suciente. Algunos de los actuales Sistemas de Detección de Intrusiones que utilizan, entre otras, esta técnica son Snort, Bro96[277], NFR97 [260, 294], RealSecure, CISCO Secure IDS [69], o Dragon [171]. 13 Es muy habitual la denición de patrones mediante la especicación de cadenas de símbolos que se correspon- den con diferentes métodos de ataque. Si se localiza una cadena o subcadena concreta dentro de un determinado evento, se habrá detectado el correspondiente ataque. 77 Figura 2.16: Batería de reglas de Snort para detección de Shellcodes Figura 2.17: Firma de Snort para detección de ataques contra Apache Figura 2.18: Firma de Bro para detección de ataques contra Apache 78 Figura 2.19: Batería de reglas de Dragon para detección de Shellcodes Figura 2.20: Firma de NFR para detección del histórico ataque Land Attack 79 Probabilidad Condicional El método anterior presenta un comportamiento suciente en muchos casos, pero adolece de una importante carencia de capacidad representativa [297]. En concreto, es habitual el hecho de que un determinado patrón identique la existencia de su ataque correspondiente no de forma categórica, sino con una cierta probabilidad [304]. De esta manera, es posible la aparición de situaciones en las que la detección del patrón no implique absolutamente el hecho de que el sistema esté siendo atacado. Por ello, un motor de análisis semánticamente completo debe contemplar el concepto de probabilidad condicional [155]: (2 : 1) P (Intrusion/P atron)14 A continuación, mediante la aplicación del Teorema de Bayes [360] a la expresión anterior, es posible obtener: (2 : 2) P (Intrusion/P atron) = P (P atron/Intrusion) P (Intrusion) P (P atron) De esta forma, a partir de la expresión 2.2, un administrador humano es capaz de cuanticar dicha probabilidad condicional, simplemente mediante el cálculo de los tres términos que componen dicha expresión. Para ello, es necesario disponer de un registro histórico que recoja la experiencia del sistema, y a través del cual sea posible cuanticar la probabilidad a priori15 [155] de la ocurrencia de una intrusión, o P (Intrusion). Asimismo, gracias a dicho histórico también es posible determinar, para cada uno de los patrones de ataque, tanto la probabilidad a priori de dicho patrón, o P (P atron), como la probabilidad condicional P (P atron/Intrusion). Por otro lado, este modo de calcular la probabilidad condicional puede no ya utilizarse ante eventos individuales, sino extenderse incluso a secuencias de eventos, con lo que se consigue una mayor capacidad representativa del estado del sistema que se pretende proteger. Para ello, sería necesario calcular, de una forma similar, la probabilidad P (Intrusion/Secuencia De Eventos [304]. Sistemas Expertos Otra losofía de análisis, extremadamente potente, que se ha aplicado en algunas ocasiones a la Detección de Intrusiones basada en Detección de Usos Indebidos es la utilización los denominados Sistemas de Producción o Sistemas Expertos[387]. Dichos sistemas persiguen el objetivo fundamental de independizar la lógica de decisión del conocimiento necesario para formalizar la solución a los problemas a los que se aplican. De esta forma, un sistema experto está compuesto 14 La expresión 2.1 indica la probabilidad condicional de que se haya producido una intrusión, ante la evidencia de haberse detectado un determinado patrón de ataque. 15 102 80 Figura 2.21: Regla de MIDAS para monitorización de cuentas de usuario privilegiadas Figura 2.22: Regla de MIDAs para análisis de horario inusual en el acceso a cuentas de usuario por lo general de un motor de análisis o inferencia, responsable de la toma de decisiones, y de una base de conocimiento basada en la especicación de baterías de reglas, cuya elaboración es responsabilidad del experto humano. En general, las reglas en las que estos sistemas codican el conocimiento experto responden al modelo if-then, de forma que habitualmente están compuestas por dos elementos: un conjunto de condiciones o hechos, y un conjunto de acciones a llevar a cabo en caso de que se cumplan las condiciones correspondientes. De esta forma, cuando el motor de inferencia detecta que un determinado evento satisface el conjunto de condiciones de una regla, simplemente dispara el conjunto de acciones asociado a dicha regla, pudiendo conrmar de esta forma nuevos hechos (satisfacer nuevas condiciones) que permiten a su vez disparar nuevas reglas, de forma encadenada, hasta que es explotado todo el conocimiento disponible. A pesar de que esta losofía de detección resulta muy precisa, por lo general, el gran volumen de datos de auditoría que habitualmente es necesario procesar a través del motor de inferencia puede llegar a introducir serios problemas de rendimiento durante su explotación. El proyecto Haystack [306] fue, en 1.988, el primer caso de sistema experto aplicado a la Detección de Intrusiones, si bien han aparecido desde entonces (sobre todo en los primeros años de la evolución) otras muchas soluciones que aplican conceptos similares, como pueden ser MIDAS16 IDES, NIDES, EMERALD, DIDS o CMDS 18 17 [317], [272]. También los más recientes y anteriormente mencionados Snort, Bro, NFR, RealSecure, CISCO Secure IDS, o Dragon usan esta técnica, en mayor o menor medida. Sin embargo, por lo general, el conocimiento experto utilizado en estos sistemas no contempla la posibilidad de que determinados patrones o rmas habiliten el disparo encadenado de nuevas reglas, lo que representa la pérdida de uno de los pilares fundamentales de los sistemas expertos. De esta forma, 16 17 MIDAS: Multics Intrusion Detection and Alerting System. MIDAS utiliza el denominado Production-Based Expert System Toolset (P-BEST), desarrollado inicialmente por Alan Whitehurst y evolucionado posteriormente en los desarrollos de IDES, NIDES y EMERALD [231]. 18 CMDS: Computer Misuse Detection System. 81 Figura 2.23: Base de hechos de P-BEST/EMERALD para detección del histórico ataque TCP SYN Flood. la verdadera esencia de este enfoque queda muy frecuentemente sin explotar y restringida a tareas secundarias de registro de información forense, debido a la complejidad administrativa que introduce su utilización plena19 . Por otro lado, este tipo de sistemas presentan por lo general una importante limitación, relacionada con su incapacidad para representar la dimensión temporal, la cual es utilizada frecuentemente para resolver la ordenación cronológica de los eventos a medida que se van produciendo en el sistema. El conjunto de todos los hechos demostrables de la base de conocimiento no lleva asociada de forma implícita ningún tipo de información temporal, por lo que dichos sistemas son simplemente incapaces de determinar el orden en que se han ido conrmando los diferentes hechos, y por lo tanto de tomar consideración cronológica alguna durante el proceso de decisión. Existen algunas soluciones que tratan de solventar esta cuestión mediante la especicación explícita de la información temporal, si bien se reducen en la mayoría de los casos a propuestas experimentales [304]. En general, aquellas problemáticas de seguridad que requieren necesariamente dichas consideraciones temporales, como pueden ser el escaneo de puertos20 o la denegación de servicio, son resueltas mediante métodos especícos, añadidos como módulos del sistema de detección [323]. Asimismo, otro inconveniente característico de estos sistemas consiste en que las decisiones del motor de inferencia están limitadas cualitativamente a la calidad del conocimiento experto de los responsables de seguridad encargados de la especicación de la base de conocimiento. Además, el modo en que dichos responsables especican el mencionado conocimiento experto puede llegar a hacer que la base de conocimiento sea en muchos casos completamente ininteligible, debido al altísimo nivel de detalle que puede alcanzarse en la elaboración de las baterías de reglas, sobre todo en entornos en los que es necesaria una alta optimización de dichas baterías. Por último, es interesante prestar atención al hecho de que los sistemas expertos son susceptibles de ser utilizados con el objetivo de combinar múltiples parámetros de Detección de Intrusiones, de forma que es posible construir un modelo homogéneo que, además, introduce en el análisis el concepto de certidumbre. En cualquier caso, la representación de la certidumbre en dichos sistemas de producción presenta grandes limitaciones, tal y como se desprende de los 19 De hecho, en las últimas versiones de Snort se apunta la posibilidad de eliminar la capacidad de encadena- miento de reglas, en benecio de una solución de registro de información forense administrativamente más sencilla, denominada Tagging [323]. 20 Escaneo de Puertos o Port Scanning [138]: An attack that sends client requests to a range of server port ad- dresses on a host, with the goal of nding an active port and exploiting a known vulnerability of that service. [288] 82 Figura 2.24: Batería de reglas de P-BEST/EMERALD para detección del histórico ataque TCP SYN Flood estudios realizados por Judea Pearl [187]. Diagramas de Transición de Estados Esta propuesta pretende optimizar el volumen del ujo de alarmas que son transmitidas hacia el operador humano. En concreto, su objetivo fundamental consiste en identicar, representar y analizar las diferentes fases por las que suelen pasar, en general, los distintos tipos de agresiones contra sistemas de información. De esta forma, en lugar de utilizar un único patrón para representar un determinado ataque, este tipo de sistemas utiliza diagramas de transición de estados, o autómatas nitos21 [373], que representan los distintos estados que debe alcanzar un intruso potencial para llevar a cabo con éxito dicho ataque. Asimismo, las transiciones entre estados se caracterizan mediante condiciones, o asertos, que deben ser satisfechas para que se materialicen dichas transiciones. Cada una de estas transiciones equivale a una regla de los anteriores sistemas expertos. Por otro lado, el estado inicial de cada uno de los diagramas representa el estado del sistema antes de ser agredido, mientras que el último de los estados se caracteriza por representar el éxito del ataque. Lógicamente, el sistema a proteger no debería llegar a ninguno de los múltiples estados nales bajo ningún concepto. De este modo, mediante el seguimiento del estado de avance en el que se encuentra un determinado atacante, es posible liberar al administrador humano de una gran cantidad de noticaciones de alarma. Solamente se le informa de aquellos eventos que pueden llevar al sistema 21 Denominados escenarios. 83 Figura 2.25: Escenario de STAT para detección de ataques contra servidores IMAP Figura 2.26: Especicación en lenguaje STATL de escenario de STAT para detección de ataque contra servidores IMAP a un estado inseguro. La primera aproximación de Sistema de Detección de Intrusiones basado en diagramas de transición de estados fue STAT[367, 170, 381] , que posteriormente fue portado a sistemas Unix bajo el nombre de USTAT[203]. Las guras siguientes, extraídas de los estudios de Steve Eckmann, describen de forma gráca un escenario de ataque contra servidores IMAP22 , escrito en lenguaje STATL[120]. Sin embargo, a pesar de lo aparentemente innovador de esta propuesta, la aportación conceptual que provee con respecto a los anteriores sistemas de detección basados en sistemas expertos no es muy grande. Ambos modelos son semánticamente equivalentes [119], por lo que cualquier diagrama de transición de estados puede representarse mediante un conjunto de reglas de producción, y viceversa. Eckmann incluso propone la traducción automática23 de baterías de reglas de Snort24 [242] en escenarios de STAT [381]. Además, se da la circunstancia de que, en muchos casos, los requisitos de rendimiento obligan a utilizar reglas muy ligeras y con pocas relaciones entre ellas, por lo que dichos modelos son muy poco utilizados en la práctica. 22 23 24 IMAP: Internet Message Access Protocol. [288] Para lo cual, el propio Eckmann ha desarrollado la herramienta Snort2Statl. A pesar de que en la mayoría de los casos solamente se utiliza la capacidad de Snort de identicar patrones estáticos, es posible utilizar toda la potencia conceptual de los sistemas de producción, a través de dos parámetros especiales, denominados activates y dynamic [323]. 84 Figura 2.27: Reglas de Snort para detección de ataques contra servidores IMAP Figura 2.28: Red de Petri de IDIOT para validación del proceso de login Redes de Petri Una variante interesante de los sistemas de detección basados en diagramas de transición de estados, es la propuesta en 1.994 por Sandeep Kumar y Eugene Spaord, en su sistema IDIOT25 [391], el cual hace uso de las denominadas Redes de Petri [56] para representar escenarios de intrusión. Dichas Redes de Petri se caracterizan por poseer una capacidad semántica superior a los tradicionales autómatas nitos [238], y su uso está muy extendido, sobre todo, en sistemas de producción automática. En concreto, una de las características más potentes que presentan es su capacidad de representar procesos o tareas concurrentes, de forma que un determinado sistema puede encontrarse en un momento dado, no en un único estado de ejecución, sino en varios. Para ello, una Red de Petri está compuesta, no sólo por un conjunto de estados y un conjunto de transiciones entre dichos estados (como era el caso de los diagramas de transición de estados, referenciados anteriormente), sino además por un conjunto de tokens, marcas o testigos, que habilitan el disparo de dicho conjunto de transiciones. De esta forma, una determinada transición no se materializará realmente, incluso aunque se conrme su condición asociada, a menos que exista un número adecuado de tokens en los estados origen de dicha transición (que pueden ser varios, al contrario que en el caso anterior) que la habiliten. Por otro lado, una vez habilitada y disparada dicha transición, se consumen los tokens ya utilizados en los estados origen, y se crean nuevos tokens en los estados destino de la misma. La gura 2.31, extraída de los estudios originales de Kumar y Spaord [390], describe de forma gráca un escenario de validación de intentos de acceso a un sistema Unix. Sin embargo, a pesar de la mayor potencia de representatividad de las Redes de Petri, la solución propuesta en el proyecto IDIOT, dada la complejidad administrativa que requiere la elaboración de redes que aprovechen todo el potencial del modelo general, no hace uso de toda la capacidad semántica que tiene a su disposición (sobre todo en lo relativo a la mencionada especicación de concurrencia) [391], por lo que es posible construir un modelo equivalente ba25 IDIOT: Intrusión Detection In Our Time. Los autores deseaban hacer referencia explícita, no exenta de cierta ironía, al habitual desfase de tiempo que existe desde que se construye el prototipo experimental hasta que se lanza el desarrollo del sistema de producción. 85 sado en sistemas expertos. Además, al igual que en los casos anteriores, la calidad de la base de conocimiento sigue dependiendo de la calidad del conocimiento experto del administrador humano responsable de la conguración del sistema de detección. Detección basada en Modelos Esta técnica fue propuesta por Garvey y Lunt en 1991[383] e introduce el concepto de modelo de ataque, en combinación con un mecanismo de razonamiento basado en evidencias que tiene como objetivo la inferencia de conclusiones. Mantiene ciertas similitudes con los métodos basados en diagramas de transición de estados, los cuales son en este caso denominados modelos, así como con los métodos basados en probabilidad condicional. De esta forma, la omnipresente base de conocimiento está compuesta en esta ocasión por un conjunto de modelos, cada uno de los cuales representa una secuencia de comportamientos constitutivos de un determinado ataque. Posteriormente, durante la explotación del sistema, a partir de las acciones de cada uno de los usuarios del mismo, el motor de inferencia va descartando probabilísticamente ciertos modelos, de forma que el conjunto de los ataques posibles que pueden corresponderse con la situación actual de dicho sistema se va reduciendo progresivamente. De esta manera, si se da el caso de que dicho conjunto de modelos potenciales queda vacío, se puede concluir que el comportamiento del usuario en cuestión es legítimo. Además, este método va más allá del mero análisis estadístico ya que anticipa, antes de llevar a cabo cada una de las comprobaciones, una selección de los parámetros de comportamiento a vericar, en base al conjunto de modelos que en un momento dado aún tiene posibilidades. De esta forma, no sólo se lleva a cabo el análisis pertinente, sino que se busca continuamente cómo realizar dicho análisis de la forma más eciente posible. En general, el proceso completo de análisis queda reducido de este modo a dos etapas: Una primera etapa en la cual se establece un conjunto de hipótesis de comportamiento, y una segunda en la cual se contrastan dichas hipótesis con la actividad registrada en el histórico de auditoría. En términos probabilísticos, si se desea obtener una vericación precisa y eciente, la relación entre las hipótesis de comportamiento y la actividad que realmente se lleva a cabo en el sistema debe constituir el valor más alto posible [304]. (2 : 3) P (Actividad/Comportamiento) P (Actividad/Cualquier otro comportamiento) Al igual que el caso de los Sistemas de Detección de Intrusiones basados en probabilidad condicional, el registro histórico de las evidencias que se producen en el sistema permite obtener un cálculo adaptativo de la probabilidad de los diferentes modelos. A medida que el sistema evoluciona, algunos de esos modelos ganan peso especíco (se hacen más probables, dados ciertos comportamientos), mientras que otros pierden relevancia. De esta forma, es posible obtener una adecuada representación del concepto de certidumbre, al igual que en el caso de los sistemas basados en probabilidades condicionales, de forma que se pueden superar ciertas limitaciones inherentes a los sistemas expertos, como pueden ser la pro- 86 pagación de la certidumbre o la aparición de hechos contradictorios. Además, dada su capacidad para anticipar los parámetros de detección a analizar, si se conguran los distintos modelos de forma que utilicen progresivamente parámetros cada vez más detallados y complejos, es posible obtener unos requisitos computacionales muy bajos. Así pues, en primer lugar, cuando aún se tiene un gran conjunto de modelos a vericar, se analizarían parámetros de grano grueso, y posteriormente, cuando el número de modelos se va haciendo cada vez menor, se irían analizando parámetros con un mayor nivel de detalle. Por supuesto, todas estas consideraciones hacen que la Detección de Intrusiones basada en Modelos presente unos requisitos de administración extraordinarios, de forma que en la práctica su utilización es muy escasa. Por último, es importante prestar especial atención al hecho de que este tipo de sistemas de detección no sustituyen a los Sistemas de Detección de Intrusiones basados en Detección de Anomalías, dada la especicación manual de las diferentes relaciones entre los múltiples parámetros que constituyen las colecciones de modelos. Esta técnica debe considerarse solamente como un complemento a dichos sistemas, como se explica en la obra de Pearl [187]. 2.2.2. Detección de Anomalías La Detección de Anomalías hace referencia al método de Detección de Intrusiones que aboga por comparar el conocimiento relativo al comportamiento habitual del sistema que se desea proteger con la actividad cotidiana del mismo. De esta forma, la operatoria del sistema de detección se basa en la elaboración y mantenimiento de un perl de actividad normal, compuesto por un conjunto de parámetros o métricas de detección, y en el posterior contraste de dicho perl con las acciones que se estén llevando a cabo en un momento dado. Toda acción que se desvíe signicativamente del perl habitual será inmediatamente catalogada como subversiva y provocará las acciones de respuesta correspondientes. De esta manera, dado que la principal fuente de conocimiento del sistema de detección es la realidad cotidiana del sistema a proteger, y no el conocimiento experto proveniente del administrador humano, es posible responder ante situaciones para las cuales no existe un modelo de ataque conocido y documentado dentro de la base de conocimiento, con lo que se consigue superar ampliamente las limitaciones características de los sistemas de detección basados en Detección de Usos Indebidos. No se utiliza la política de lista negra inherente a estos sistemas, sino que se opta por una política de lista blanca construida a partir de la observación minuciosa del sistema objetivo; de forma que es posible responder ante los Zero-Day Attacks mencionados en apartados anteriores, no en base a lo que se conoce como malicioso, sino a partir de lo que se sabe que es legítimo, o normal26 . En general, estas características propias de los sistemas de detección basados en Detección de Anomalías hacen que dichos sistemas sean calicados de completos [100], si bien adolecen de cierta falta de precisión que da origen habitualmente a mayores tasas 26 Este modo de operación corresponde al modelo general de funcionamiento, si bien existen algunas propuestas que abogan por la utilización de conocimiento experto positivo para especicar cómo debe ser el comportamiento del sistema [213]. 87 Figura 2.29: Modelo general de Detección de Anomalías de falsos positivos. De esta forma, con el objetivo de proporcionar una visión general sobre el funcionamiento interno de este tipo de sistemas de detección, que permita extraer las conclusiones necesarias para identicar las problemáticas existentes y enunciar los grandes retos que aún presenta esta tecnología, se describen a continuación los principios básicos de funcionamiento sobre los cuales está construida la inmensa mayoría de ellos. Modelos estadísticos Dorothy Denning describió en su histórico artículo An Intrusion Detection Model[105] cinco modelos estadísticos en base a los cuales es posible categorizar los diferentes parámetros o métricas de detección que alimentan actualmente a la práctica totalidad de Sistemas de Detección de Intrusiones basados en Detección de Anomalías. En concreto, el objetivo fundamental del estudio desarrollado por Denning consistía en, dado un parámetro x y una secuencia de n observaciones x1 , ..., xn , determinar si una nueva observación xn+1 es normal respecto del conjunto de observaciones previas o si, por el contrario, se desvía de forma signicativa de las mismas. Para ello, Denning propone los modelos estadísticos que se describen a continuación, algunos de los cuales fueron posteriormente incorporados dentro del proyecto IDES [237, 396]. Modelo Operacional 88 Este modelo está basado en la hipótesis de que la normalidad de los parámetros que componen un determinado evento puede decidirse mediante la comparación de los mismos con un conjunto de valores límite que se establecen manualmente en base al histórico de evidencias. De esta forma, aunque las observaciones anteriores no se usan directamente en la decisión, sirven para establecer esos límites particulares de las diferentes métricas de detección. A este respecto, el ejemplo de modelo operacional por antonomasia es el de un contador de intentos de login por unidad de tiempo, a partir del cual una observación por encima del límite habitual sugiere la existencia de un intento intrusión. Modelo basado en media y desviación típica Este modelo pretende generalizar el modelo operacional, aportando una mayor capacidad representativa que se consigue a partir de los conceptos estadísticos clásicos de media, varianza y desviación típica [155]. Para ello, el presente modelo se basa en la hipótesis de que los valores más representativos del conjunto de las n observaciones pasadas son precisamente la media y la desviación típica, las cuales se calculan mediante las expresiones siguientes: (2 : 4) Sumatorio = x1 + ... + xn Sumatorio de cuadrados = x21 + ... + x2n (2 : 5) (2 : 6) (2 : 7) M edia = V arianza = Sumatorio n Sumatorio de cuadrados − M edia2 (n − 1) √ (2 : 8) Desviacion tipica = V arianza De esta forma, una nueva observación es catalogada como anómala si cae fuera de un intervalo de conanza centrado en el valor de la media y con un margen denido por el administrador como una fracción k de la desviación típica. La expresión dene formalmente los límites de dicho intervalo: (2 : 9) M edia ± k∆Desviacion tipica Este modelo puede utilizarse sobre distintos tipos de parámetros, como pueden ser contadores de eventos, temporizadores, y demás métricas acumulables. Además, presenta dos grandes ventajas con respecto al modelo anterior, ya que, por un lado, no necesita conocimiento acumulado sobre la actividad del sistema para denir los diferentes límites. Por el contrario, el propio modelo es capaz de aprender por sí mismo qué valores constituyen la actividad normal del sistema, y 89 en qué intervalos de conanza debe ubicarse el comportamiento de los usuarios. Además, por otro lado, como los intervalos de conanza pueden construirse de forma especíca para cada uno de los usuarios, el modelo soporta aquellas circunstancias en las que lo que es normal para un determinado usuario sea anómalo para otro. Por último, con el objetivo de minimizar las posibilidades de sufrir Session Creeping, es posible plantear una variante de este modelo que penalice progresivamente las observaciones más antiguas, en benecio de las más recientes. Modelo Multivariable Este modelo pretende generalizar el modelo basado en media y desviación típica, analizando las potenciales correlaciones existentes entre dos o más métricas. Esta losofía está basada en la hipótesis de que es posible obtener una mayor capacidad de discriminación a partir de combinaciones de múltiples parámetros de detección, que a partir de métricas individuales. De esta forma, por ejemplo, la decisión de clasicar el comportamiento de un determinado usuario, se realizaría en base al análisis conjunto de una colección de métricas como pueden ser tiempo de procesador consumido, número de procesos en ejecución, número de operaciones de entrada-salida solicitadas, frecuencia de acceso al sistema, duración de la sesión de usuario, etcétera, etcétera. A este respecto, es interesante señalar el hecho de que uno de los mecanismos matemáticos de análisis multivariable más poderosos son precisamente las Redes Bayesianas [187], mencionadas anteriormente, y en base a las cuales se ha desarrollado el presente trabajo de investigación. Modelo basado en Cadenas de Markov Este modelo pretende complementar a los modelos anteriores, introduciendo el concepto de estado en el proceso de análisis. Los distintos tipos de análisis descritos hasta el momento toman sus decisiones sin tener en consideración las múltiples circunstancias por las que ha podido pasar el sistema que se pretende proteger, por lo que su capacidad de representación se encuentra limitada. Por el contrario, en este caso, se propone la utilización de un mecanismo matemático orientado precisamente a resolver este problema de falta de memoria, y que es conocido habitualmente como Cadena de Markov. Para ello, este modelo considera no sólo el evento que acaba de producirse en este instante en el sistema, sino también el que se produjo en el instante anterior. De esta forma, internamente, se construye una matriz de estado que caracteriza las frecuencias de transición entre los múltiples estados por los que puede pasar el sistema a lo largo de su ciclo de vida (en lugar de las frecuencias individuales de cada estado, como es característico de los casos anteriores). Así pues, una determinada observación es categorizada como anómala si su probabilidad de ocurrencia, dado el estado anterior, es demasiado baja. Por otro lado, es interesante señalar la posibilidad de que este tipo de análisis puede generalizarse aún más, con el objetivo de tomar en consideración no ya el estado inmediatamente anterior, sino un conjunto de n estados anteriores, mediante la utilización de Cadenas de Markov Generalizadas [90]. 90 Por último, es importante prestar especial atención al hecho de que este tipo de análisis, que constituye un subconjunto semántico de las anteriormente mencionadas Redes Bayesianas [73, 206, 57, 115, 63, 291], también se incorpora, de forma implícita, a la solución propuesta en el presente estudio. Modelo Temporal Este último modelo pretende complementar las propuestas anteriores, analizando, además del orden en que se producen los eventos en el sistema (tal y como es característico del caso anterior), la longitud de los intervalos de tiempo existentes entre dichos eventos. Básicamente, se reduce a la aplicación del modelo basado en media y desviación típica a una métrica especial que no es más que el intervalo de tiempo transcurrido entre un determinado evento y el anterior. De esta manera, una determinada observación será clasicada como anómala si su probabilidad de ocurrir en ese preciso instante es demasiado baja. Este tipo de análisis presenta la ventaja de ser capaz de estimar tendencias de comportamiento a lo largo del tiempo, lo que le permite detectar cambios graduales en dicho comportamiento y adaptarse a la nueva realidad del sistema que se pretende proteger. También esta cuestión es tomada en consideración en el presente trabajo de investigación, con lo que el exhaustivo modelo estadístico de Denning es abordado en toda su extensión. Detección de Umbral La detección de umbral constituye la forma más simple de Detección de Anomalías. Por lo general, el principio básico de funcionamiento consiste en analizar, dentro de un intervalo de tiempo, una determinada métrica de detección, como puede ser, por ejemplo, el número de intentos de conexión fallidos por unidad de tiempo. Si una vez realizada la observación, dicha métrica excede un determinado umbral, establecido previamente, se considera dicha observación como anómala y se dispara la acción de respuesta correspondiente [297]. Un Sistema de Detección de Intrusiones que goza de gran popularidad y que utiliza esta técnica es Tripwire [174, 357, 389]. Este tipo de detección se corresponde fundamentalmente con el modelo operacional propuesto por Denning. Detección basada en Perles La detección basada en perles pretende generalizar el método anterior de detección de umbral, de forma que en lugar de considerarse una única métrica de detección, son analizados perles compuestos por múltiples parámetros que sirven para obtener una representación más precisa de la actividad que se lleva a cabo en el sistema. La siguiente tabla incluye algunas de las métricas utilizadas por el sistema IDES [396, 237]. 91 Cuadro 2.3: Métricas utilizadas en el sistema IDES de Detección de Intrusiones basada en perles De esta forma, la combinación de este conjunto de métricas para un determinado usuario, constituye en cada momento un perl actual de comportamiento, que es comparado periódicamente con un perl almacenado que contiene los múltiples valores umbrales de dicho conjunto de métricas. Si se produce una situación en la que el perl actual se desvía signicativamente del almacenado, se considera dicho perl actual como anómalo y se genera la respuesta pertinente [297]. En algunos sistemas de detección, además, el mencionado perl almacenado se actualiza regularmente con los datos contenidos en el perl actual, con lo que se consigue la adaptación automática a potenciales cambios en el comportamiento de los usuarios [304]. Esta modalidad de detección se corresponde fundamentalmente con el modelo operacional propuesto por Denning, si bien, en función del tipo de comparación que se implemente internamente, puede presentar además ciertas peculiaridades propias del modelo basado en media y desviación típica, del modelo multivariable, y del modelo temporal. Métricas Estadísticas En la línea del modelo operacional, del modelo basado en media y desviación típica, del modelo multivariable y del modelo temporal propuestos por Denning, la detección basada en métricas estadísticas aboga por el análisis conjunto de los distintos parámetros de detección en base a una expresión heurística compuesta que combine las distintas componentes de anomalía posibles. Sobre este principio básico de funcionamiento está basado, por ejemplo, el sistema de detección NIDES [19], en el cual se utilizan además los conceptos anteriormente mencionados de perl actual y perl almacenado. En concreto, el perl almacenado que se utiliza está compuesto, en general, por un conjunto de i métricas s1...si , mientras que el perl actual está compuesto por i observaciones c1...ci. Por otro lado, los valores de anormalidad o anomalía ai se obtienen como la diferencia en valor absoluto entre ambos perles, de forma que se obtiene un conjunto de valores a1...ai, para los que ai=|si - ci|. Además, no es habitual que todas las métricas tengan la misma relevancia, de forma que es necesario añadir un peso especíco wi a cada métrica. Por 92 último, tampoco es habitual que todos los valores de anomalía tengan la misma repercusión en la decisión nal. Las anomalías importantes deben tener una mayor relevancia que otras anomalías menores, por lo que es necesario considerar dichos valores al cuadrado, por lo menos [297, 304]. Todas estas consideraciones sirven para construir la expresión 2.10, la cual constituye el núcleo fundamental del mencionado proyecto NIDES. (2 : 10) Anomalia = w1 a21 + w2 a22 + ... + wi a2i , ∀i > 0 De esta forma, cualquier evento que produzca un valor de anomalía por encima de un determinado umbral, establecido de antemano, será considerado como anómalo y suscitará la respuesta correspondiente por parte del sistema de detección. En general, este tipo de sistemas de detección (al igual que el caso anterior, de detección basada en perles) permite advertir utilizaciones anómalas de los recursos computacionales del sistema que se desea proteger de forma ecaz, si bien presenta ciertos inconvenientes de importancia, como pueden ser su incapacidad para representar información temporal (al igual que el caso de la Detección de Usos Indebidos basada en sistemas expertos), la posibilidad de sufrir ataques de Session Creeping, y su falta de precisión en entornos en los que el comportamiento de los usuarios es ligeramente errático o voluble[93]. Sistemas basados en Reglas La Detección de Anomalías basada en sistemas de reglas pretende aportar una mayor capacidad semántica a los modelos anteriores. Mientras los sistemas de detección basados en métricas estadísticas resuelven el problema de la comparación de perles mediante formulación matemática, sus homólogos basados en sistemas de reglas proponen, como se describe en apartados anteriores, la utilización de un motor de inferencia responsable de interpretar baterías de reglas que formalizan conocimiento experto. De esta forma, dado que los mencionados sistemas basados en reglas presentan un mayor poder expresivo [297], se pretende mediante su utilización la resolución de algunos de los problemas inherentes a dichos modelos anteriores, como son el modelado explícito de información temporal, y la adaptación del sistema de detección al comportamiento anárquico de algunas tipologías de usuarios. Un sistema de Detección de Anomalías basado en sistemas de reglas es ADS27 [380]. Dicho sistema de detección está orientado a la máquina y es capaz de analizar información del Sistema Operativo proveniente de los niveles de servicio, o de llamada al sistema, y de interpretación de comandos. Para ello, es necesario especicar conjuntos de reglas que representan el comportamiento de cada uno de los usuarios del sistema, incluyendo métricas como el tipo de llamadas al sistema permitidas, número de solicitudes de servicio realizadas, etcétera, etcétera. Una vez elaborado ese perl de comportamiento, durante la explotación del sistema de detección, cualquier actividad que sobrepase los límites establecidos en el mismo será considerada como anómala por el motor de inferencia, y se ejecutarán las acciones de respuesta correspondientes. 27 ADS: Anomaly Detection System. 93 Figura 2.30: Batería de reglas de TIM En general, esta técnica está basada en la hipótesis de que las secuencias de eventos no se producen aleatoriamente, sino que por el contrario siguen patrones regulares e identicables28 . Por ello, un objetivo fundamental que se aborda es el del análisis de anomalías en la ordenación de eventos, lo que hace que la Detección de Intrusiones adquiera una mayor calidad. Otros ejemplos de sistemas de detección que utilizan esta técnica son Wisdom and Sense29 [395] y TIM30 [353]. La gura superior ilustra de forma conceptual el funcionamiento de una batería de reglas de TIM, inferida a partir de la observación de una secuencia de eventos registrada en el sistema a proteger. A pesar de lo particular de su enfoque, su mecanismo de inferencia es muy similar a las anteriormente mencionadas Cadenas de Markov, por lo se ajusta extraordinariamente al modelo de detección basado en Cadenas de Markov propuesto por Denning. Por su parte, la gura siguiente ilustra un caso de ejemplo de estructura de reglas de decisión de Wisdom and Sense, de similar capacidad representativa. Redes Neuronales Dado que el objetivo fundamental de todo Sistema de Detección de Intrusiones basado en Detección de Anomalías consiste en deducir, a partir de un conjunto de x1 ...xn observaciones, el grado de normalidad del evento xn + 1[105], la aplicación del mecanismo matemático de aprendizaje e inferencia conocido como Red Neuronal [MacKay02] se revela como una opción natural, con prometedoras posibilidades [386, 275]. En concreto, el objetivo fundamental que se persigue con este enfoque es el de representar todo el conocimiento relativo a los perles de comportamiento de los usuarios de una forma implícita al mecanismo de inferencia, y no mediante los habituales esquemas explícitos inherentes a las aproximaciones basadas en perles, métricas estadísticas o sistemas expertos. De esta forma, se enriquece, potencialmente, el conocimiento 28 Esta técnica también es conocida habitualmente como Generación de patrones predictivos o Predictive Pattern Generation [304]. 29 30 Wisdom and Sense: Sabiduría y Sensibilidad. TIM: Time-based Inductive Machine. 94 Figura 2.31: Árbol de reglas de Wisdom and Sense relativo a las múltiples relaciones existentes entre los diferentes parámetros de detección, con lo que la calidad de las decisiones inferidas es teóricamente superior [297, 304]. Para ello, se organiza un esquema de funcionamiento compuesto por dos fases: aprendizaje, o entrenamiento, y explotación. De esta manera, en primer lugar se entrena la red neuronal con un histórico de la actividad de que se ha registrado en el pasado, el cual, además de las métricas propias del perl de comportamiento, debe incluir un parámetro de detección adicional que representa la clasicación de dicha actividad. Dicho parámetro de clasicación representa el hecho de si la actividad analizada ha supuesto un ataque (y en caso armativo, el tipo de ataque) o no contra la seguridad del sistema, de forma que su nalidad última no es otra que la de etiquetar el conocimiento disponible para así proporcionar a la posterior fase de explotación conciencia sobre el hecho clasicatorio. Posteriormente, una vez que la red neuronal ha sido entrenada convenientemente, tanto el conjunto de los múltiples perles de comportamiento, como sus métricas componentes, quedan representados implícitamente y de forma unicada en las múltiples conexiones neuronales que componen la citada red. De esta manera, la red en cuestión puede ser nalmente utilizada para obtener conclusiones acerca del tipo de categorización que debe aplicarse a las nuevas observaciones que se registren en el sistema. Si los parámetros de detección que componen un determinado evento mantienen cierta similitud con los recogidos por la red neuronal, dicho evento será considerado anómalo y el sistema de detección responderá en consecuencia. De esta forma, estos sistemas de detección presentan poderosas posibilidades: son capaces de adaptarse por sí mismos 95 Figura 2.32: Aplicación de redes neuronales a Detección de Intrusiones a sistemas computacionales cuya realidad evoluciona a lo largo del tiempo, mantienen una alta estabilidad del conocimiento asimilado (incluso en situaciones sujetas a la inuencia de componentes de ruido), son capaces de inferir conclusiones de alto nivel de abstracción, sin necesidad de hipótesis estadísticas previas, y además son muy ecientes, una vez puestos en explotación. Sin embargo, la utilización de redes neuronales introduce un serio inconveniente en lo relativo a la inferencia de relaciones de tipo causa-efecto, ya que dentro de su naturaleza existe una absoluta incapacidad de explicación de las conclusiones que ofrecen. La suma de sus múltiples conexiones, una vez entrenadas adecuadamente, proporciona unos resultados precisos y de conanza, pero es imposible determinar cuáles son las causas exactas que producen dichos resultados[57]. Por otro lado, la mencionada fase de aprendizaje requiere por lo general unos costosos esfuerzos administrativos de supervisión, que hacen que, por lo general, este tipo de sistemas de detección vea reducida su aplicación a condiciones de laboratorio. Algunos casos de Sistemas de Detección de Intrusiones desarrollados en base a redes neuronales son los prototipos correspondientes a los estudios realizados por Ángel Grediaga31 et al. [149], Anup Gosh32 et al. [148], James Cannady y Jim Mahaey [54], David Endler , y Jake Ryan y Meng-Jang Lin [382]. A pesar de tratarse de un enfoque especialmente particular, puede clasicarse de una forma intuitiva dentro del modelo multivariable de Denning. La gura anterior ilustra un caso de red neuronal utilizada para predicción de comandos en sistemas Unix [Fox+90]. 31 En las investigaciones realizadas por Grediaga et al. y Cannady y Mahaey se utiliza un tipo especial de red neuronal denominado Mapa Auto-Organizativo [338], que presenta la característica de que su fase de entrenamiento puede realizarse de forma no supervisada. Ésta es una propiedad fundamental para conseguir unos requisitos administrativos mínimos, que permitan una adopción natural del Sistema de Detección de Intrusiones resultante por parte de empresas y organizaciones. 32 En las investigaciones realizadas por Gosh et al. se utiliza un tipo especial de red neuronal denominado Red de Elman [122], que presenta la característica de que ser capaz de representar implícitamente la magnitud temporal. Ésta es una propiedad fundamental para poder construir un modelo de representación y unos motores de aprendizaje e inferencia que tomen en consideración de forma intrínseca el hecho cronológico. 96 Figura 2.33: Firma ISL de NFR Lenguajes de Especicicación de Intenciones Un método que aboga por la especicación apriorística del comportamiento de los usuarios del sistema, es la utilización de lenguajes interpretados a través de los cuales especicar dicho comportamiento33 . De esta forma, es posible la vericación en tiempo real del grado de desviación que está sufriendo el comportamiento actual de un determinado usuario, con respecto a su comportamiento ideal, especicado mediante uno de dichos lenguajes. Éste es un método que, además de permitir la especicación de comportamiento legítimo, también puede utilizarse para representar conocimiento experto sobre comportamientos maliciosos de los que el administrador humano tenga constancia, debido al alto grado de capacidad expresiva que presenta. Algunos casos de éxito de Sistemas de Detección de Intrusiones que utilizan esta técnica son IDML34 [230], NFR o Stalker[307]. En todos ellos, se utilizan lenguajes de especicación expresamente desarrollados para cada caso, si bien también existen soluciones de detección que utilizan lenguajes de propósito general de construcción de sistemas expertos, aplicados a la especicación de escenarios de Detección de Intrusiones, como pueden ser P-BEST35 o CLIPS36 [299]. Las guras siguientes ilustran dos casos de representación de conocimiento de Detección de Intrusiones propios de NFR y P-BEST/EMERALD, respectivamente. Por último, también es interesante prestar atención, respecto a la utilización de lenguajes de especicación de intenciones, a los ambiciosos estudios realizados por Jon Doyle et al.[112] en el Instituto Tecnológico de Massachusetts [251]. La gura 2.38 muestra un ejemplo de especicación de escenario de intrusión en un servidor de transferencia de cheros escrito en el lenguaje propuesto en dicho trabajo de investigación. Clasicación Bayesiana Los métodos de clasicación Bayesiana [187] están basados en los conceptos clásicos de Teoría de la Probabilidad de probabilidad conjunta [155] y probabilidad condicional, y se caracterizan fundamentalmente por conseguir la clasicación no supervisada de objetos. Esta propiedad de la no supervisión permite que estos métodos de análisis presenten unos requisitos administrativos mínimos y que los hacen especialmente atractivos, ya que elimina la necesidad de que sus 33 34 35 36 Conocidos como lenguajes de especicación de intenciones o Intent Specication Languajes o ISL [297]. IDML: Intrusion Detection Markup Languaje. Utilizado dentro del proyecto EMERALD, entre otros. Utilizado dentro de los proyectos CLIPSNIDS y DIDS, entre otros. 97 Figura 2.34: Batería de reglas ISL de P-BEST/EMERALD Figura 2.35: Firma ISL del MIT 98 inherentes procesos de aprendizaje deban ser administrados por el operador humano, como es menester, por ejemplo, en los casos de los métodos de detección de umbral, o en los basados en perles, en métricas estadísticas, en sistemas de reglas, o en redes neuronales [304]. Figura 2.36: Red Bayesiana trivial de modelado de actividad intrusiva De este modo se consigue una adaptación natural e instantánea a la evolución a lo largo del tiempo de los sistemas que se pretende proteger, ya que es posible mantener, en paralelo con los procesos de inferencia y decisión, perennes procesos de aprendizaje automático. Además, un sistema de clasicación Bayesiano permite la identicación automática del número de categorías de clasicación, dado el conjunto de datos a clasicar126, permite operar en base a datos incompletos, permite el análisis unicado de parámetros, sin los habituales criterios y restricciones de excepción presentes en la mayoría de sistemas de detección, e incluso soporta el análisis homogéneo de parámetros discretos y continuos; parámetros que, además, pueden ser tanto cuantitativos como temporales [376]. Sin embargo, a pesar de sus enormes posibilidades, también presenta ligeros inconvenientes. Por un lado, estos métodos aún presentan cierta dicultad para denir los umbrales de detección más adecuados; tarea que sigue siendo responsabilidad del administrador de seguridad. Por otro lado, como es característico de cualquier sistema de adaptación automática al sistema objetivo, presentan la teórica posibilidad de sufrir ataques de Session Creeping [57]. Algunas propuestas de Sistemas de Detección de Intrusiones que utilizan métodos de clasicación Bayesianos son los proyectos SPAMBayes [399], ADAM37 [32] y eBayes38 [Valdés+01], así como los estudios realizados por Steven Scott [305] , Nasser Abouzakhar et al. [13], Christopher Krügel et al. [215], Burroughs et al. [47], y Nong Ye y Mingming Xu [244]. La gura anterior ilustra un sistema de clasicación bayesiano utilizado para Detección de Intrusiones orientada a la máquina [304]. Algoritmos Genéticos Los denominados Algoritmos Genéticos [82] constituyen una técnica de búsqueda y optimización, perteneciente al área de conocimiento de los denominados Algoritmos Evolutivos [121], 37 38 ADAM: Audit Data Analysis and Mining. Proyecto desarrollado por SRI International, como elemento componente del proyecto EMERALD. 99 Figura 2.37: Algoritmo Genético general, en pseudocódigo que también ha sido propuesta dentro del área de conocimiento de la Detección de Anomalías, en concreto como componente fundamental del motor de análisis del proyecto GASSATA39 [219], desarrollado por Ludovic Mé. En general, este tipo de métodos están basados en la mecánica de la Genética y de la Selección Natural [303]. De esta forma, el proceso de búsqueda u optimización se organiza en base a los principios genéticos clásicos de herencia, mutación, selección y recombinación, para a partir de cromosomas, formados por vectores de parámetros de detección, dar origen a un conjunto de generaciones sucesivas cuyos últimos miembros se ajusten perfectamente al problema propuesto. Al nalizar dicho proceso evolutivo, sólo habrán sobrevivido los más fuertes. De este modo, los resultados obtenidos por Mé fueron realmente prometedores, presentando una tasa de acierto del 0,996 y una tasa de falsos positivos del 0,0044. Además, el tiempo necesario para obtener dicha solución fue mínimo, por lo que la sobrecarga introducida en el sistema se mantuvo en unos niveles realmente bajos. Otros estudios interesantes desarrollados en esta línea pueden ser los llevados a cabo por Dong Kim et al. [211], por Wei Li[368], por el grupo de investigación de Jan Elo [280], por Susan Bridges y Rayford Vaughn [40], por Sinclair et al. [320], y por Mark Crosbie y Gene Spaord [76]. Lógica Difusa La denominada Lógica Difusa40 [75] es una extensión de la Lógica de Boole [361] que se caracteriza por ser capaz de representar el concepto de certidumbre, o grado de veracidad, aproximándose de esa forma al concepto idóneo de Probabilidad [57, 115]. De este modo, mientras la lógica clásica utiliza únicamente los conceptos absolutos de verdadero o falso, la lógica difusa utiliza múltiples niveles o grados de veracidad, proporcionando de esa manera una mayor aproximación al razonamiento humano. Por ejemplo, un Sistema de Detección de Intrusiones basado en lógica difusa puede representar el concepto muy peligroso. Por ello, es posible que un determinado evento sea clasicado como perteneciente (con diferentes grados de pertenencia) a más de una clase simultáneamente. La gura siguiente ilustra de forma conceptual la diferencia entre ambos enfoques utilizando para ello una única métrica de detección como es el número de puertos TCP-IP accedidos por unidad de tiempo [41]. 39 40 GASSATA: A Genetic Algorithm as an Alternative Tool for Security Audit Trails Analysis. Lógica Difusa o Fuzzy Logic. 100 Figura 2.38: Clasicaciones convencional y difusa de un parámetro de detección Por otro lado, es interesante tomar el consideración el hecho de que esta tecnología es susceptible de ser utilizada por sí sola, como elemento fundamental del proceso de Análisis, o bien de usarse como complemento a otras técnicas de detección, como es el caso del proyecto IIDS41 , desarrollado en la Universidad de Mississippi por [41, 40]. Otras Susan Bridges y Rayford Vaughn42 investigaciones desarrolladas al respecto son las llevadas a cabo por John Dickerson et al. en el proyecto FIRE43 [106, 107], así como los estudios realizados por Chavan et al. [64], Jonatan Gómez y Dipankar Dasgupta[377], y Jianxiong Luo [183]. Máquinas de Vector Soporte Las denominadas Máquinas de Vector Soporte44 [365] constituyen un método no lineal basado en optimización cuadrática [150, 394] de aprendizaje supervisado dirigido a la resolución de problemas de clasicación y regresión. Por lo tanto, el objetivo principal de dichos métodos ante el problema de la Detección de Intrusiones se reduce a clasicar la actividad de los usuarios, en principio en las dos grandes categorías canónicas: Maldad y Bondad. Este modo de operación es similar a los que caracterizan a otros enfoques, como pueden ser las redes neuronales o los clasicadores bayesianos, de forma que su aportación conceptual es limitada. Por otro lado, la propia denición del término incluye una premisa, como es el hecho del aprendizaje supervisado, que en general supone un importante obstáculo para la eciente utilización de un hipotético Sistema de Detección de Intrusiones que resultara de la aplicación de las referidas máquinas de vector soporte. Otros métodos, como pueden ser las Redes Bayesianas, permiten operar de forma ecaz sin dicha supervisión del entrenamiento [57, 115], de forma que los costes de administración correspondientes se mantengan dentro de unos límites de adecuada eciencia económica. Algunas 41 42 IIDS: Intelligent Intrusion Detection System. En el desarrollo de este proyecto, Bridges y Vaughn utilizaron Lógica Difusa combinada con Algoritmos Genéticos. 43 44 FIRE: Fuzzy Intrusion Recognition Engine. Máquinas de Vector Soporte o Support Vector Machines [SVM]. 101 Figura 2.39: Clasicación de eventos basada en máquina de vector soporte investigaciones en las que se han aplicado los principios fundamentales de dichas máquinas de vector soporte son las llevadas a cabo por Crina Groçan et al. [150], por Srinivas Mukkamala y Andrew Sung [394, 256], por Zonghua Zhang y Hong Shen [156], por Heller et al. [162], y por Hu et al. [167]. La gura ilustra de forma conceptual el mecanismo de clasicación característico de las máquinas de vector soporte [167]. Data Mining El denominado Data Mining45 [349, 158], también conocido como Knowledge Discovery in Databases46 , es una técnica de búsqueda automática de patrones o pautas regulares de conocimiento en ingentes volúmenes de información, para la cual se utilizan fundamentalmente técnicas estadísticas y de reconocimiento de patrones. De este modo, la esencia última de dicha aproximación no diere sustancialmente de otras alternativas propuestas anteriormente, salvo por su orientación no supervisada y por los grandes requerimientos de eciencia que presenta. De esta forma, se pretende dar un paso adelante en la tecnología estadística clásica mediante la automatización del proceso de extracción de conocimiento. Por otro lado, aunque los problemas especícos a los que puede enfrentarse el Data Mining son múltiples, son tres los que predominan habitualmente, ya que proporcionan un conocimiento de mayor calidad: Clasicación, Análisis Multivariable de Relaciones y Análisis de Secuencia [229]. A continuación se describen someramente las mencionadas problemáticas: Clasicación El objetivo fundamental del problema de clasicación consiste en asignar una categoría a cada uno de los hechos de la base de datos. Por otro lado, puede darse la circunstancia de que el conjunto de categorías esté denido de antemano, o que deba ser inferido a partir de los datos. 45 46 Data Mining o Minería de Datos. Knowledge Discovery in Databases (KDD) o Descubrimiento de Conocimiento en Bases de Datos. 102 A este respecto, las Redes Bayesianas en general, y las Redes Bayesianas de tipo Naïve en particular, constituyen el paradigma por excelencia de clasicación automática a partir de los datos [57, 115]. Análisis Multivariable de Relaciones En este caso el problema consiste en identicar las relaciones de correlación y causalidad existentes entre las múltiples variables que componen cada uno de los hechos de la base de datos, mediante la aplicación de tests estadísticos de independencia e independencia condicional. Al igual que en el caso anterior, las Redes Bayesianas suponen un método excepcional para la resolución de dicho problema [57, 115]. Por otro lado, es interesante prestar atención a la absoluta correspondencia existente entre este aspecto del Data Mining y el modelo multivariable propuesto por Denning. Análisis de Secuencia En esta ocasión el problema consiste en identicar las relaciones de correlación y causalidad existentes entre los múltiples estados por los que pueden pasar las secuencias de eventos que tienen origen en un determinado sistema de información. En este caso, los denominados Modelos de Markov constituyen una excelente aproximación, si bien están superados por las anteriormente mencionadas Redes Bayesianas, las cuales, aunque presentan unos mayores requisitos computacionales, proporcionan una mayor capacidad de representación [57, 115], imprescindible para la resolución de problemas complejos. Al igual que el caso anterior, es interesante prestar atención a la absoluta correspondencia existente entre esta cuestión y el modelo basado en Cadenas de Markov propuesto por Denning. Son abundantes las investigaciones realizadas en el campo de la Detección de Intrusiones que aplican técnicas de Data Mining. Algunas de las más representativas son las llevadas a cabo por Guy Helmer et al. [163], por el equipo de investigación de la Universidad de Minnesota [227, 110], por Wenke Lee y Salvatore Stolfo47 [228, 229, 393], de la Universidad de Columbia, y por Christina Warrender et al. [374]. Selección de parámetros de detección Al vasto abanico de posibilidades de análisis descrito en los apartados anteriores es necesario añadir la cuestión fundamental de la formalización de la información que entra a dicho proceso de análisis, en la línea del modelo conceptual propuesto por Emilie Lundin [116]. De esta forma, una cuestión tan importante como la selección del modelo de análisis es la selección de aquellas métricas o parámetros de detección a partir de los cuales debe desarrollarse éste, de modo que la diferenciación entre la actividad anómala y la actividad legítima que se registre en el sistema 47 Lee y Stolfo utilizan un enfoque de inducción de reglas a partir de los datos muy similar al utilizado en el proyecto TIM. 103 a proteger pueda llevarse a cabo de manera eciente. Para ello, es necesario seleccionar, de entre la amplia colección de métricas que pueden estar a disposición del sistema de detección (en las múltiples y variadas circunstancias propias de cada tipo de sistema), aquel subconjunto de ellas que resuelva de forma precisa y eciente el problema. Esta cuestión se denomina habitualmente Selección de parámetros de detección, y adquiere una complejidad adicional debido a que, por lo general, distintos tipos de ataque requieren la utilización de distintos tipos de métrica. Por ello, un determinado subconjunto limitado de parámetros no suele ser adecuado para representar cualquier tipo de ataque, y además, por otro lado, un conjunto excesivamente elevado de parámetros no consigue, en general, buenos niveles de rendimiento. De esta forma, la solución pasa por alcanzar el equilibrio entre una adecuada capacidad representativa y una eciencia satisfactoria, mediante la selección dinámica de dichos parámetros de detección [304]. A este respecto, Heady et al. [160] proponen en su trabajo de investigación una aproximación de Sistema de Detección de Intrusiones basada en Algoritmos Genéticos que permite explorar todo el espacio de métricas posibles, con el objetivo de seleccionar un subconjunto ideal. En ella se busca, a partir de un conjunto inicial de parámetros de detección y mediante las operaciones genéticas anteriormente mencionadas de herencia, selección, recombinación y mutación, un proceso de selección natural que obtenga subconjuntos de métricas más fuertes, a partir del grado de acierto de las predicciones de intrusión que se consiguen en cada una de las generaciones. Aquellas generaciones que representan mejor el conjunto de ataques de entrenamiento son potenciadas y resultan seleccionadas a la hora de llevar a cabo nuevas generaciones, en detrimento de aquellas otras que se encuentran más alejadas del modelo ideal. Dentro del área de conocimiento de los propuestos Modelos de Redes Probabilísticas, en general, y en el caso del presente trabajo de investigación, en particular, esta selección se realiza de forma natural mediante un procedimiento estadístico especialmente interesante, dada su gran riqueza semántica, denominado Análisis de sensibilidades [57]. Combinación de múltiples métricas Una vez determinado el conjunto de métricas que mejor es capaz de determinar la presencia o no de actividad intrusiva en el sistema, es necesario un último esfuerzo de combinación de todos esos parámetros de detección en una única medida que proporcione unidad al análisis. Sólo de esta manera es posible obtener una magnitud que represente de forma global y unicada la verdadera dimensión del riesgo que supone cada uno de los eventos que se analizan en el sistema de detección. Para ello, dos enfoques de combinación muy extendidos son la utilización de propiedades estadísticas Bayesianas, bien a partir de la aplicación sus principios fundamentales o bien mediante el uso de los Modelos de Redes Probabilísticas, y la utilización de Matrices de Covarianzas [304]. Por otro lado, además de la obtención de magnitudes de unicación de métricas, estos principios combinatorios pueden generalizarse de forma que sus benecios sean 104 aplicables no ya a múltiples parámetros de detección, sino incluso a múltiples veredictos que puedan ser generados por diferentes Sistemas de Detección de Intrusiones que cooperen en las tareas de decisión. En concreto, en el presente trabajo de investigación también se plantea esta cuestión, la cual se aborda mediante el uso de Redes Bayesianas de tipo Naïve, las cuales están especícamente orientadas a la resolución de problemas de clasicación [57]. Estadística Bayesiana Dado un conjunto de métricas A1 , A2 , ..., An utilizadas para determinar la legitimidad de la actividad que se registra en el sistema que se pretende proteger, es posible obtener conclusiones globales acerca de la realidad de dicho conjunto de métricas, mediante la aplicación de los principios probabilísticos clásicos establecidos alrededor del Teorema de Bayes. Para ello, en primer lugar, es habitual realizar un proceso de discretización de dichos parámetros de detección, que por lo general implica la existencia de al menos dos estados48 : Maldad (o anormalidad) y Bondad. Por otro lado, también es habitual el planteamiento de la hipótesis de que el sistema objetivo es susceptible de sufrir intentos de intrusión, los cuales podrán, posteriormente, resultar exitosos o no. Dicha hipótesis de intrusión se representa como I y está sujeta a una distribución de probabilidad P (I). A continuación, a partir de estas consideraciones, es posible calcular la conabilidad y la sensibilidad de cada una de las métricas de detección Ai mediante las expresiones P (Ai = 1/I ) y P (Ai = 1/ ∼ I ). De esta forma, la probabilidad condicional de I , dado el conjunto de parámetros Ai , mediante el citado Teorema de Bayes, puede representarse mediante la expresión: (2 : 11) P (I/A1 , A2 , ..., An ) = P (A1 , A2 , ..., An /I)∆ P (I) P (A1 , A2 , ..., An ) Como puede observarse, es necesario calcular la distribución de probabilidad conjunta del conjunto de métricas, dada la variable I. Para ello, es necesario tener en especial consideración el hecho de que el número de probabilidades requerido para representar dicha distribución de probabilidad es exponencial en el número de parámetros [57, 304], lo que puede hacer que el análisis sea computacionalmente intratable. Por ello, para conseguir que el problema sea abordable en términos de eciencia, es habitual tomar ciertas hipótesis de independencia condicional, que se traducen en un exponencialmente menor número de probabilidades necesario. En concreto, por lo general, se considera que cada uno de los parámetros de detección es independiente de los demás, condicionalmente dada I . Dichas hipótesis se resumen en las siguientes expresiones, las cuales resultan en la expresión nal: (2 : 12) P (A1 , A2 , ..., An /I) = π Y P (Ai /I) i=1 48 Por supuesto, en este punto, no es imprescindible que dicha discretización sea binaria, sino que es posible plantear cualquier tipo de categorización, tanto de los parámetros de detección de entrada, como de los parámetros de salida obtenidos a partir de éstos. 105 P (A1 , A2 , ..., An / ∼ I) = (2 : 13) π Y P (Ai / ∼ I) i=1 (2 : 14) Qn P (Ai /I) P (I/A1 , A2 , ..., An ) P (I) Qn i=1 = P (∼ I/A1 , A2 , ..., An ) P (∼ I) i=1 P (Ai / ∼ I) Así pues, de esta forma, es posible calcular la probabilidad de ocurrencia de una intrusión, dada una observación o evidencia del conjunto de métricas. Por supuesto, las hipótesis de independencia condicional tomadas pueden no ajustarse completamente a la realidad, por lo que siempre es necesario contemplar la posibilidad de existencia de relaciones entre los parámetros de detección, a costa de unos menores rendimientos computacionales. Matrices de Covarianzas El proyecto NIDES utiliza un modelo de representación de relaciones estadísticas entre variables basado en el concepto de Matriz de Covarianza [155]. De esta forma, el conjunto de métricas A1 , A2 , ..., An se representa como un vector A que permite el cálculo de una medida de anomalía compuesta, en base a la expresión que se indica a continuación, en la que C es la matriz de covarianzas que representa la dependencia estadística existente entre cada par de variables de entrada. AT C −1 A (2 : 15) Dicho modelo de representación es realmente eciente, pero adolece de una importante carencia de capacidad semántica, ya que solamente es capaz de representar relaciones entre parejas de variables [304]. En ningún caso pueden plantearse conclusiones basadas en múltiples parámetros de detección, por lo que la calidad expresiva de este método se encuentra muy limitada, máxime teniendo en consideración el hecho de que otros enfoques, entre los cuales se encuentran las anteriormente mencionadas Redes Bayesianas, soportan perfectamente cualquier requisito de análisis multivariable [57, 115, 187]. 2.2.3. Modelo General de Denning Además de la propuesta de modelo estadístico de Detección de Anomalías, Dorothy Denning [105] también propuso un Modelo General de Detección de Intrusiones, el cual perseguía el objetivo de integrar los benecios y potencialidades de los métodos de Detección de Usos Indebidos y de Detección de Anomalías. Dicho objetivo abstracto de integración evitaba tomar en consideración cualquier aspecto de bajo nivel, como pudieran ser el tipo de sistema objetivo, la formalización de datos de entrada, etcétera, lo que ha contribuido notablemente a que los principios establecidos en dicho modelo general sigan siendo vigentes en los actuales Sistemas de Detección de Intrusiones. La gura siguiente ilustra el mencionado modelo [304]. 106 Figura 2.40: Modelo General de Detección de Intrusiones de Denning Como puede observarse, los distintos eventos concretos se trasforman en una primera fase en eventos abstractos, independientes de cuestiones como tipo de plataforma, Sistema Operativo, protocolo de red, etcétera. Posteriormente, estos eventos son utilizados para alimentar tanto a un primer motor de análisis basado en perles de comportamiento, denominado Activity Prole, como a un segundo motor de análisis basado en reconocimiento de patrones, denominado Rule Set. De esta forma, dicho Activity Prole, por un lado, utiliza el modelo estadístico de Denning descrito anteriormente para detectar desviaciones signicativas de los perles de comportamiento, a la vez que es capaz de construir nuevos perles ante la aparición de nuevos usuarios o recursos en el sistema a proteger. Por su parte, el Rule Set se apoya sobre un sistema basado en reglas, para detectar comportamientos subversivos conocidos. Además, el Activity Prole es capaz de formular en forma de reglas del Rule Set toda aquella actividad que identica como anómala, de forma que a partir de ese momento, será éste último el encargado de detectar nuevas apariciones de dicha actividad, con el incremento de eciencia que ello conlleva. Por supuesto, ésta es la propiedad más poderosa del modelo propuesto por Denning, y sobre la cual descansan todos los esfuerzos de integración de las dos grandes losofías de detección llevados a cabo en sus trabajos de investigación. Por otro lado, aunque el presente estudio, desarrollado en el ámbito del proyecto IDES de SRI International, revela la importancia de la integración de los dos grandes enfoques de Detección de Intrusiones y constituye aún actualmente un referente de enorme importancia, alcanza dicha integración mediante la utilización de una única colección de parámetros de detección que es compartida por los dos motores de análisis. Los datos son la esencia de la integración, pero la inferencia que se realiza sobre dichos datos es heterogénea y, por lo tanto, sujeta a grandes limitaciones de expresividad que restringen la calidad de las conclusiones que se obtienen. No obstante, a este respecto, es posible encontrar modelos de representación, como las Redes Bayesianas, que aúnan completamente los principios de funcionamiento de dichos grandes enfoques, consiguiendo un modelo de representación unicado y homogéneo por un lado, y un método 107 de obtención de conclusiones que permite tanto el análisis y la toma de decisiones, como el aprendizaje de comportamiento, de una forma también unicada y homogénea, por otro [57, 115, 187]. Respecto a esta cuestión, es interesante observar la completa adecuación de dichas características a la declaración de objetivos general, especícos y operacionales del presente trabajo de investigación. 2.3. Implicaciones Arquitectónicas en el Análisis Además de las técnicas de análisis expuestas anteriormente, existe una serie de propuestas relativas al modelo arquitectónico en base al cual se construye un determinado Sistema de Detección de Intrusiones que introducen ciertas consideraciones importantes en el proceso de análisis. A continuación se describen las más representativas. 2.3.1. Detección basada en Agentes de Software Los conceptos de Agente Software, Agente Autónomo y Agente Colaborativo [386], constituyen un enfoque de diseño que persigue dotar de sensibilidad y autosuciencia a los procesos que implementan la lógica de negocio de cualquier servicio de aplicación tradicional. Además, también tratan de conseguir el objetivo de la colaboración mediante la distribución lógica de las cargas de trabajo. De esta forma, un agente software se desarrolla por lo general como un proceso independiente del sistema, que será gestionado únicamente por el Sistema Operativo, y que formará parte de una plataforma general dentro de la cual cumple una determinada labor, monitorizando aquellos eventos que sean de su responsabilidad, analizándolos y actuando en consecuencia. El paradigma de sistema de agentes autónomos aplicado al campo de la Detección de Intrusiones es el proyecto AAFID49 [30], desarrollado por el equipo de investigación de Gene Spaord en la Universidad de Purdue. La gura anterior ilustra un caso de ejemplo de arquitectura AAFID, en la que, como puede observarse, se plantea un estructura jerárquica en base a tres tipos de componentes fundamentales implementados en forma de agentes autónomos. De esta forma, cada uno de los agentes AAFID puede ser bien un Agente de campo, bien un Transceptor, o bien un Monitor. Por supuesto, cada una de estas categorías tiene asignada una misión concreta. En primer lugar, los agentes de campo recopilan toda la información proveniente de la máquina que se desea proteger, en el modo en que se especica en el apartado de formalización. Posteriormente, toda esa información es enviada al transceptor asignado a cada uno de los agentes, de forma que pueda encargarse de la coordinación de las operaciones de dichos agentes, así como de la importante tarea de la Reducción de auditoría, la cual redunda de forma notable en la eciencia del motor de análisis. A continuación, los resultados de este procesamiento son enviados al monitor corres49 AAFID: Autonomous Agents For Intrusion Detection. 108 Figura 2.41: Modelo General de Detección de Intrusiones de Denning pondiente, quien tiene la responsabilidad de realizar el análisis propiamente dicho. Por último, existe una capa de interfaz de usuario que puede aplicarse a cualquiera de los monitores, a través de los cuales es posible realizar las labores de administración tanto del propio monitor, como de los transceptores u otros monitores asignados a dicho monitor, como de los agentes de campo asignados a dichos transceptores. De esta forma, se consigue un Sistema de Detección de Intrusiones modular, robusto, escalable y extensible. El desarrollo de cada uno de los agentes es más sencillo y, por lo tanto, más seguro. Por otro lado, el sistema en su conjunto no está sujeto a un único punto de fallo, como es habitual en sistemas con una orientación más centralizada. Por último, también es posible incorporar nuevos agentes ante el crecimiento del sistema que se pretende proteger, así como añadir fácilmente nuevas funcionalidades. Todas estas ventajas no pueden pasar desapercibidas, dada la acelerada evolución a la que están sujetos los actuales sistemas de computación y comunicaciones, por lo que son tomadas en especial consideración en el presente trabajo de investigación. Otros estudios realizados en la misma línea más recientemente son los llevados a cabo en la Universidad de Iowa por Guy Helmer et al. [Helmer+03], en el Instituto Nacional de Estándares [260] por Wayne Jansen et al. [196], y en la Universidad de Monterrey por Joseph Barrus [33]. 109 Figura 2.42: Representación conceptual de GrIDS de una epidemia vírica 2.3.2. Detección basada en Grafos La enorme capacidad infecciosa de algunas de las actuales amenazas que se ciernen sobre sistemas de información de todo tipo[332], en combinación con ciertas peculiaridades intrínsecas propias de cada una de ellas, han dado origen a una propuesta de Sistema de Detección de Intrusiones que propone la identicación de dichas amenazas en función precisamente de características exclusivas de su modo de propagación. Dicha propuesta, denominada GrIDS50 , ha sido desarrollada por el equipo investigador de Stuart Staniford-Chen [330], de la Universidad de California Davis, y aborda el problema de la Detección de Intrusiones de esa manera. En concreto, el sistema GrIDS monitoriza la actividad existente entre las distintas máquinas conectadas a la red de comunicación del sistema de información que se pretende proteger, y obtiene patrones de actividad, en forma de grafo, que posteriormente son comparados con los patrones de propagación de epidemias conocidas que ya se encuentran documentadas. De esta forma, el objetivo fundamental consiste en detectar estos ataques a gran escala en las primeras fases de su desarrollo. La gura ilustra de forma conceptual un caso de epidemia vírica representada por GrIDS en forma de grafo. Por un lado, se muestra un primer grafo que representa la propagación de una amenaza en sus primeros estadios de evolución, y por otro, se muestra un segundo grafo en el que la citada epidemia ha alcanzado un estado completamente avanzado. 2.3.3. Sistema Inmunológico Existe una línea conceptual dentro del área de conocimiento de la Detección de Intrusiones que aboga por aprovechar las similitudes existentes entre un Sistema de Detección de Intrusiones y el sistema inmunológico de los seres vivos [325]. Para ello, el objetivo fundamental de dicha línea conceptual no consiste sino en diferenciar con precisión qué elementos de los presentes en la realidad del sistema a proteger son propios de dicho sistema y cuáles no. A este respecto, es interesante observar el alto grado de correspondencia de dicho objetivo fundamental con los 50 GrIDS: Graph-based Intrusion Detection System. 110 principios básicos de la Detección de Anomalías. De esta manera, al igual que un organismo vivo es capaz de reconocer comportamientos extraños propios de antígenos, un sistema de detección inmunológico es capaz de detectar comportamientos anómalos de los usuarios, así como comportamientos clasicados de antemano como subversivos. Además, este tipo de sistemas persiguen otra serie de cuestiones que en el caso de los organismos vivos se dan con naturalidad, como pueden ser la orientación completamente distribuida, la diversidad, la adaptabilidad, la autonomía, la cobertura dinámica, la detección de anomalías, la identicación de comportamiento, la no existencia de componentes de conanza, o la detección subóptima o imperfecta. Como puede deducirse de manera natural, estas características se adecuan extraordinariamente al conjunto de retos por alcanzar planteados. No obstante, a pesar de lo ambicioso de los objetivos planteados y del horizonte de posibilidades que se abre de forma apriorística ante este enfoque de detección, las investigaciones realizadas hasta el momento no han conseguido eludir una costosa etapa inicial de aprendizaje supervisado, en la misma línea que otros enfoques anteriormente descritos. Por otro lado, a pesar de la supuesta novedad de la estrategia arquitectónica que se plantea, los métodos de análisis que se utilizan dentro de cada uno de los elementos componentes del sistema inmune también se corresponden con dichas aproximaciones anteriores, por lo que el nivel de innovación aportado en lo puramente analítico es limitado. Algunas investigaciones interesantes sobre el tema son las desarrolladas por Haiyu Hou y Gerry Dozier [378], por Dipankar Dasgupta y Fabio González [96], y por el equipo de investigación de Steven Hofmeyr . 2.4. Técnicas de Análisis especícas para Host Intrusion Detection Systems (HIDS) Los Sistemas de Detección de Intrusiones para Sistemas Operativos, o Host, como se vienen denominando tradicionalmente requieren de datos para poder realizar su labor. Ha pasado bastante tiempo desde que se empezó a tener ideas sobre cómo facilitar la auditoría de sistemas en orden de garantizar la seguridad de los mismos. Existen incluso documentos, de hace bastante tiempo, que arman que sin la capacidad de generar y almacenar información de auditoría, no se puede considerar un sistema como seguro [279] La auditoría permite dos puntos de acción fundamentales: el primero y más importante es que si ha acaecido una violación de la seguridad del sistema, los sucesos que se han ido produciendo son repetibles; así mismo, como segundo punto se tiene el que se va a poder predecir el comportamiento de los usuarios y actuar en consideración si se estima un posible ataque en base al conocimiento anterior. Los Sistemas de Auditoría tienen que ser capaces de: Aceptar datos de los procesos que puedan registrar sus propios datos de auditoría. 111 Recoger la suciente información como para deducir lo que está pasando en el sistema. Recolectar datos en la totalidad del sistema a todos los efectos. Hacer acopio de sucesos relativos a la seguridad en otras partes interesantes, aun sin ser dependientes del host. Otro de los problemas habituales en este tipo de sistemas es el hecho de que los eventos, evidencias o muestras se producen muy rápido. Usualmente se afronta esta tesitura en genérico como en la plataforma de [279], CMW51 , Recolección Selectiva y Reducción Selectiva. La Reducción Selectiva se basa en recoger sucientes datos para cumplir los requisitos de identicación de usuarios, objetos accedidos, nivel de seguridad, etcétera. La Recolección Selectiva es idéntica al caso anterior pero recogiendo selectivamente cualquiera de las partes anteriores acorde al patrón que se esté buscando. Así mismo, los datos deberán ser almacenados bien localmente o bien externamente en centros de recopilación de información. El hecho de almacenar la información localmente sucinta un riesgo de poder ser alterado indebidamente. La recogida de datos que plantearon en su momento abordaba 3 niveles importantes de modo que la captura fuera global: intercepción de llamadas de sistema (syscall) en kernel, en la interfaz que se le proporciona por el sistema operativo al usuario y a captura de interacción entre sistema operativo y aplicación. El problema asociado es el volumen de datos generados, dado que son muchos los recursos a monitorizar: sistema, aplicaciones, usuarios, etc. 2.4.1. Preámbulo: Ataques Mimicry en Sistemas de Detección de Intrusiones Se hace un estudio [372] sobre diferentes tipos de sistemas de detección basados en host (HIDS) para ver la seguridad que presentan contra diferentes ataques evasivos. Los ataques denominados Mimicry permiten a un atacante realizar el ataque sin ser detectado por ninguno de los sistemas existentes. Para poder demostrar este tipo de ataques se desarrolla una aplicación marco que permitiera efectuarlos, demostrando que era viable realizarlos contra la seguridad existente en una implementación concreta de HIDS. Los autores argumentan que para detección de anomalías, casi todos las llamadas al sistemas se pueden traducir en operaciones de no-operación (no-op), de forma que puedan desorientar al sistema de detección realizando nalmente la tarea que se desea. Hay mucha literatura que explica diferentes mecanismos de detección que son susceptibles a engaños mediante este tipo de técnica: Sistemas basados en el análisis de llamadas al sistema [134, 310, 14, 309] Minería de datos [369, 229] Redes Neuronales [14] 51 Compartmented Mode Workstation 112 Autómatas Finitos [52] Modelos de Markov Ocultos [374] Reconocimiento de patrones en secuencias de comportamiento [343, 344] Una de los puntos de partida de este tipo de técnica es el hecho que no todo código malicioso tiene la necesidad de llamar a una llamada al sistema. Como segunda arma los atacantes suelen tener de su mano la paciencia, esperar hasta que la secuencia sea aceptada por el sistema de detección como comportamiento normal para lanzar el ataque, incluso conduciendo el aprendizaje del sistema en uno u otro sentido. El atacante contra sistemas basados en detección de llamadas de sistema, puede introducir un troyano que se encargue de modicar las librerías a las que se ha llamado para realizar una determinada tarea. Una parte importante que se debe tener en consideración cuando se realizan este tipo de ataques es el hecho de que generalmente, después de haber realizado el ataque el sistema entra en una serie de trazas de syscalls a las que le ha llevado el código atacante, que generalmente no están contempladas por los sistemas de detección indicando esta anomalía debidamente (detección a posteriori al ataque producido). Para poder solucionar este tipo de situaciones se debe llegar a realizar un cierre de aplicación anticipado pero existente en el sistema de detección, haciendo pasar el ataque como un fallo de programación en vez de como una violación en la seguridad. Otra aproximación bastante acertada es realizar un ataque mediante las cadenas de syscalls más comunes dentro de la aplicación objetivo. Es decir, crear de las diferentes trazas que se puedan tener, aquella que sea más común para que la desviación nal sea lo menor posible. Siguiendo esta línea incluso se pueden realizar ataques o troyanos que emulen a la aplicación objetivo después de haber realizado el ataque para que el sistema parezca que se encuentra en un estado correcto. Un fallo o carencia habitual en los sistemas de detección es la ausencia en el estudio de los parámetros, haciendo que haya situaciones en las que varias llamadas sean la misma, queriendo realizar cosas muy diferentes: Listing 2.1: Ejemplo de un ataque Mimicry 1 //LLAMADA AL SISTEMA INOFENSIVA open ( " / l i b / l i b c . s o " , O_RDONLY) ; //LLAMADA AL SISTEMA DE POSIBLE ATAQUE 6 open ( " / e t c / shadow " , O_RDWR) ; Otro defecto observado es que si no hay forma de insertar el código atacante dentro del modelo de la aplicación que mantiene el IDS, hay una forma de variar la secuencia del ataque 113 mediante la inserción de operaciones que no hagan nada. Estas operaciones conocidas como, sin operación (nop), sirven para que la traza se mantenga acorde a lo que ha aprendido el sistema de detección, pero realmente el objetivo nal es conseguir poner en marcha la vulnerabilidad de la seguridad deseada. Continuando con lo expuesto en el párrafo anterior, siempre es posible generar las variaciones en el ataque que permitan llegar a la situación en la que el detector no va a ser capaz de indicar la anomalía. Un ejemplo puede ser tan simple como que una llamada read() de un chero en memoria, puede ser equiparada en código a una mmap() seguida de un acceso a memoria. Por la misma regla, hay secuencias que pueden ser desordenadas desde el ataque original al necesario para evadir el sistema HIDS. De la misma forma unas pocas llamadas al sistema le dotan al atacante de un poder especial, como por ejemplo la fork(). Esta última llamada es tratada por los sistemas HIDS desdoblando el sistema para seguir al proceso padre y al proceso hijo, lo que permite al atacante realizar el ataque en dos pasos diferentes dentro de distintos procesos. Además si se consigue un acceso a la llamada execve() se le ofrece al ataque la posibilidad de ejecutar cualquier cosa que desee en el sistema. 2.4.2. Detección mediante Análisis Forense Es posible mejorar el conocimiento de lo sucedido en un sistema informático mediante el uso de técnicas forenses [198] que no requieren de predecir la naturaleza del ataque, el conocimiento del atacante o de los detalles de los recursos del sistema y objetos afectados. Los principios incluyen la grabación de datos sobre el sistema operativo en su totalidad, particularmente los eventos y entornos en espacio de usuario, así como interpretando los eventos en capas de diferente abstracción según el contexto donde han sucedido. Los autores además, proponen la creación de una máquina de estados nita sobre la que los resultados puedan ser establecidos preferiblemente a ser inferidos. El análisis forense es el proceso de comprensión, recreación y análisis de los eventos que han sucedido previamente. El logeo es la grabación de datos que puedan ser útiles en el futuro para la comprensión de eventos pasados. El proceso de auditoría de sistemas se compone de la recogida, examen y análisis los datos guardados. El hecho de trabajar temporalmente después de haber sucedido la vulnerabilidad, les permite a los expertos conocer la forma en la que ha sido cometida. Para poder realizar este tipo de análisis hay que hacer uso de una serie de puntos clave: El sistema al completo debe ser considerado. Los efectos de una acción pueden ser diferentes de los que se espera que sean. Los datos en ejecución son el único registro de qué pasó exactamente. Mientras que los escaneos de vulnerabilidades anteriores y posteriores a la intrusión pueden ayudar ampli- 114 amente, un conjunto de datos en tiempo real es la única fuente autorizada de la que se puede sacar información completamente able. En este tipo de metodologías se tienen en cuenta una serie de premisas de partida: Principio 1: Tener en cuenta el sistema completamente. Esto incluye tanto el espacio de usuario, como el espacio de núcleo del Sistema Operativo, sistemas de cheros, pila de protocolos de red y subsistemas asociados. Principio 2 : No siempre esta logeado lo que se presupone sobre fallos esperados, ataques y atacantes. No creer en ningún usuario y no conar en ninguna política, dado que no se sabe de antemano lo que se encontrará. Principio 3 : Tener en consideración los efectos de los eventos, no solo por ser debidos a una serie de acciones, si no por cómo esos efectos pueden alterar el contexto del entorno. Principio 4 : El contexto ayuda en la interpretación y compresión del signicado de un determinado evento. Principio 5 : Cada acción y cada resultado debe ser procesado y presentado de forma que pueda ser analizado y comprendido en un análisis forense. En el artículo se expone que una de las mayores faltas en esta técnica es la inexistencia de un análisis automatizado para poder realizar todas las comprobaciones. El resumen de realizar una solución genérica pasa por recoger no solo los eventos del kernel, si no también información sobre los tiempos, tamaños y localizaciones de alojamientos de información en memoria, lecturas y escrituras. Las herramientas deberán conseguir eventos de información acerca de enlaces abstractos, sobre todo de aquellos que vayan a la red o que sobrepasen el sistema de cheros local. Se deben recoger datos de programas, funciones y nombres de variables. Mediante una correlación apropiada de esos nombres, eventos de memoria, contexto del sistema, entorno del programa, herramientas que cubran los principios anteriores, si es presentada de forma humanamente legible se podrá tener una herramienta adecuada para estas problemáticas. El análisis de intrusiones a día de hoy, suele ser un trabajo difícil que se realiza generalmente a mano, debido a que los administradores carecen de información y herramientas para comprender fácilmente la secuencia de los pasos que ocurren en un ataque. Los creadores de la aplicación BackTracker [212], después de producirse la intrusión, han dispuesto de una serie de medidas para poder relacionar las evidencias entre sí. Hay una serie de factores que pueden indicar una dependencia entre eventos: Dependencias entre procesos. Esto se produce cuando un proceso afecta directamente en la ejecución de otro proceso. Las causas pueden ser: creación, compartición de memoria, envío de mensajes o señales... 115 Dependencias proceso a chero. Conseguir datos interesantes de cheros del sistema mediante un proceso. También se puede cargar el chero completamente en memoria y leer/escribir directamente ahí antes de guardarlo. Dependencias entre proceso y nombre de chero. Un ejemplo de esto puede ser cuando una aplicación carga un chero con su conguración, si este contiene datos incorrectos se pueden producir situaciones peligrosas. Para realizar el trazado inverso de aplicaciones se logean los objetos y los eventos con las dependencias en tiempo de ejecución. De esta forma se puede construir un grafo que indique las relaciones entre todos los objetos que se han ido viendo en ejecución. Un ejemplo de un grafo orientado a los eventos que se van realizando, partiendo de la información de que se ha producido un ataque: Figure 2.43: Grafo de dependencia que puede seguirse realizando operaciones de BackTracking 2.4.3. Detección basada en análisis estático o instrumentación binaria del sistema En el documento [198] los autores explican la creación de una herramienta, DOME, que realiza un análisis estático para identicar las localizaciones (espacio virtual de direcciones) de las llamadas al sistema que realizan los programas ejecutables. Después de obtener esas direcciones se monitorizan los programas en tiempo de ejecución y se verica que la posición de memoria utilizada por el ejecutable es la que corresponde con el estudio del sistema anterior. Esta técnica es simple, práctica y aplicable al mundo real, pero si bien el equipo de investigación S3lab de la Universidad de Deusto debe indicar que es posible infectar el código de las llamadas a sistema, manteniendo intacta la posición del mapeo de memoria virtual. Los autores sostienen que mediante el sistema DOME realizado obtienen una potente técnica para proteger el software contra código malicioso, bien código inyectado dentro de los procesos (buer overows...), bien código generado automáticamente (virus polimórcos, troyanos que 116 guardan sus datos cifrados, descifrando su código fuente y ejecutándose en el momento de arrancar...), o bien código malicioso ofuscado (virus, troyanos, gusanos... que ocultan su código de forma que sean difíciles de detectar). Mediante esta técnica es posible entrar al tan ansiado campo para los administradores de detección de ataques nóveles, Zero-day attacks. Este proyecto ha centrado su estudio en windows 2000, con lo que el formato de estudio consecuentemente se ha jado en formato de chero portable ejecutable (formato PE). Los desarrolladores indican que para la detección del código inyectado, problemática indicada previamente por el equipo de investigación S3lab, no es posible realizar esta técnica, dado que lo que se cambia no es la dirección o la llamada a una u otra función, si no el propio código que se va a ejecutar en el momento de su carga. Otro tema que plantean en el documento, es la posible sobrecarga del sistema al realizar la captura de eventos producidos, se indica que producen una sobrecarga al sistema de un 5% al realizar las funciones de comparación para cada llamada a la API. Así mismo el sistema desarrollado esta limitado a las llamadas a funciones de Win32, dejando las llamadas más internas al sistema sin capturar. Los autores plantean una serie de premisas: Cualquier código inyectado, generado dinámicamente u ofuscado se asume como malicioso. El código maligno interactúa con el sistema operativo. En la interacción con el sistema operativo, el código malicioso, usa las llamadas exportadas por Win32 (en el sistema operativo en estudio de los autores). Cuando un código malicioso se esconde de la detección y análisis mediante el uso de generación de código dinámico y ofuscación, se esconde a su vez el uso de las llamadas a Win32. Los ejecutables software que deben ser protegidos pueden ser desensamblados y se puede obtener la información sobre las API's usadas. Por lo tanto son monitorizables. Se suele hacer uso de Detours [140]como herramienta de análisis para facilitarse el acceso al sistema operativo en cuestión, herramienta que se introducirá y comentará en el siguiente capítulo. La investigación últimamente esta decantándose en lo que se denomina instrumentación binaria dinámica, utilizada comúnmente en los estudios para realizar Análisis Forenses [366]. El malware52 actual es susceptible de tener métodos para modicar el código de programa que usan. Los compiladores en tiempo real (JIT) a pesar de dar un soporte transparente, no son capaces de seguir sistemas o aplicaciones multihilo, programas automodicables o código que se autotestea en modo de núcleo. Para poder resolver este problema los autores han creado una herramienta 52 Término genérico que hace referencia a virus, troyanos, software espía (spyware) 117 que analiza la granularidad sobre el proceso, la red, teclas usadas, cheros, registro de sistema y un largo etcétera. Mediante esta herramienta después de detectar un comportamiento anómalo se puede analizar a través de debuggers las diferentes formas de un virus polimórco, su cifrado-descifrado de datos, el contenido de memoria que ha usado. Las técnicas de instrumentación binaria representan a la habilidad de controlar las construcciones pertenecientes a cualquier código y es empleada tanto en técnicas de análisis grueso como granular. El control se reere a generar la construcción del ejecutable para observar una posible alteración semántica. La instrumentación binaria se clasica en dos categorías: Basadas en pruebas: Dtrace [55], Dyninst [45], Detours [140]. Realizan su función modicando el programa objetivo para ser ejecutado de una forma determinada cuando se llama al programa original. JIT: Pin [234], DynamoRIO [44], Valgrind [257]. Estos métodos se basan en la instrumentación mediante empleo de máquinas virtuales (VM). Los métodos basados en pruebas no son transparentes debido a que las instrucciones originales se sobreescriben en memoria por medio de lo que se denominan trampolines53 . El sistema que denominan SPiKE ofrece una API sobre la que integrar las funciones para los analizadores que se quieran. Introduce en la memoria virtual una serie de elementos lógicos que se activan cuando se produce una lectura, escritura o ejecución. El producto se basa en otro entorno denominado VAMPiRE [366] para poder insertar esos códigos lógicos en la posición adecuada de memoria. La técnica de activación de eventos que usan, denominada por ellos Invisible Drift lo que hace es insertar código en unas determinadas posiciones correspondientes a la construcción del código del que se desea realizar la instrumentación. Un BreakPoint en código permite detener la ejecución de código arbitrario durante el tiempo de ejecución. Para evitar que se detecte este tipo de ganchos se usan páginas de memoria que contienen la información referente a ellas mismas como no presente y se basan en el sistema de Detección de Excepciones de Paginado en Memoria (PFE). Los errores más comunes de programación de aplicaciones con los que se suele ganar el control de un sistema o de una aplicación residen en la manipulación de corrupciones en memoria de los procesos. Los ataques más comunes actualmente son debidos a buer overow o a format string. Se considera importante identicar automáticamente cuándo se han producido estos errores. El punto que presentan los autores de este texto [201] en el que se puede detectar el error producido es el momento del cierre inesperado y de forma incorrecta de la ampliación. Una vez conocidos los valores de datos y direcciones que se han embebido en el ataque se puede bloquear este tipo de ejecuciones. En el documento [201] se presenta y desarrolla un sistema descentralizado y auto protegido para los ordenadores cableados en red. Se pueden encontrar 53 Un trampolín es una secuencia de código que se puede atravesar entrando en múltiples partes de la misma dado que no realiza operaciones que varíen el contexto del procesador. 118 numerosos intentos para la detección de rmas de ataque de este tipo, como pueden ser los siguientes: Honeycomb [214] Autograph [210] Early Bird [312] Poligraph [193] Pero este tipo de métodos suelen de una limitación, que generalmente se hace uso de un análisis sintáctico sobre los ataques, olvidando la semántica en la que se han producido los mismos. Muchas otras aproximaciones que se están desarrollando se basan más en la instrumentación del código binario e incluso pueden recuperarse de los ataques una vez producidos: TaintCheck [259], realiza un análisis dinámico mediante una emulación binaria del programa para atrapar la propagación del binario por la red. A su vez también se realizan rmas de ataques basadas en semántica. DIRA [321], hace una instrumentación del código para mantener un log de actualización de la memoria mientras el programa está en ejecución, realizando incluso una vuelta a atrás para volver a una zona segura cuando se ha producido el ataque. STEM [311] realiza una aproximación reactiva. Después de detectar un ataque, se reemplaza la vulnerabilidad del programa con una versión parcheada. Las herramientas anteriores aun siendo un paso importante introducen debido a la instrumentación de código una sobrecarga importante en la ejecución de un determinado proceso. El análisis del ujo de la información dinámica (DIFA) [248] es muy útil para la detección de intrusiones a nivel de aplicación. Uno de los efectos más habituales de los ataques sosticados es el hecho de poder introducir información insegura dentro de partes importantes de la aplicación, esta modicación es un hecho contrastable del suceso de este tipo de ataques. Muchos de estos patrones de comportamiento, una vez detectados se pueden introducir en un sistema de detección de intrusiones basado en rmas. 2.4.4. Detección basada en rmas Arbaugh en el año 2001 [43] indica que en el mundo de la seguridad informática de los sistemas de alta disponibilidad, los administradores se encuentran en la tesitura de mantener sistemas a sabiendas con vulnerabilidades. Esta situación se produce debido a que se descubren fallos de seguridad continuamente, pero pasa un tiempo hasta que se tiene la solución de los 119 Figure 2.44: Ciclo de vida de una vulnerabilidad en software mismos, conllevando que estos administradores se encuentren indefensos durante periodos de tiempo dado que una baja en el servicio conlleva pérdidas difícilmente cuanticables. Para ello Arbaugh diseñó, implementó y evaluó un sistema que soporte la construcción y ejecución de predicados que representen una determinada vulnerabilidad. El sistema que presentan, Intro-Virt, se vale de técnicas basadas en introspección de máquinas virtuales para monitorizar la ejecución de la parte software, aplicaciones y sistema operativo. El proceso por el que una aplicación determinada o sistema operativo se mantiene vulnerable es el siguiente: Como se puede ver en la imagen anterior, el hecho de que una vulnerabilidad sea observada, no implica que inmediatamente se corrija, aquí entran en juego diferentes motivaciones de los administradores, desarrolladores y directivos [157, 24, 43, 35]. La idea sobre la que se basan los autores es comprobar mediante una serie de predicados si se dan las propiedades para una u otra vulnerabilidad. Así mismo, combinando los predicados con los resúmenes de las máquinas virtuales creadas, el usuario podrá conocer si ha sucedido alguna anomalía de este tipo en el pasado. Los autores dejan claro que descubrir vulnerabilidades acaecidas, no es prevenir de una posible intrusión, pero sí es un punto de partida para conocer hasta qué punto el sistema ha sido comprometido. Otro de los pilares fundamentales que tienen en mente los autores es que mediante la combinación de predicados de vulnerabilidad especícos, junto con una respuesta estratégica se puede alertar al usuario e incluso prevenir sobre los ataques que están sucediendo en el sistema. Los predicados que buscan los autores son fáciles de escribir una vez que es conocida la vulnerabilidad e incluso podrían ser transcritos por la entidad que se encargue de escribir el parche. Un predicado correcto no puede tener ni falsos positivos ni falsos negativos, pero en contraposición con los detectores de exploits especícos se lograría captura las variantes del código malicioso, cualidad que no es soportada por estas últimas herramientas. Los predicados con las deniciones de vulnerabilidades deberán ser ejecutados fuera del entorno del sistema, es decir, que no es apropiado mantener la revisión de los mismos ni en zona de usuario, ni en zona de kernel. La solución pasa por tener hardware dedicado a este tipo de tesituras. Una de las primeras pruebas que realizan es ejecutar el software objetivo en una máquina virtual, de esta forma se obtiene acceso total al sistema en estudio, esta técnica se denomina: introspección de máquinas virtuales [142]. Para poder demostrar estas ideas los autores se basan 120 en VMM (Virtual Machine Monitor), que en plataformas de virtualización como Xen [276], es la parte encargada de gestionar los recursos utilizados. Así mismo si el atacante consigue poner en el peligro el propio núcleo del sistema de virtualización, debido a una fuga de la caja estanca en la que se estaba trabajando, se tendrán problemas complejos de detectar y solventar. 2.4.5. Detección de ataques contra la lógica de las aplicaciones Como ya hemos visto en secciones anteriores, la detección de anomalías basadas en el análisis de trazas de llamadas al sistema de los diferentes programas para obtener un modelo de su comportamiento y posteriormente analizar sus llamadas en busca de anomalías, puede dar resultados óptimos en la detección de ataques. No obstante, este tipo de detección no es apropiada cuando lo que se ataca en la lógica de las aplicaciones. En estos casos se hace insuciente en análisis de ujo de llamadas al sistema, pues estos ataques en contadas ocasiones modican la trayectoria de ejecución de los procesos (con lo que la traza de llamadas al sistema invocada por éstos se mantiene intacta). Por tanto, las aproximaciones basadas en el análisis de secuencias de llamadas al sistema no detectarían estos ataques [134, 371]. Otro problema es que la información que se necesita para detectar ataques a nivel de lógica de aplicación puede no estar o ser muy difícil de extraer de las llamadas al sistema invocadas por el proceso. Para detectar ataques de éste tipo, es recomendable realizar una auditoría selectiva en ciertos puntos del ujo de control de la aplicación. El problema es que pocas aplicaciones proveen de un hook54 , e incluso cuando éstos están disponibles no suelen estar colocados en el lugar correcto. Además, la técnica de instrumentación suele ser especíca para cada aplicación y difícil de portar a otros programas. Auditando los datos Auditar es el mecanismo de recogida de datos respecto a la actividad de los usuarios y las aplicaciones. Ya que el sistema operativo es considerado como una entidad conable debido a que se encarga de los accesos a los recursos (como memoria y cheros), la mayoría de los sistemas de auditoría están implementados dentro de él. Estos sistemas de auditoría no están diseñados especícamente para la detección de intrusiones y por lo tanto, en muchas ocasiones los datos producidos por los sistemas de auditoría del sistema operativo contienen información irrelevante y escasez de datos útiles. Debido a este hecho, usualmente los sistemas de detección de intrusiones desarrollan herramientas propias para acceder directamente al sistema operativo en busca de la información realmente relevante. Lunt [235] sostiene que es necesario disponer de aplicaciones auditoras que provean de la información puramente necesaria para la detección de intrusiones. 54 Sistema de recolección de datos a bajo nivel, como por ejemplo las llamadas al sistema invocadas y los argumentos de éstas. 121 Reescritura binaria dinámica Esta técnica es independiente de plataforma y soporta la recogida de información en cualquier lugar dentro del ujo de control de la aplicación [401] y es utilizada en conjunto con rmas especícas de aplicación para detectar ataques que explotan los errores de la lógica de la aplicación. Esta aproximación ha sido validada a través de muchos estudios de casos de ataques contra aplicaciones reales como por ejemplo Apache y OpenSSH [401]. La reescritura binaria dinámica es una técnica de post-compilación que cambia directamente el código de los ejecutables. Al contrario que la librería de interposición dinámica, la reescritura binaria dinámica funciona con programas vinculados estática y dinámicamente. Además provee de un mayor acceso a la parte interna de la aplicación ya que además de las librerías de funciones, pueden ser utilizadas funciones estáticas de la aplicación. Existen dos tipos de técnica de reescritura binaria: 1. Estática: Modica la imagen residente en disco del binario55 de los programas. 2. Dinámica: Cambia la imagen de memoria de un proceso. ATOM [328], EEL [225], Purify [159], y Etch [345] son ejemplos de herramientas basadas en técnicas de reescritura estática. Dyninst [45] y Detours [140] son ejemplos de herramientas de reescritura dinámica. Comparando ambos métodos, la escritura dinámica tiene la ventaja de que mantiene intactos los ejecutables de las aplicaciones. Además, utilizando la escritura dinámica es posible modicar los binarios de la aplicación de varias maneras, dependiendo del contexto de invocación de la aplicación y permite mantener el código tras una llamada fork()56 , por lo que el proceso hijo también será instrumentalizado. En términos generales, la reescritura binaria dinámica es una aproximación de interposición. La técnica de interposición a las llamadas al sistema ha sido utilizada para desarrollar perles de usuario y depuración de sistemas software, además de ser muy utilizada con propósitos de seguridad: 1. Curry, usa interposición dinámica de librerías para proling57 y traceo de llamadas a las librerías [81]. 2. Deteurs, una herramienta de depuración y proling que utiliza reescritura binaria dinámica para interceptar funciones Win32 [140]. 55 Los cheros binarios son archivos electrónicos que han sido guardados utilizando el código básico de las computadoras u ordenadores: código binario, una sucesión de ceros y unos. [1] 56 Se trata de una llamada al sistema operativo para que duplique el proceso que ha llamado, creando por tanto un proceso hijo que será una copia de él mismo. 57 Técnica de creación de perles de usuario, aplicaciones, ... 122 3. ByPass, extiende la funcionalidad del software de sistemas existente para computación distribuida utilizando técnicas de interposición en librerías compartidas [354]. 4. Interposition Agents, es un RootKit58 para interponerse entre el código de usuario y el núcleo del sistema operativo [200]. Por lo tanto ésta aproximación separa las rutinas de auditoría de la aplicación original. De esta manera puede ser añadido un nuevo módulo de auditoría sin que se requiera la recompilación de la aplicación. La selección del módulo de auditoría es pospuesta hasta el momento en el que la aplicación es invocada, permitiendo una selección de conguración de auditoría exible. Además, las rutinas de auditoría y la aplicación corren bajo el mismo espacio de direcciones con rendimiento comparable al acercamiento de modicación del código. 2.4.6. Detección basada en Secuencias de Syscalls Estudio de secuencias de llamadas al sistema para clasicar las intrusiones [37] y los fallos inducidos en procesos privilegiados de UNIX. La clasicación es una capacidad esencial para responder a una anomalía, dado que permite asociar respuestas apropiadas para responder a cada anomalía. Los autores [199] arman que la creación de un Diccionario de Anomalías es imprescindible en este tipo de sistemas. Este tipo de diccionarios se encargan de contener la información sobre las secuencias anómalas para cada tipo de anomalía. A su vez, en paralelo con este tipo de diccionarios se pueden crear los denominados Diccionarios Normales, para poder realizar la clasicación debidamente. Los esfuerzos durante más de 20 años se han centrado en la generación de Sistemas de Seguridad de la Información aplicando técnicas de Minería de Datos, Aprendizaje de Máquinas, Reconocimiento de Patrones e Inteligencia Articial [192, 370, 289, 258]. La metodología planteada en [199], denominada stide (sequence time-delay embedding) se puede resumir de la siguiente forma: 1. Modelado: Se caracteriza el fenómeno en estudio por medio de una secuencia de variables o símbolos dentro un alfabeto largo pero nito. Estas secuencias se obtienen manteniendo el programa en estudio ejecutándose desde el arranque hasta el cierre. 2. Recolección de Datos Normales: Recogida de grandes volúmenes de datos correspondientes a la operación normal del programa, almacenando los símbolos generados. Ene este apartado se realiza el estudio numerosas ocasiones, produciendo numerosos procesos, hilos... tratando de explorar la operación normal de funcionamiento de todas las formas posibles. 58 Es una herramienta que se ejecuta a nivel del sistema operativo capaz de interceptar llamadas al sistema y afectar a los procesos que se están ejecutando, con diversos propósitos. 123 3. Extracción de características: Se selecciona un tamaño de cadena (k), y se construye un diccionario de secuencias cortas sobre los datos del Diccionario Normal. Esto se realiza mediante una ventana deslizante del tamaño k a través de la muestra, saltando sólo un único símbolo cada momento. 4. Detección: Dado una muestra de entrada del sistema en estudio, se realiza la detección de anomalías mediante comparación de secuencias contra el chero salvado de normalidad anterior. Si las secuencias no son encontradas se denominarán secuencias anómalas y se almacenarán en el Diccionario de Anomalías. 2.4.7. Detección basada en grafo Detección basada en grafo de llamadas al sistema Los autores establecen que si bien el kernel de linux dota al usuario de una serie de funciones interesantes de modularidad y exibilidad, en sistemas embebidos se puede lograr un mejor rendimiento, para ello se valen de lo que han denominado como grafo de llamadas al sistema basado en la ingeniería inversa de este tipo de sistemas. Mediante una representación en forma de grafo se puede representar el comportamiento del sistema objetivo mejorando o haciendo hincapié en optimizar determinadas funciones. En la forma en la que trabajan los autores, se consigue representar y abstraer el funcionamiento interno del kernel, así como de las aplicaciones que hacen uso del mismo. Una representación del funcionamiento de llamadas entre funciones de código puede ser el siguiente: Figure 2.45: Grafo de llamadas que se producen desde código fuente. Un grafo de llamadas es un grafo dirigido que representa la estructura estática del programa. Al igual que el grafo anterior se ha realizado para un programa, se puede realizar un grafo semejante para las llamadas desde el código fuente de las librerías. Es el mismo concepto que en el caso anterior pero carece de raíz. Esto queda expresado en la gura siguiente: 124 Figure 2.46: Grafo de llamadas entre librerías Teniendo el grafo adecuado para cada máquina, dependiendo de las aplicaciones que se tengan instaladas, se puede diferenciar un comportamiento normal del mismo o sucesos anormales. En la misma línea, dado que los sistemas de detección de intrusiones se usan para detectar los rastros de actividades maliciosas sobre redes y sistemas, en el documento de Mutz de 2006, [95] se indica una forma para detectar una secuencia de llamadas al sistema anómalas. Los sistemas de detección de intrusiones se clasican, como ya se ha comentado en puntos anteriores, de dos formas: basados en malos usos o basados en anomalías. En los primeros sistemas (misuse-based) [277, 231] se tiene un número de descripciones de ataque, o rmas, que se tratan de localizar sobre ujos de datos de auditoría de sistemas. Estos sistemas generalmente son ecientes y tienen una baja tasa de detecciones erróneas que se denomina falsos positivos. Si bien, la gran pega de este tipo de sistemas es el hecho de que no detectan ataques que no haya sucedido alguna vez y de los que se tenga conocimiento. Un buen ejemplo para una tarea concreta puede ser el caso de detección de condiciones de carrera, en el que se ha desarrollado un lenguaje de auditoría de trazas BSM, denominado BSML [281]. En este documento se explica un lenguaje para determinar cuando se dan estas situaciones y actuar en consecuencia por si se esta produciendo un ataque. Dentro de los diferentes tipos de sistemas de detección de intrusiones, los que se basan en anomalías [105, 146] construyen modelos del comportamiento que se espera de las aplicaciones. Para generar estos modelos se revisa la operación normal de las mismas, guardándolo como punto de referencia. Los modelos que se consiguen se denominan perles. De la forma anterior comparando los modelos de comportamiento de cada aplicación con el comportamiento actual se pueden obtener las desviaciones que hayan surgido. Una de las premisas de esta forma de actuación es el hecho de que una desviación sobre el comportamiento aprendido, conlleva ser víctima de un ataque. En el documento de Denning [105] se trata de 125 realizar una aproximación basándose en perles de usuario, pero este tipo de técnicas no pueden ajustarse a los cambios de repentinos de los usuarios en su comportamiento. Se han desarrollado diferentes sistemas de anomalías con diferentes técnicas de detección. Ejemplos de ello pueden ser desde la detección y de datos sobre el tráco de red [229] o análisis estadísticos de registros de auditoría [396]. La secuencia de llamadas al sistema producida por las aplicaciones ha sido objeto de análisis de detección de anomalías. Las técnicas que se han ido proponiendo son aproximaciones de dos tipos: basadas en especicaciones y basadas en aprendizaje. La aproximación mediante especicaciones confía en unos modelos especícos para cada aplicación que han sido realizados manualmente [36, 62, 213], bien con conocimiento experto, bien derivadas a través del uso de algún programa con alguna técnica de análisis [371]. Los perles generados de esta forma son introducidos como entrada de un sistema de detección de intrusiones en tiempo real, así cuando se produzca una secuencia de llamadas no conformes con el modelo se levantará la correspondiente alerta. La mayor pega de este tipo de sistemas de detección es el hecho de que tienen una limitada capacidad para generar las especicaciones, tarea normalmente bastante ardua para ser realizada a mano. Otro problema de este tipo de HIDS es la necesidad de interacción del usuario durante la fase de entrenamiento, si bien es posible utilizar modelos predenidos para cada aplicación, no son aplicables para todos los usuarios, sobretodo al emplear diferentes conguraciones. Así mismo, para este tipo de aproximación se requiere el acceso al código fuente. Si ahora se analiza la técnica de aprendizaje se debe señalar que no es necesario asumir nada de antemano, si no que los perles se construyen en base al análisis de las llamadas al sistema durante la ejecución normal. Esta primera aproximación vino de la mano de Forrest [134]. La clave de este método es el hecho de que un programa que tiene que interaccionar con el sistema operativo en el que esta siendo ejecutado requiere hacer uso de las llamadas al sistema para poder causar un daño permanente en el sistema. Cuando una secuencia de llamadas al sistema se desvía del comportamiento esperado, se asume que se está produciendo un ataque. La idea era recabar durante la fase de aprendizaje todas las posibles secuencias de llamadas al sistema de una determinada longitud. Durante la fase de detección, se comparaban las cadenas de secuencias recogidas con las legítimas aprendidas en la primera fase, teniendo la posibilidad frente a desviaciones de indicar la anomalía. El problema de esta técnica es que sólo hace uso de la secuencia que siguen estas llamadas, dejando a un lado los argumentos y los valores devueltos al retornar de las mismas. Además en la metodología de la autora sólo se examina un proceso en concreto. Siguiendo ésta línea de trabajo, otros autores han continuado el trabajo precursor del análisis de secuencias de syscalls [371, 374, 131], y por norma general es la opción más utilizada para análisis del comportamiento de los programas. Las técnicas basadas en detección de anomalías conlleva un riesgo inherente de detectar como 126 anomalía comportamiento de secuencias que son legítimas en el funcionamiento de una determinada aplicación, así como realizar código malintencionado que siga las secuencias de llamadas correctas. Además generalmente las técnicas que se aplican no hacen uso de los argumentos que llevan asociados las llamadas al sistema. Se proponen dos posibles mejoras a los sistemas de detección de anomalías basados en host: 1. Aplicar sistemas de detección que incorporen los argumentos que llevan las llamadas al sistema. 2. Descubrir una forma de cuanticar la puntuación de anomalía de cada modelo en una medida global. Este resultado determinará si un evento es parte o no de un ataque. En concreto para resolver este problema los autores proponen una técnica que hace uso de las Redes Bayesianas para realizar la clasicación de las llamadas al sistema. Los autores demuestran que el análisis de los argumentos y el uso de clasicadores Bayesianos mejoran la precisión contra los intentos de evasión. La salida de cada uno de los motores de detección individuales se combina con una Clasicación Bayesiana, mejorando a los clasicadores basados en umbrales naive que se usan para combinar las salidas de los modelos. El sistema propuesto al estar basado en análisis de llamadas al sistema individuales, es más resistente contra los ataques que tratan de asemejarse a la forma normal de comportamiento de una aplicación: ataques mimicry attacks [348, 346, 372]. La denición formal de este tipo de ataques es aquel que mediante código inyectado ataca a la seguridad de un sistema emulando la secuencia de llamadas al sistema de las aplicaciones legítimas. El modelo que presentan los autores [95], consiste en un ujo ordenado de llamadas al sistema almacenadas dentro del sistema operativo S = {s1 , s2 , ...}. Cada llamada al sistema s ∈ S tiene un valor de retorno rs y una lista de argumentos < as1 , ..., asn >. Se debe indicar que los autores no están teniendo en cuenta las relaciones entre las llamadas al sistema. Para cada llamada al sistema creada por una aplicación se crea un perl, comparando después del aprendizaje cada llamada de esa aplicación a las syscalls del sistema si concuerdan con el perl aprendido en la primera fase. En el modo de detección, la función de cada modelo es devolver la probabilidad de que ocurra un determinado argumento basándose en el modelo aprendido previamente. Un valor de baja semejanza (likelihood) de que una determinada característica es observable en un perl establecido indica la posible anomalía que se esta produciendo. Para los autores del documento [95] sólo se considera ataque aquello que se salga de lo común dentro de los posibles parámetros que se puedan tener en un argumento de llamada al sistema. Si un ataque se realiza sin invocar a las llamadas del sistema con unos argumentos dentro de los del modelo, no será reconocido. Para poder caracterizar las llamadas al sistema se aplican una serie de modelos que ayudan a la identicación de anomalías: 127 1. Longitud de la cadena de texto. Generalmente los parámetros que se introducen en las llamadas a las API's o al sistema ejecutivo tienen una longitud máxima de unos cientos de caracteres y generalmente son legibles directamente por el ser humano. Si se introduce un ataque dentro de este tipo de parámetros se acaban insertando caracteres no reconocidos que aumentan los tamaños normales que se tenían dentro de cada parámetro. 2. Distribución de Caracteres. La forma en la que se distribuyen los caracteres dentro de las cadenas de texto de los argumentos suele ser regular, aparte de ser generalmente caracteres legibles. Por normal la mayor parte de los caracteres se encuentran en un pequeño conjunto de 256 caracteres: letras, números y unos poquitos caracteres especiales. Dentro de los lenguajes naturales escritos, por ejemplo castellano o ingles, los caracteres tienen una distribución de frecuencias de aparición uniforme. Es cierto que no se puede comparar un lenguaje natural con el empleado por un sistema computerizado, pero tienen ciertas semejanzas en la distribución de caracteres que bien pueden ser tenidas en cuenta. 3. Inferencia estructural. Es posible que el atacante haya conseguido mantener la acción dentro de unos parámetros normales para la distribución de caracteres, y/o en una longitud adecuada a la normalidad de las longitudes de cadenas de texto. Para poder capturar adecuadamente este tipo de ataques se realiza el análisis de la estructura de argumentos, que no es más que la gramática de expresiones regulares que puede emplear ese argumento en concreto. La inferencia estructural es el proceso por el cual se obtiene esta gramática. 4. Buscador de Tokens. El objetivo del localizador de tokens es determinar si los valores de determinados argumentos de llamadas al sistema se pueden resumir en un conjunto de alternativas posibles reducido. Esto se debe a que generalmente una aplicación pasa a menudo valores idénticos, como ags y handlers, en los argumentos de las syscalls. Cuando un ataque cambia el ujo normal de ejecución y consigue saltar al código malicioso propiamente dicho, estas restricciones son violadas. Finalmente para homogeneización de los resultados de los diferentes motores se emplea una clasicación basada en redes bayesianas que tiene la siguiente estructura: 128 Figure 2.47: Arquitectura bayesiana del sistema de detección de anomalías para host propuesto en [95] Siguiendo la línea de investigación abierta para superación de los sistemas de detección más utilizados basados en detección de desviaciones, hay autores que clasican estos sistemas como caja blanca, caja negra o caja gris [141]. Para discernir los sistemas y poder clasicarlos se valen de la información que usan para construir el modelo mediante el que realizan la comparación: Los detectores de caja negra emplean únicamente el número de la llamada al sistema utilizada. Potencialmente estos detectores pueden hacer uso de los argumentos en esas llamadas. Los detectores de caja gris extraen además información en tiempo de ejecución a medida que las llamadas al sistema se van produciendo. Los detectores de caja blanca extraen el modelo directamente desde el código fuente o del binario. Los detectores de caja negra y caja gris ya han sido comentados en el documento. Los detectores de caja blanca se basan en el concepto de falsos positivos cero, dado que siempre indican una posible intrusión. Si bien estos detectores no son siempre apropiados, en principio debido a que el código fuente no es siempre accesible, además que el hecho de realizar un análisis estático es 129 complejo por causas externas: ofuscación, sistemas de protección digital, packers59 ... Otro inconveniente de las cajas blancas son los programas que se cambian a sí mismos, muy comúnmente usados en técnicas víricas. En el paper [141] exponen una nueva técnica que denominan grafo de ejecución, que es técnica pionera juntando las tres cajas. Se trata de construir un modelo que acepte las mismas secuencias de llamadas al sistema pero con las bases de partida de las cajas blancas. Los autores denominan a la secuencia de observaciones como ejecución, basándose en llamadas a API's intermedias o a syscalls directamente de sistemas UNIX, en los que se va apilando/rellenando los parámetros en la pila para hacer la llamada o en los registros para solicitar la interrupción directamente. Así mismo en la misma traza de ejecución se anexan los valores de retorno y las direcciones de retorno que se requieran. Finalmente el concepto de grafo de ejecución, que se construyen en base a las observaciones de ejecución explicadas con anterioridad, consta de pares de identicación de llamadas al sistema consecutivas y las direcciones de retorno de la pila cuando se realiza la llamada en sí misma. Dado que cada una de las direcciones devueltas revela información sobre la estructura de llamadas del sistema, se puede considerar una aproximación a la terminología de caja blanca. Figure 2.48: Código fuente y grafo de ejecución presentado en el paper [141] 2.4.8. Visualización e identicación del contexto de las intrusiones desde las trazas de llamadas al sistema Los sistemas de detección basados en anomalías son muy útiles pues son capaces de detectar técnicas de intrusiones nuevas que no han sido analizadas y que no tienen rmas conocidas. Sin embargo esta capacidad conlleva el problema de la posibilidad de generar falsos positivos. Esto es debido a que el análisis de la normalidad se lleva a cabo mediante el análisis del funcionamiento del programa y comportamientos normales pueden quedar fuera de éste análisis. La mayoría de las técnicas tratan de generalizar el comportamiento normal para modelar mejor este 59 Un packer es un programa, generalmente comercial que se encarga de impedir que se pueda realizar ingeniería inversa en los programas binarios que se distribuyen. 130 tipo de conducta. Aun así este hecho implica que se contemplará mayor parte de una posible pauta intrusiva. La identicación del contexto de la intrusión60 puede ayudar signicativamente a aumentar la tasa de detecciones y a reducir los falsos positivos generados [402]. Flujo de trabajo del Identicador del contexto de intrusiones (ICI) La adeshión de un módulo de identicación del contexto de intrusiones consiste en colaborar con el motor de análisis de anomalías, realizando un aprendizaje o-line, (es probable que al módulo ICI le lleve un tiempo considerable determinar los contextos de intrusiones), en el cual cada vez que salte una alarma el módulo ICI analizará el contexto y determinará si ésta era un falso positivo o no. En caso de serlo la secuencia que ha hecho saltar la alarma debería ser añadida al sistema inteligente de detección de intrusiones como parte del comportamiento normal, evitando de esta manera futuros falsos positivos por el mismo motivo. Ésta imagen detalla el el proceso en el que estaría involucrado el módulo ICI [402]: Figura 2.49: Arquitectura de un sistema de detección de intrusiones sin (izq) y con (dch) un módulo de identicación del contexto de intrusiones (ICI) 1. Todos los eventos procesados por el motor de análisis son copiados al móludo ICI para que los guarde en un buer de tamaño predenido. 2. Toda alarma generada por el motor de análisis también es enviada al módulo ICI. 3. El módulo ICI extrae el contexto de la intrusión de la alarma, y más adelante lo procesará, visualizará y/o lo agrupará. 4. El módulo ICI busca contextos de intrusión ya identicados similares. 5. Un experto en seguridad analiza el contexto de la intrusión y decide si la alarma ha sido un falso positivo o no y el nivel de conanza teniendo en cuenta los contextos existentes. 6. El vector ICI (alarma,decisión,conanza) de la alarma es enviado al motor de análisis y/o a los sistemas de respuesta. 60 En la detección de intrusiones basada en anomalías, el contexto de la intrusión que corresponde a una alarma, son las huellas auditadas que se encuentran fuera del modelo normal del comportamiento las que hacen saltar la alarma 131 7. El motor de análisis ana el modelo de comportamiento normal utilizando el vector obtenido del ICI para evitar volver a dar el mismo falso positivo. 8. Los sistemas de respuesta activan diferentes estrategias en base al vector ICI. Otras utilidades para el ICI Además de la capacidad para reducir los falsos positivos, el módulo ICI puede ser utilizado como una herramienta para analizar tareas como las que se enumeran a continuación: 1. Para fortalecer la correlación de alertas con las técnicas de detección de anomalías ya que una alerta no puede determinar consistentemente una intrusión y el contexto de la intrusión es capaz de mostrar las razones exactas. 2. Para estudiar las características de las intrusiones y mejorar después en base a la información obtenida la eciencia del experto y proponer nuevas técnicas de análisis. 3. Para aplicarlo en otros campos de la intrusión como el estudio forense. Visualizando y analizando el contexto Sabemos que las anomalías en una secuencia de llamadas intrusivas estarán indicadas por un set de secuencias extranjeras. Por tanto sería de gran ayuda visualizar dicha secuencia no propia del programa en el esquema del ICI. El tamaño de la ventana aplicado para dicha aplicación también será crítico ya que en el caso de que la secuencia extraña sea mayor que el tamaño de la ventana, ésta no será totalmente detectada. En los grácos producidos para la visualización del contexto de la intrusión la longitud de todas las secuencias intrusivas deben ser mostradas de modo que se conozca si existe la posibilidad de detectarlas completamente o no en base al tamaño de la ventana. Este tipo de grafo llamado Gráco de secuencias extranjeras o anómalas [402] (FSG Foreing secuence graph). Finalmente se deberían tratar de identicar secuencias anómalas mínimas (MFS) y los eventos con los que están asociadas para que sean identicados como parte del contexto. Para lograrlo, los datos pueden ser analizados mediante dos métodos: 1. Separando los datos en bloques más pequeños y evaluando cada bloque. 2. Evaluando todo evento que se encuentre en los datos. El primer método puede llegar a romper las secuencias anómalas, por lo que la utilización del segundo método es más acertada. La siguientes imágenes muestran un ejemplo [402] de visualización de un FSG. Los datos provienen de la Universidad de Nuevo México y también han sido utilizados en [347, 374] 132 Figura 2.50: Set de datos utilizados para el FSG Para analizar las características de cada intrusión, su set de datos, incluso siendo en el mismo proceso es tratado como set de datos individual puesto que cada intrusión genera sus propias características de contexto en los rastros revisados. Figura 2.51: Ejemplo de FSG para diferentes procesos 133 Para éste gráco FSG, el número de secuencias anómalas en cada set de datos es representativo y la mayoría de las intrusiones pueden ser detectadas aplicando un tamaño de ventana adecuado. Otro fenómeno signicativo es que las intrusiones no generan secuencias anómalas en la primera fase (excepto en la subgura b ). Por ejemplo en la imagen (a), tras 600 llamadas al sistema se han generado secuencias de llamadas anómalas y esto de alguna forma es indicador de que existe un periodo de calentamiento para las intrusiones, al menos para aquellas que son detectadas mediante sistemas basados en anomalías. Además en las tres instancias de sunsendmail en la subgura (g) se genera el mismo gráco FSG. Esto quiere decir que tienen las mismas características de intrusión. Al mismo tiempo, para las diferentes instancias de la misma intrusión en las subguras (a),(c),(f) o (i) sus grácos FSG también son similares. Este fenómeno puede beneciar investigaciones en las técnicas de detección de anomalías puesto que no es necesario crear técnicas especícas para detectar diferentes ejecuciones de una misma intrusión. Para diferentes intrusiones en un proceso, los grácos FSG son diferentes; para el proceso sendmail desde CERT, el gráco FSG de la intrusión en la subgura (c) es diferente del gráco FSG para la intrusión sm565a o sm5x en la subgura (d); el gráco FSG de las intrusiones en el mismo proceso sendmail (e), (f) y sunsendmailcp en la subgura (g) también son diferentes entre si. Este hecho prueba que no existen estrategias generales para detectar todas las intrusiones en un proceso, y que las estrategias de técnicas especícas de detección son necesarias para detectarlas. Identicando el contexto de las intrusiones: MFSs Las secuencias anómalas mínimas en los rastros auditados son una de las características producidas por una intrusión, lo cual es utilizado por detectores de anomalías para detectar la intrusión. Como se ha mencionado antes, los MFS son el contexto de las alarmas. Basado en la identicación del contexto de la intrusión en los set de datos, sus estadísticas numéricas son resumidas en las siguientes tablas: 134 Figura 2.52: Número de Secuencias Anómalas Mínimas (MFS) no duplicadas en todos los set de datos intrusivos Figura 2.53: Secuencias Anómalas Mínimas (MFS) compartidas por la misma intrusión en el mismo proceso Del número total de secuencias anómalas mínimas en cada set de datos intrusivo, se puede inferir que: 1. Que con un tamaño de ventana igual a 2, es suciente para detectar la mayoría de las intrusiones a excepción de la instancia decode-280. 2. Que del gráco Ejemplo de FSG para diferentes procesos mostrado anteriormente y de las estadísticas de la estancia de la intrusión decode-280, se observa que la longitud mínima de la MFS es 6. Desde su índice posicional, se puede fácilmente encontrar que 135 éste corresponde a la secuencia 2-95-6-6-95-5. El siguiente listado muestra todas las MFS acaecidas en las dos instancias decodicadas y las correspondientes llamadas al sistema: decode-280 / proceso 283: 2-95-6-6-95-5 ; decode-314 / proceso 317: 112-6, 6-19, 2-95-1, 2-95-6-6-95-5. 3. Que las diferentes ejecuciones de una intrusión comparte la mayoría de las secuencias anómalas mínimas (tabla inferior). Especialmente, las diferentes ejecuciones de sunsendmailcp tienen el mismo set de secuencias anómalas mínimas. Esto es útil para las investigaciones en técnicas de detección de anomalías puesto que la diversidad en diferentes ejecuciones de la misma intrusión, es limitada por lo que no es necesario desarrollar un diseño especíco para cada una de ellas. Al mismo tiempo, fortalece la armación de que los grácos FSG son especícos para cada intrusión y que las diferentes ejecuciones deben tener las mismas características (contexto de intrusión). Por último la información de las tablas debería disuadir posibles ataques del tipo mimicry [372] y del paradigma de ocultamiento de información [348], visto el gran número de secuencias anómalas mínimas reportadas, en especial, para la intrusión de buer overow. 2.4.9. Modelación de llamadas al sistema mediante ventana deslizante Este método extiende las primeras investigaciones [126] en la detección de anomalías en llamadas al sistema para la detección de intrusiones, incorporando tamaños de ventana dinámicos. El tamaño de la ventana es la longitud de la subsecuencia de una traza de llamadas al sistema las cuales son utilizadas como la unidad básica para el modelado del comportamiento de una aplicación o de un proceso. Se presentan dos métodos para la estimación óptima del tamaño de la ventana basados ambos, en la disposición de datos para el entrenamiento [124]. El primer método es un modelado de la entropía el cual, determina el tamaño óptimo de la ventana para los datos. El segundo método es una función modeladora de probabilidad que tiene en cuenta el contexto para establecer el tamaño de ventana. Un tamaño de ventana dependiente del contexto está motivado por el hecho de que las llamadas al sistema son generadas por los procesos. Modelo de entropía Se puede utilizar un marco teórico de información para escoger el tamaño de ventana óptimo para las llamadas al sistema. En este marco, se estima cual de los diferentes tamaños de ventana realizará mejor la ordenación de los datos mediante computación. Una descripción detallada sobre la aplicación teórica de información a la detección de anomalías es presentada en [10]. La premisa básica para la detección de intrusiones es esa ordenación intrínseca en los datos auditados que es consistente con el comportamiento normal, y distinto del comportamiento anómalo. Se mostrará empíricamente que cuantos más datos ordenados existen mejor es el rendimiento del modelo de detección de anomalías. El proceso de construcción de un modelo de 136 detección de anomalías debería por tanto involucrar una primera medida de orden de los datos bajo los diferentes modelos. En este caso, se está interesado en medir la ordenación bajo diferentes tamaños de ventana. Esta ordenación puede ayudar a elegir el mejor tamaño de ventana. Para modelar las llamadas al sistema, se usa un modelo predictivo a través del cual la probabilidad the n llamadas al sistema es estimada por las n-1 llamadas previas. La forma en que la predicción del modelo es entrenada, es que por cada n-1 secuencia de llamadas al sistema presentes en la traza61 , se mantienen contadores de las siguientes llamadas. La predicción para una determinada llamada al sistema dada una secuencia de n-1 llamadas previas es, el número de esa llamada dividido por el número total62 de llamadas. En este punto la longitud n es el tamaño de la ventana del algoritmo que modela. Se medirá la ordenación de los datos para la predicción del modelo bajo diferentes valores de n. Se propone utilizar una medida teórica de los datos para medir la ordenación de los datos, entropía condicional, para ayudarnos a elegir el valor de n. Cuantos más datos normalizados, menor entropía. La denición de la entropía condicional es: Figura 2.54: Entropía condicional del modelo de ventana deslizante donde P(x,y) es la probabilidad conjunta de x e y, y P(x|y) es la probabilidad condicional de x dado y. En el contexto de la llamadas al sistema se deja que al sistema e sea el set de llamadas sea el set de secuencias de llamadas al sistema de longitud n-1. D será la notación para el total de secuencias en la traza, |(x,y) será el número de veces que se origina la secuencia en D, y |D| será el total de números de secuencias en la traza. Se puede denir entonces la probabilidad conjunta como . La probabilidad condicionada de P(x|y) es la predicción de éste modelo. Desde que P(x|y) = 0 para una secuencia (x,y) que no ocurre en la traza y la entropía condicional es aditiva, se puede representar la entropía condicional para una ventana de tamaño n como63 : Figura 2.55: Entropía condicional para una ventana de tamaño n 61 Una traza de llamadas al sistema es una secuencia de todas las llamadas al sistema que un proceso de una aplicación dada realiza durante su tiempo de vida (ejecución). 62 63 Para evitar probabilidades 0, al contador de cada tipo de llamada al sistema se le añade un pequeño valor. La segunda ecuación puede ser computada de forma eciente 137 Grafo de llamadas de una aplicación La motivación para una dependencia del contexto del tamaño de la ventana proviene del mecanismo subyacente de cómo un proceso se ejecuta. Las llamadas al sistema en la traza dependen de la trayectoria en la ejecución del proceso. Asimismo, la trayectoria de un proceso depende de muchos factores como entradas recibidas o el estado del sistema donde se está ejecutando. Estos factores determinan que trayectoria de ejecución seguirá el proceso en cada desviación posible. Se podrían modelar todos los set de las posibles trayectorias de la aplicación utilizando grafos de llamadas64 . Los grafos de llamadas modelan la estructura de la aplicación y dene las posibles trayectorias de la ejecución. Cada nodo representa una posible bifurcación del programa, y las aristas están etiquetados con las llamadas al sistema que se dan entre los nodos. Existe un nodo de comienzo denido para el grafo y al menos un nodo nal. Es posible observar la trayectoria de ejecución de un proceso a través de el grafo de llamadas del sistema asociado a éste y por lo tanto una traza de llamadas al sistema sería simplemente las llamadas al sistema a lo largo de la trayectoria de ejecución del proceso. Se debe tener en cuenta que a pesar de que estos grafos existan para todos los programas, obtenerlos es muy costoso debido a que variarán por el código fuente, por el compilador y por el sistema operativo empleados. Debido a ésto, es prácticamente inviable asumir que se pueden recrear los grafos a partir de las llamadas al sistema observadas. Aún no pudiendo determinar el grafo especíco de llamadas, se puede asumir que éste existe y utilizar ésto para motivar un tamaño de ventana dependiente del contexto. En la aplicación del grafo de llamadas al sistema a la detección de intrusiones, existe un set de trayectorias de ejecución que corresponden a exploits65 . El objetivo del método de modelado de llamadas al sistema es el ser capaz de determinar si una secuencia de llamadas al sistema corresponden a una trayectoria de ejecución normal, o si bien pertenece a la trayectoria de ejecución de un exploit. Hay que tener en cuenta la longitud de la secuencia ha sido ajustada en el contexto del grafo de llamadas y que con mayor probabilidad una secuencia larga puede identicar unívocamente una sección del grafo. Sin embargo, es usualmente demasiado larga para ajustarse a una sola arista por lo que debe abarcar más ramas. Para que estas secuencias sean observadas varias veces, los estados de los diferentes procesos donde tienen lugar las secuencias más largas deberán forzar la trayectoria de ejecución para que coincida con estas ramas. Desgraciadamente ésto puede generar ruido en el modelo. Por otro lado, las secuencias más cortas abarcan menos ramas, sin embargo, pueden tener lugar en múltiples puntos del grafo de llamadas resultando complicado determinar unívocamente dónde surge la secuencia y, por tanto, si ésta pertenece a un trazado normal o a el trazado de un exploit. Idealmente, para una secuencia dada se preere escoger aquella que sea la más corta y que 64 65 Es un gráco en el cual cada ruta dene una posible trayectoria de ejecución para un proceso o una aplicación. Es el nombre con el que se identica un programa informático malicioso, o parte del programa, que trata de forzar alguna deciencia o vulnerabilidad de otro programa.[2] 138 identique unívocamente la rama del grafo donde se genere. Debido a que los nodos de las ramas ocurren en lugares diferentes, la longitud óptima de una secuencia depende especícamente de las llamadas al sistema que ésta contiene. Por lo tanto, la longitud óptima depende del contexto. La siguiente gura muestra un ejemplo de grafo de llamadas al sistema: Figura 2.56: Ejemplo de grafo de llamadas al sistema Sparse Markov Transducers (SMT) Los SMT[125] son utilizados para modelar trazas de llamadas al sistema estimando una probabilidad predictiva dependiente del contexto motivada por el marco del grafo de llamadas. Esta es la probabilidad de predecir la siguiente secuencia de llamadas al sistema dada la secuencia previa. Una vez que se ha entrenado al modelo desde datos basados en la normalidad de un proceso, se dispone de una distribución de probabilidad predictiva sobre dicho proceso. En la fase de evaluación de secuencias de llamadas al sistema para determinar si entran dentro del rango de la normalidad o si bien pertenecen a una traza generada por la ejecución de un exploit, se computa cada la probabilidad predictiva para cada secuencia. Si la probabilidad obtenida está por debajo del umbral establecido entonces la probabilidad de que la secuencia haya sido originada por el proceso en funcionamiento normal es muy baja y la traza será evaluada como exploit (anómala). El establecimiento del umbral dene la diferencia entre falsos positivos y el ratio de detección del sistema 139 Detección basada en grafos N-gramas de llamadas al Sistema Este tipo de sistemas basados en cadenas de Markov con N-gramas[246], se engloban en el área denominada como computación inmunológica. para ello basándose en el documento de Forrest [134] han introducido la idea de los n-gramas para caracterizar el modelo. Para poder establecer el valor de la N se deben basar los cálculos en la granularidad de las llamadas al kernel, que puede variar de un sistema operativo a otros. La caracterización del comportamiento de un programa al igual de lo propuesto por Forrest se basa en la recogida de segmentos deslizantes de longitud N. Los autores indican que un valor de N grande implica un coste computacional alto y así mismo, un valor bajo será inválido para la caracterización del sistema. Otra de las partes importantes del estudio es la determinación del momento en el que se puede dar el aprendizaje por nalizado, dado que un aprendizaje incompleto puede llevar a estimar una tasa de falsos positivos altos. Para poder estimar de forma correcta, durante el principio del aprendizaje la base de datos crece rápidamente, sin embargo cuando la tasa de incremento desciende y se hace muy pequeña, se puede decir que la base de datos ha convergido. En este momento se podrá concluir con que la base de datos es completa y se puede dar por nalizado el aprendizaje. Para poder construir la base de datos con cadenas de texto de múltiples longitudes se puede tener en cuenta las siguientes consideraciones: 1. Se construye el árbol de sujos para los N-gramas de los datos de aprendizaje para algún valor que sea sucientemente grande de N. N será el límite superior en la longitud de cadenas multilongitudinales. Una máquina de estados nita (FSM) mediante el algoritmo two-nger se puede construir de forma inmediata a partir de ese sujo. 2. Se puede compactar el árbol de sujos en un grafo dirigido acíclico mediante la fusión de subárboles equivalentes. 3. Incluso se pueden llegar a anexar dos subárboles si son muy parecidos introduciendo una pequeña variación en la forma de compactar. En general un árbol de sujos para una determinada cadena de caracteres contiene todos los posibles sujos de la misma, por lo que un árbol de sujos de longitud m tiene m sujos diferentes. El árbol de sujos para un conjunto de cadenas contiene cada sujo de cada una de ellas. Así mismo el árbol de sujos para un conjunto de N-gramas puede construirse realizando primero el árbol de las cadenas de entrenamiento y después entroncando cada rama con la profundidad N deseada. 140 Figure 2.57: Un árbol de sujos para el ejemplo de la cadena A B C C A B B C C A A B C Cada nodo en profundidad k < N se denomina k-grama, los nodos hijos de profundidad N se llaman N-gramas y el nodo raíz se rellena con una cadena vacía. Cada enlace se etiqueta con un símbolo. Estos enlaces de sujos conectan cada nodo a su sujo apropiado más largo. Los sujos más largos proporcionan una forma de ir de un N-grama (un nodo hijo) al siguiente N-grama: Figure 2.58: Árbol de sujos con punteros de sujos incluidos A veces puede ser necesario incluso incluir un nodo denominado Unknown_symbol (nodo 141 desconocido) para poder contemplar los sucesos que se salgan fuera de lo normal en el modelo representado por el árbol. El algoritmo denido como detección de two-nger es como leer la cadena ABCCABBCCABABC con dos dedos de la mano, dejas el dedo de la izquierda jo al principio de la cadena mientras desplazas el derecho. El desplazar un caracter el dedo derecho es como descender un nivel en el árbol. Como se requiere que los dedos estén separados como mucho por N letras, cuando se alcanza este momento se desplaza una posición el dedo de la izquierda, luego si en la cadena para una longitud de 4 el máximo era ABCC, ahora se tendrá BCC para continuar y posteriormente BCCA. Una anomalía en la cadena de llamadas al sistema requiere un desplazamiento del dedo izquierdo. Con esta representación del modelo de cadenas de llamadas al sistema se puede realizar el mismo desarrollo efectuado por Forrest [134]para el análisis de las trazas del sistema y detección de anomalías sobre las mismas. Figure 2.59: Árbol nal resultante de la compresión de la gura anterior Detección mediante el uso de Autómatas en Línea Una nueva forma de abstracción en el comportamiento de un programa es la denominada Inlined Automaton Model (IAM)[293]. Una vez se dene el modelo de comportamiento de un determinado programa (accediendo al código fuente) se obtiene un grafo como el siguiente ejemplo: 142 Figure 2.60: Ejemplo de código y representación de representación NFA Si en base a lo anterior se materializa la forma en la que se ejecuta, como es el caso que se esta planteando: Figure 2.61: Ejemplos de implementación de IAM La monitorización de los programas se basa en las llamadas a las librerías de funciones, con lo que se tienen que desarrollar un sistema de interposición que se encargue de comparar las llamadas con el modelo que se tiene. Los mayores problemas que se pueden plantear en este tipo de situaciones son derivados de la recursividad. El hecho de que el código fuente de un programa para diferentes casuísticas vuelva sobre sí mismo, deja un campo abierto para que se tomen por buenas numerosos cambios en el mismo que darían un resultado de comportamiento normal, teniendo un ataque en ejecución. 143 Figure 2.62: Ejemplo de recursividad y autómata generado. Figure 2.63: Ejemplo de recursividad indirecta y autómata generado. La granularidad es importante y un problema a considerar en este tipo de sistemas de detección. Idealmente un IDS debería monitorizar todas y cada una de las sentencias ejecutadas por el programa en estudio y de esa forma, validar cada instrucción de la máquina. Esto por lo general no es posible, lo que lleva a afrontar el problema desde diferentes puntos de granularidad: cuanto más gruesa la aproximación más sencillo será generar un ataque mimicry. Por ejemplo, restringir exclusivamente los eventos observables a llamadas al sistema, signica que las llamadas a las librerías no son incluidas en el modelo. Numerosos ataques de buer overow y format string han acaecido contra las propias librerías instaladas en el sistema operativo. Detección mediante el uso de Autómatas en llamadas a la pila Hay otro trabajo[233], que se basa a su vez en autómatas, que incluye en los mismos la información de la pilla de llamadas. Este modelo se publicita como más potente sobre los que se basan exclusivamente en secuencias de syscalls, detectando ataques adicionales que los anteriores no detectan. Este método se basa en el descrito por Feng et al. [131], pero realizando su función de forma más general. Aun basándose en autómatas de apilamiento de llamadas (HPDA), en vez de hacer uso de una pila extra como en el modelo de PDA de Wagner and Dean [371], este motor de análisis se basa exclusivamente en la pila del sistema operativo correspondiente. Cuando se 144 invoca a una syscall, el sistema de detección de intrusiones se activa y comprueba si se puede pasar del estado en que se encuentra al siguiente. El modelo HPDA, parecido al PDA es una 5-tupla: (S, Σ, T, s, A) donde S es un conjunto nito de estados y Sigma es un conjunto nito de símbolos denido como Σ = (Y xAddr) ∪ siendo Y = {Entry, Exit, Syscall}y Addr es el conjunto de posibles direcciones denidas por el programa ejecutable. Las entradas de este tipo de modelos son de los siguientes tipos: Entrada. Es un punto de entrada para las llamadas del sistema. La dirección asociada es la dirección de retorno de esta función. Salida. Es un punto de salida de una función de llamada del sistema. La dirección asociada es también la dirección de retorno de esta función. Syscall es la invocación de una llamada al sistema, donde la dirección asociada es la dirección de retorno de esta llamada. es el string vacío. T es el conjunto de funciones de transición (SxΣ → S) s es el estado inicial (s ∈ S) A es el conjunto de estados aceptados (A ⊆ S) Figure 2.64: Ejemplo de código y modelo HPDA 2.4.10. Modelado de trayectorias de syscalls mediante en análisis del código fuente Uno de los inconvenientes a la hora de trabajar con sistemas de detección basados en anomalías del comportamiento normal de las aplicaciones, es que no se dispone de todas las muestras 145 posibles. Ésto tiene como consecuencia que un número, (normalmente muy bajo si el entrenamiento ha sido adecuado), de trayectorias de ejecución no es representado en el modelo creado y por lo tanto, la posibilidad de generación de falsos positivos66 existe desde un principio. La razón por la que un entrenamiento puede no se correcto, radica en la dicultad técnica de obtener todas las trayectorias posibles de una aplicación ya que su comportamiento se captura durante su ejecución. Además en los sistemas basados en anomalías se jan umbrales de normalidad debido a que pueden existir comportamientos normales que pueden ser tan inusuales como un comportamiento intrusivo. Mediante esta medida se evita pasar comportamientos intrusivos por alto, pero en cambio se desligitimiza por segunda vez funcionamientos poco probables aunque correctos de la aplicación. Wargner y Dean [371] introdujeron por primera vez la idea de extraer del código fuente de las aplicaciones un modelo de las trayectorias de ejecución. En ejecución cualquier llamada al sistema que se desvía del modelo determinado estáticamente es considerada como una intrusión y por lo tanto debe ser prohibida. Un gráco de llamadas derivado de un gráco de control de ujo (CFG) es un autómata nito no determinístico (NFA) debido como construye el control en forma de if − then − else67 y funciones call/return68 . El grado de indeterminismo en un CFG determina el número de trayectorias imposibles [371] y de esta manera latitud disponible para los ataques de tipo mimicry [372], los cuales son capaces de evadir los sistemas que inspeccionan patrones de llamadas al sistema generando los patrones de llamadas que la aplicación secuestrada debería generar hasta que localizan el tipo de llamada al sistema que necesitan. Wagner [371] y Gin [194] trataron de utilizar un modelo autómata de apilación inversa (PDA push-down automaton) para tratar de mitigar el problema de trayectorias imposibles. Aunque el modelo de PDA es más preciso que el de NFA, incurre en una costosa comprobación en tiempo de ejecución [371, 194]. Sin embargo el desafío en la prevención de intrusiones basada en llamadas al sistema es reducir la vulnerabilidad a ataques mimicry al tiempo que se minimiza la sobrecarga en tiempo de ejecución. Construcción del modelo de llamadas al sistema Recientes sistemas de detección[371, 131, 319, 194, 374, 223, 309] denen modelos de comportamientos normal utilizando la actividad realizada en tiempo de ejecución. Los primeros trabajos como [319, 309] utilizan perles para construir modelos de comportamiento normal. Sin embargo, generar los perles requiere tiempo y puede producir modelos incompletos. La manera más idónea de construir el modelo es aplicar un análisis estático para extraer patrones de llamadas 66 Un falso positivo se da en el momento que el sistema de detección de anomalías detecta una trayectoria de ejecución, (traza de llamadas al sistema), y genera una alerta siendo dicha trayectoria no intrusiva, (se encuentra dentro del comportamiento normal de la aplicación). 67 Sentencias condicionales que en base al resultado de la evaluación de una condición booleana (positivo o negativo) ejecutan unas acciones u otras. 68 Instrucciones de llamada y retorno a una función. En el retorno se da el control a la siguiente instrucción desde donde fue hecha la llamada. 146 al sistema de la aplicación. Figura 2.65: Ejemplo de un programa en C asociado a un modelo de grafo de llamadas (NFA) y un modelo NDPDA. La manera más sencilla de extraer un modelo de llamadas es partiendo del grafo de llamadas propuesto por Wagner y Dean [371], quienes directamente deducen el grafo de llamadas del grafo de control de ujo (CFG) abstrayendo todo a excepción de las funciones y los nodos de llamadas al sistema como se muestra en la subgura (B). El CFG resultante es un autómata de estados no determinista de NFA debido a que las construcciones tales como if − then − else, los bucles y las funciones son llamadas desde múltiples sitios. Una limitación en el modelo de grafo de llamadas es el problema de rutas imposibles como es indicado por la linea intermitente en la subgura (B), la cual surge porque la función f es llamada desde dos lugares, V y W . El grafo permite una trayectoria imposible {v− > Entrada(f )− > Salida(f )− > W 0 }, lo cual no es posible. La consideración de este tipo de rutas como posibles tiene como consecuencia que exista una posibilidad para un ataque de tipo mimicry [372]. Por ejemplo, si asumimos que ocurre un ataque por desbordamiento del buer en la función f en la gura (A), cuando f retorne la ejecución sería transferida al código intrusivo inyectado mediante el desbordamiento. Al tomar el control, el código intrusivo generaría la secuencia de llamadas {close(), exec(”/bin/sh”)}, logrando llevar a cabo el ataque pues la secuencia generada se corresponde con una de las posibles en el grafo (B). Esta limitación de los modelos de grafos de llamadas es debido al hecho que sólo verica el orden entre llamadas al sistema denidas como la aplicación, pero no su emplazamiento. Para eliminar las trayectorias imposibles, Wagner simula las operaciones de pila utilizando un autómata no determinista de apilación inversa (NDPDA) [371] como se representa en la subgura (C). La idea clave del modelo NDPDA reside en que cuando se encuentra una llamada desde V , el estado de retorno correspondiente V 0 es introducido en una pila simulada antes de que el 147 control sea transferido, y es retirado cuando la llamada devuelve el control. Este funcionamiento asegura que la función siempre retornará al lugar donde ha sido llamada sin importar los lugares desde donde ha sido llamada. Sin embargo, para cada llamada al sistema entrante, el modelo NDPDA debe calcular un set de posibles conguraciones de la pila, basándose en las llamadas al sistema previas. Este set de conguraciones puede crecer indenidamente, especialmente en las llamadas recursivas. A pesar de un complicado algoritmo para reducir la complejidad del modelo NDPDA, el peor de los casos en tiempo de ejecución sigue siendo cúbico en la longitud de las llamadas al sistema. Esto conlleva una alta e inaceptable sobrecarga en tiempo de ejecución para aquellas aplicaciones que son de tamaño grande. Los modelos PAID [223] y Dyck [195], utilizan inserciones de llamadas al sistema nulas para transformar aplicaciones y eliminar el indeterminismo. Sin embargo el modelo Dyck puede producir sobrecargas impredecibles debido a una inserción desmesurada de llamadas al sistema nulas. Más aun, el modelo Dyck es indeterminista debido a que no inserta llamadas al sistema nulas en funciones recursivas. El modelo PAID[224], utiliza grafos inline para eliminar el problema de trayectorias imposibles. Aunque PAID es un modelo determinista el modelo que genera es dos o tres veces mayor y requiere extensas modicaciones: Figura 2.66: Proceso de llamada a getuid utilizando el modelo VSL. Cuando getuid es llamado, el VSL previo es {r1 , r2 , r3 }, el VSL actual es {r1 , r2 , r4 }, y el prejo de ambos VSL es {r1 , r2 }. Por tanto, tras consumir r3 , el algoritmo pasa el estado actual de S_setuid a C30 , y después a C4 tras consumir r4 . Finalmente, introduce r4 en la pila y mueve el estado actual a Entry(f 4) [224]. Feng propuso un modelo estático (VPS) [2], el cual explota el estado de la pila de usuarios para identicar cada lugar de llamada al sistema. Para cada llamada al sistema entrante extrae todas las direcciones que se encuentren actualmente en la pila para formar una lista de pila virtual (VSL) y alimentar con ella a un autómata determinista de apilación inversa o DPDA como se muestra en la gura anterior. Los símbolos de r1 a r4 en el DPDA representan la dirección de la llamada. Asumiendo que el VSL para una llamada al sistema pre- 148 via Sp es {a1 , a2 , ..., a1 , b1, b2, ..., bm }, y el VSL para las llamadas al sistema actuales Sc es {a1 , a2 , ..., a1 , c1 , c2 , ..., cn }. La secuencia {a1 , a2 , ..., a1 }es un prejo común para los dos VSL. Sus algoritmos transversales utilizan {bm , bm−1 , ..., b1 } para generar los símbolos de entrada que simulan operaciones de retorno de funciones, y {c1 , c2 , ..., cn } para generar los símbolos de entrada que simulan operaciones de llamada a funciones. Tras la llamada a getuid en la gura superior el VSL para getuid es {r1 , r2 }. Asumiendo que el estado actual es S_setuid, el algoritmo utiliza {r3 } y {r4 } para generar las siguientes operaciones transversales: 1. No consumir nada y mover al siguiente estado Exit(f 3). 2. Sacar un elemento de la pila. Si el elemento en la parte alta de la pila es r3 , mover el estado a C30 . 3. Consumir r4 y mover el estado a C4. 4. Empujar r4 en la pila y mover hasta el estado Entry(f 4). 5. Mover hasta el estado getuid cuyo contador coincide el contador de programa de la llamada actual getuid. Si todas estas operaciones son aceptadas por el modelo DPDA entonces la llamada al sistema getuid actual es legítima. Figura 2.67: Proceso de llamada getuid utilizando el modelo VPStatic. Si getuid no es llamada, el modelo VPStatic no puede aceptar la llamada al sistema setuid debiado a que el modelo no puede alcanzar el estado S − setuid desde el estado Entry(main). La función f 1en la subgura de la derecha (B) es llamada dentro de un bucle. El algoritmo VPStatic actual no puede aceptar la secuencia de llamadas {setuid, getuid, setuid} desde que el algoritmo sólo retorna al prejo del actual VSL previo. El modelo VPStatic no puede manejar el indeterminismo debido a las sentencias if − then − else. Por ejemplo en la subgura superior (A), la llamada al sistema getuid en f 2 no es siempre 149 ejecutada debido a que se realiza dentro de una sentencia if − then − else. Si getuid no es ejecutado, el modelo VPStatic genera un falso positivo cuando setuid es ejecutado. En el momento que setuid es llamado el VSL previo es {} y el VSL actual es {r1 }. Según el algoritmo, las únicas operaciones que pueden generar para atravesar el autómata son: 1. Consumir r1 , mover al estado C1 2. Introducir r1 en la pila, mover hasta el estado Entry(f 1). 3. Mover hasta el estado setuid cuyo contador coincide el contador de programa de la llamada actual setuid. Obviamente, tras la segunda operación, la tercera no puede ser aceptada por el autómata desde que C2 es el único estado que se puede alcanzar desde el estado Entry(f 1). VPStatic también falla al manejar el indeterminismo cuando se efectúan llamadas a funciones desde bucles, como se muestra en la subgura (B) superior. Además aunque utiliza el estado de la pila del usuario, no puede prevenir todos los ataques mimicry [224]. Por ejemplo un ataque de mimicry podría llenar la pila de tal manera que llegaría a engañarle demandando una llamada al sistema mediante una instrucción trampa, y recuperando el control y repitiendo el mismo proceso. Esto es debido a que el modelo no tiene en cuenta la dirección de retorno de la instrucción trampa y el atacante puede obtener el control tras la llamada a la instrucción trampa. El modelo PAID utiliza una combinación de todas las direcciones de retorno en la pila del usuario y la dirección de retorno de la llamada trampa que se encuentra en la pila del núcleo como coordenada unívoca para cada instancia de llamada al sistema en la aplicación. Además utiliza un algoritmo nuevo de grafo transversal que soporta backtracking69 para tratar con indeterminismos creados por sentencias condicionales del tipo if − then − else y es tan eciente como el algoritmo transversal DFA [224]. Finalmente para reducir más aún la vulnerabilidad debido al tamaño de ventana por parte de ataque mimicry, PAID realiza un extenso y restringido análisis de los argumentos de las llamadas al sistema, el cual, puede crear restricciones totales o parciales en los argumentos de llamadas al sistema basado en cheros de conguración. Ésta habilidad, estrecha los posibles valores de los argumentos en muchas de las llamadas al sistema susceptibles de ser atacadas, tales como la open(). 2.4.11. Solución de instrumentación mediante criptografía El avance de las llamadas al sistema autenticadas [252] se basa en el hecho de introducir dentro de misma una serie de parámetros extra: argumentos para control de políticas, argumentos criptográcos que garanticen la integridad de la política y de los argumentos. Para poder realizar este tipo de funciones y proteger los sistemas: 69 Es un método de resolución automática de problemas mediante una búsqueda sistemática de posibles solu- ciones. Las soluciones no válidas se eliminan y no se vuelven a comprobar. 150 1. Transformar los programas para cambiar las llamadas al sistema con llamadas al sistema autenticadas. 2. Revisión en tiempo real por parte del kernel para asegurar que cada llamada al sistema esta dentro de la política que le corresponde. Para empezar, instalación en el sistema, se analiza el binario de un programa por un instalador de conanza, quien primero generará la política que comprenda el comportamiento de cada llamada al sistema usando un análisis estático y reescribe el binario de forma que cada syscall contenga tanto la política como la validación criptográca que necesite. Figure 2.68: Instalación del programa El segundo paso, comprobación de la syscall en tiempo real, se realiza por medio de una intercepción en el kernel, que verica el contenido criptográco utilizado, con lo que si todo es correcto se permite la ejecución de la llamada y si no se obliga al cierre del programa solicitante. Figure 2.69: Comprobación de las syscalls 2.4.12. Solución mediante virtualización para terminales móviles En las especicaciones de seguridad [11] [12] se explican los retos tecnológicos en esta materia para la siguiente generación de dispositivos móviles: medición de la integridad, control criptográco de acceso para los procesos, autenticación de usuarios, etc. El objetivo es conseguir aumentar la seguridad existente en los dispositivos móviles. El documento [175] se centra 151 en la creación de instancias de sistemas operativos, donde los usuarios son capaces de ejecutar aplicaciones nativas descargadas de redes libres. Un dominio (una instancia de Sistema Operativo) es denido como un entorno de ejecución aislado preparado para un grupo de aplicaciones. Esta separación entre dominios hace posible la prevención de accesos ilegales al espacio de direcciones de otros dominios y limita la máxima cantidad de recursos que pueden usar las aplicaciones de un dominio en concreto. Estos dominios incluso pueden funcionar con diferentes sistemas operativos para terminales móviles: SymbianOS, µ − IT RON , Linux, etc. La propuesta no se centra en el uso intensivo de recursos hardware como es el caso de los dominios basados en hardware. La idea es la creación de dominios software, para el que un software (VMM, Virtual Machine Monitor) se encarga de gestionar los diferentes SO, así como de compaginar el uso de recursos hardware. Si no que como ni la solución pura de virtualización por software, ni la solución de implementar todo en hardware son del todo favorables se propone una mezcla entre ambas aproximaciones. VIRTUS es una nueva propuesta de arquitectura de un nuevo procesador con arquitectura de virtualización, creando un dominio hardware para aplicaciones preinstaladas en un procesador y dominios software para aplicaciones descargadas en otros procesadores para poder satisfacer los siguientes objetivos de diseño: Seguridad más fuerte. Las aplicaciones preinstaladas en la siguiente generación de terminales móviles deben ser protegidas de las aplicaciones descargadas. Virtualización exible del procesador. La siguiente generación de terminales móviles requerirá un número alto de dominios para instalar las aplicaciones descargadas. Se requiere proporcionar en este tipo de sistemas, como en VIRTUS [175], un número ilimitado de dominios software para los procesadores virtualizados. Baja degradación en la funcionalidad. Es un requisito que el hecho de tener múltiples dominios no degrade la funcionalidad del sistema en el trato con diferentes aplicaciones. Poca interferencia en la funcionalidad. No debe existir interferencia entre las aplicaciones preinstaladas y las aplicaciones descargadas. Una separación de aislamiento en los procesadores virtuales soluciona el problema, dado que el dominio de aplicaciones preinstaladas se ejecuta en un procesador diferente que el que se usa para las descargadas, impidiendo la infección del software original. Tamaño de código pequeño. Este requerimiento es intrínseco a la capacidad de procesamiento que se puede tener en este tipo de terminales móviles. 152 Figure 2.70: Imagen de la arquitectura de los nuevos procesadores para terminales de tercera generación Para poder lograr estos objetivos: 1. una solución puede ser tener máquinas virtuales (VMM) asimétricas a través de las cuales se pueda integrar el dominio hardware con los dominios software. Figure 2.71: Comunicación VMM asimétricos 2. Se requiere una comunicación entre dominios que permita que una aplicación corriendo en un determinado dominio pueda comunicarse de forma criptográcamente segura con otra aplicación de otro dominio. 153 Figure 2.72: Comunicación dinámica inter-dominio 3. Así mismo debe resultar sencillo el trabajar con la virtualización para realizar desarrollos efectivos en cuanto a esta tecnología. Figure 2.73: ID de los registros del procesador lógico virtual Listing 2.2: Hola esto es una prueba aquí int main ( i n t argc , char ∗∗ argv ) { return 3 0; } 2.5. Modelos de redes probabilísticas 2.5.1. Modelos de Redes Probabilísticas Antes de comenzar a ver la denicion intuitiva de este concepto es aconsejable leer el ANEXO RRBB.1 - Introducción de conceptos. 154 Redes Bayesianas Denición intuitiva Una red bayesiana, red de creencia o red de causalidad es una repre- sentacion graca de las relaciones causa-efecto dentro del dominio de un determinado problema. Una descripcion mas formal se puede encontrar en [187]. Denicion forma Partiendo de un conjunto nito de nodos X̄ . Cada uno de ellos representa una variable, que puede ser discreta o continua, aunque solo se van a manejar variables discretas por ser mas sencillas. Esta relacion biunivoca entre nodos y variables nos premite emplear indistintamente ambos terminos. Como se ha visto anteriormente los valores de una variable deben constituir un conjunto exclusivo y exhaustiva. Las redes bayesianas no necesitan suponer que los diagnosticos son exclusivos y exhaustivos, y por tanto no es necesario tener una variable D que represente todos los posibles diagnosticos; por ejemplo, en vez de una variable llamada D=Enfermedad, cuyos valores representasen los posibles diagnosticos correspondientes a la ebre: neumonia, amigdalitis, paludismo, etc., en la red bayesiana tendriamos una variable Neumonia que puede tomar dos valores (neumonia-presente y neumonia-ausente) o mas de dos valores (neumonia-ausente, neumonia-leve, neumonia-moderada y neumonia-severa), dependiendo del grado de precision que necesitemos en el diagnostico , otra variable Amigdalitis, Paludismo, etc. De este modo, la red bayesiana puede ofrecer dos o mas diagnosticos a la vez (por ejemplo, amigdalitis-severa y neumonia-leve), lo cual era imposible con el metodo probabilista clasico. En el Anexo RRBB.2 - Denciones previas a las redes bayesianas se introducen ahora algunas deniciones basicas sobre grafos necesarias para entender la denicion de red bayesiana. Denicion de red bayesiana La propiedad fundamental de la red bayesiana es la separacion direccional denida en [186, 187] como: Separacion direccional. Dado un grafo dirigido aciclico conexo y una distribucion de prpobabili- dad sobre sus variables, se dice que, hay separacion direccional si, dado un nodo X, el conjunto de padres pa(X), separa condicionalmente este nodo de otro nodo subconjunto Ȳ en que no hay descendientes de X. Es decir: P (x|pa(x), ȳ) = P (x|pa(x)) 155 Es habitual denir las redes bayesianas a partir de grafos dirigidos aciclicos (en ingles DAG, de Directed Acyclic Graph). Es importante incluir la especicacion conexo por tres razones. La primera, porque muchos de los algoritmos y propiedades de las redes bayesianas solo son correctos para grafos conexos, por lo que es mejor incluir esta caracteristica en la denicion que tener que añadirla como nota a pie de pagina en casos particulares. La segunda razon es que, aun en el caso de tener un modelo con dos partes inconexas, podriamos tratarlo como dos redes bayesianas independientes. Y la tercera, porque los modelos del mundo real con que se suele trabajar son siempre conexos; si hubiera dos partes inconexas no se tendria uno sino dos modelos independientes. En base a todo lo anterior se pueden caraterizar las redes bayesianas, así: Red bayesiana. Grafo aciclico dirigido conexo mas una distribucion de probabilidad sobre sus variables. El término direccional hace referencia a la asimetria de dicha propiedad, que se maniesta en las siguientes propiedades de las redes bayesianas: Si A no tiene padres entoces P (x|pa(x)) = P (x|∅) = P (x) y la ecuacion {b.i.1.b.1} se traduce en P (e|a) = P (e) para cada nodo E que no sea uno de los descendientes de A; en otras palabras, E es a priori independiente de A. En consecuencia, dos nodos cualesquiera D y E que no tengan antepasado comun son independientes a priori. Si D es descendiente de A y antepasado de H, y existe ningun otro camino desde A hasta H, entonces estos dos nodos se dice que quedan condicionalmente separados por D: P (h|d, a) = P (h|d) Si tanto G como H son hijos de D y no tienen ningun otro antepasado comun este ultimo separa G y H, haciendo que sean condicionalmente independientes: P (g|d, h) = P (g|d) En general, la independencia a priori o condicional de dos nodos se pierde al conocer cualquiera de sus descendientes comunes, ya que en este caso la propiedad de separacion direccional ya no es aplicable. Semántica de las redes bayesianas Se han denido hasta el momento las redes bayesianas desde un punto de vista matematico formal. La cuestión que se plantea ahora es su semantica, es decir, ¾que interpretacion se le puede dar a una red bayesiana? ¾Como se corresponde un modelo con el mundo real? ¾Por que se puede hablar de causas y efectos en una red bayesiana? Esta cuestion esta ya parcialmente respondida en la presentacion intuitiva, que fue introducida antes de la denicion formal de red bayesiana precisamente para mostrar que los conceptos y axiomas introducidos no pareciesen arbitrarios, sino que responden a las propiedades de la 156 causalidad, segun nuestra concepcion intuitiva del mundo real. Es importante señalar que la estructura de la red, por si misma, aporta gran cantidad de informacion cualitativa. En efecto, un arco XY indica, ya antes de conocer el valor concreto de la probabilidad condicional, que hay una correlacion entre ambas variables: el valor que toma X inuye sobre la probabilidad de Y , y viceversa. Es lo que se ha dado en llamar inuencia causal directa. Tal es la relacion que existe, por ejemplo, entre el pais de origen y el paludismo, o entre el paludismo y la ebre. Profundizando un poco mas, se oserva que la existencia de un camino entre dos variables X e Y , con variables intermedias Z, indica que hay una inuencia causal indirecta entre ambas. Tal como se ha discutido en la presentacion intuitiva de las redes bayesianas, cuando el sentido comun, basado en la experiencia, dice que la inuencia de una variable X sobre uno de sus efectos Y1 (por ejemplo, del paludismo sobre la prueba de la gota gruesa) no depende de cuales han sido las causas o mecanismos que han producido X, ni depende tampoco de si X a dado lugar a otros efectos, entonces la red contendra un arco desde X hasta Y1 , y no habra ningun arco que conecte Y1 con las demas variables. Por tanto, la ausencia de arcos es tambien una forma de expresar informacion. El hecho de que Y1 depende solamente de su causa, X, se traduce matematicamente diciendo que, conocido el valor de X, la probabilidad de Y1 es independiente de los valores que toman esas otras variables, o dicho de otro modo, X separa Y1 de dichas variables. Se empieza a ver aqui la relacion entre el concepto de padre y el de causa, entre el de hijo y el de efecto, entre el de arco y el de inuencia causal directa, entre el de independencia en los mecanismos causales y el de independencia probabilista. En este punto es donde se maniesta la importancia del sentido de los arcos y su relacion con la idea de causalidad. Volviendo al ejemplo del paludismo, el hecho de que las variables Pais-deorigen y Tipo-sanguineo no tengan ningun padre comun signica que son a priori independientes, es decir, que el pais no inuye en el tipo sanguineo y viceversa, de modo que, si no hay mas evidencia, no se puedeobtener ninguna informacion sobre el pais de origen a partir del tipo sanguineo, ni viceversa. Sin embargo, el hecho de que ambas variables tengan un hijo comun signica que, una vez conocido el valor de ese nodo, surgen correlaciones entre los padres70 . Se puede decir, usando la terminología de [186], que el camino entre U1 y U2 permanece bloqueado hasta que sea activado por la llegada de informacion sobre X o sobre alguno de sus descendientes. Para el caso de los efectos de una variable ocurre precisamente lo contrario: todo medico sabe que hay correlacion entre la ebre y el test de la gota gruesa. Sin embargo, tal como se discute en la Dencion Intuitiva, la correlacion desaparece cuando se averigua si el paciente tiene o no tiene paludismo. Es decir, el camino entre Y1 y Y2 está activado en principio, y se bloquea solo al conocer el valor de X. De esta asimetria entre padres e hijos, reejo de la asimetría que existe en el mundo real entre causas y efectos, procede el nombre de separacion direccional. Por tanto, hay dos formas de justicar los enlaces que se introducen u omiten al construir una red. La primera es de naturaleza teorica: se forma un modelo causal a partir de la experiencia de un 70 La correlación que aparece entre las causas se aprecia más claramente en el caso de una puerta OR 157 especialista y se trazan los arcos correspondientes al modelo; la relacion que se ha discutido entre los mecanismos causales y las propiedades matematicas de independencia permite fundamentar el modelo. El otro camino para justicar la red consiste en realizar una comprobacion empirica a partir de un conjunto sucientemente amplio de casos, utilizando las herramientas estadisticas que se emplean habitualmente para detectar correlaciones. Hay otro punto relativo a la semantica de las redes bayesianas, que se va a mencionar solo brevemente, pues aun esta muy discutido. Es el que se reere al debate entre los que deenden que las redes probabilistas pueden expresar causalidad y los que sostienen que estas solo expresan correlaciones entre variables. En realidad, no se trata de un debate limitado al campo de las redes bayesianas, sino que la existencia de la causalidad es una cuestion que se han planteado matematicos y losofos por lo menos desde el siglo XVII, a partir de las teor1as de Hume. Para no entrar en esta cuestion se citaran solamente tres trabajos, los de [188] y [397] y el de [113], que muestran como recientemente han surgido argumentos matematicos para defender la interpretacion causal frente a la meramente correlacional. En resumen, lo que se ha intentado mostrar en esta seccion es que la informacion cualitativa que expresa la estructura de una red bayesiana es mas importante aun que la informacion cuantitativa, como lo demuestra el hecho de que se han construido redes cualitativas [273, 274], capaces de razonar a partir de las propiedades de independencia de las redes bayesianas, incluso en ausencia de valores numericos. Por este motivo, [3] ha sugerido en nombre de redes de independencia (independence networks) como el mas adecuado para las redes bayesianas. Propagacion en poliárboles El algoritmo para poliárboles que se presenta en esta sección, basado en el paso de mensajes π yλ fue desarrollado por [153] a partir del que Pearl había propuesto para árboles en [185]. Sin embargo, la principal limitación del algoritmo de Kim y Pearl es que no permite tratar los bucles que aparecen inevitablemente al desarrollar modelos del mundo real, por lo que en sí mismo resulta de muy poca utilidad y los constructores de redes bayesianas. Recurren a otros que, aun perdiendo las ventajas de éste, son aplicables a todo tipo de redes bayesianas. Sin embargo, aquí se va a estudiar con detalle por dos razones. Primera, por su sencillez y elegancia, que permitirá comprender mejor las propiedades de las redes bayesianas. Y segunda, porque el algoritmo de condicionamiento local [114], aplicable también a redes múltiplemente conexas, es una extensión de éste, que se basa en los mismos conceptos y deniciones. Para comprender mejor el desarrollo matemático que se va a realizar, puede ser útil al lector repasar la dencion intuitiva, en que aparecen sencillos ejemplos numéricos que explican por qué se introducen las deniciones de π y λ cómo se propaga la evidencia. Una de las propiedades fundamentales de un poliarbol es que hay un unico camino entre cada par de nodos. En consecuencia, la inuencia de cada hallazgo se propaga hasta un nodo X bien a traves de los padres o a traves de los hijos de éste, por lo que para cada nodo X se pude hacer una particion de la evidencia (o conjunto de hallazgos) en dos subconjuntos tales que: 158 e = e+ X ∪ eX e+ X ∩ eX = ∅ Donde e+ X representa la evidencia por encima de X y eX la evidencia por debajo de X en el sentido antes mencionado. De forma similar, la eliminacion de un enlace XY divide la red y por lo tanto tambien la evidencia- en dos partes, una que se queda por encima del enlace y otra que queda por debajo. Se llamaran e+ XY y eXY respectivamente. Al igual que en el caso anterior se cumple que: e = e+ XY ∪ eXY e+ XY ∩ eXY = ∅ En base a la particion de evidencia podemos establecer las siguientes denciones: π(x) ≡ P (x, e+ X) λ(x) ≡ P (e-X |x) πX (ui ) ≡ P (Ui , e+ Ui X ) λYi (x) ≡ P (e-XY j |x) Figura 2.74: Esquema de la propagación en poliárboles El sentido de estas denciones es el siguiente: 1. π(x) indica qué valor de X es mas probable según la evidencia relacionada con las causas de X, es decir, segun la evidencia por encima de X. 2. λ(x) Indica que valor de X explica mejor los hallazgos correspondientes a los efectos de X, es decir, la evidencia por debajo de X. 159 3. πX (u) Indica qué valor de U es mas probable según la evidencia por encima del enlace UX. 4. λYi (x) Indica qué valor X explica mejor la evidencia por debajo del enlace XY. Antes de concluir esta seccion es conveniente señalar que las denciones anteriores, aunque tomadas del libro de Pearl [187] se han modicado de acuerdo con la propuesta de [278]. Un caso particular: Redes tipo Naive Introducción Los modelos bayesianos Naive (red naive a partir de ahora) se denominan naive (ingenuo) por la hipótesis de la que parten. Son utilizadas extensamente en la clasicación de muestras de todo tipo [22, 284, 245], llegando incluso a plantearse estructuras jerárquicas en su interior: Augmented Naïve Bayes [61]. Hay numerosos estudios actuales para la aplicación y solución de problemas más complejos mediante creación de Redes en Árbol Aumentadas (TAN), Multiredes autónomas en las ramas, redes selectivas y variantes parecidas [135, 145, 67]. Una de las aplicaciones más usadas es la gestión de Spam en correos electrónicos mediante una clasicación de textos, tras una temporada de aprendizaje se observan unos resultados perfectamente válidos con una baja tasa de error71 . Se pueden encontrar aproximaciones que indagan en la aplicación de esta algorítmica en aras de la Seguridad en base a Anomalías [318]. Las redes activas72 pueden proporcionar una solución real a la problemática de seguridad haciendo un uso cooperativo de los recursos para análisis por medio de diferentes técnicas. En este caso se trataría de clasicar como normal o como anómalo los sucesos que se ocasionan en tiempo real dentro de una red corporativa. Siguiendo en la línea de seguridad hay otros trabajos que siguen en la línea de clasicación, pero esta vez en base a determinados parámetros de los paquetes (datagramas / segmentos) o incluso del contenido de los mismos (ejecutables, imágenes . . . ). Un ejemplo se puede ver en la referencia [176]. Otras aproximaciones que hacen uso de este tipo de redes pueden ser aquellas en las que se trata de clasicar un tipo de comportamiento en base a eventos. Estas aproximaciones tienen en cuenta una serie de parámetros, y en base al valor que tomen los mismos, pueden decidir si el comportamiento es anómalo o dentro del margen normal [217]. 71 SpamBayes, proyecto localizado en la sede web: . Solución para el reconocimiento de spam en correo electrónico iniciada por Paul Graham. 72 Redes caracterizadas por poder dirigir el ujo de información a través de diverso hardware programable por sus usuarios o terceras partes. 160 Explicación en detalle Las redes Naïve Bayes parten de la hipótesis de que cada variable Xi es condicionalmente independiente del resto dado un cluster de varibles con el mismo padre C. Mediante esta hipótesis la distribucion de probabilidad se puede representar ecientemente como el producto de varias distribuciones más simples: n P (X1, X2, ..., Xn , C) = P (c)P (xi |C) i=1 Una red naive es un caso especial de red bayesiana sobre las variables X1, ..., Xn y C, en la que el padre de cada variable Xi es C y C no tiene padres. El aumento eciencia viene por el uso de esta estructura restringida. Para el uso más común, la clasicacion, se tiene que C representa la clase que se debe predecir y Xi representan los atributos observables. Por ejemplo, en un ltro naive anti-spam, la C puede represntar la clase spam y no-spam y Xi puede representar si la i-esima palabra está presente en el mail tratado. Las distribuciones componentes se pueden aprender a partir de datos de entrenamiento simplemente mediante el conteo de las ocurrencias de una palabra en las etiquetas spam y no-spam. En este ejemplo, así como en muchas aplicaciones de las redes naive la hipotesis ingenua es claramente falsa: las palabras presentes en un email depende de otras tanto en spam como en email legitimos. Sin embargo, estos modelos tienden a realizarse bien en la práctica y el análisis teórico ha demstrado que es óptimo [111]. Naive Bayes tambien se utiliza en el clustering, donde el objetivo es aprender la estructura subyacente de los datos. Al contrario que en la tarea de clasicacion, C representa una variable cluster que nunca se observa directamente. En muchos casos el numero de clusters presentes es desconocido y se debe inferir [66]. Los modelos de clustering normalmente se aprenden mediante el algoritmo EM en un proceso iterativo que consta de dos pasos como explica [104] y más adelante en esta memoria. La estimacion Naive Bayes es la aplicación de los modelos naive Bayes a los problemas generales de aprendizaje e inferencia, el caso de la inferencia se explica más adelante. Hasta aquí se ha realizado una presentacion de lo que son las redes bayesianas como concepto, a partir de este punto se procede a describir las potentes funcionalidades de este articio matematico. Adicción y eliminación de nodos en caliente. Con la ayuda de un experto en la materia, J.M. Gutierrez se plantea la siguiente evolución de una red naive. Si se tiene de partida una red como la siguiente: 161 Figura 2.75: Ejemplo de red naive La probabilidad para la clasicación en función de los dos nodos que aparecen en la gura es la que sigue: P(Padre) = P(Padre_a_priori) · P(Hijo1 / Padre) · P(Hijo2 / Padre) Caso de que se quiera quitar un nodo dejando la red Naive con sólo un hijo, para calcular el estado del padre en todo momento se tendría en cuenta únicamente la parte de la red de la que se disponen datos: Figura 2.76: Ejemplo de sustración de nodos en red Naive P(Padre) = P(Padre_a_priori)· P(Hijo1 / Padre) Igualmente, caso de que se quiera añadir un hijo más para el cómputo correspondiente del estado del padre: 162 Figura 2.77: Ejemplo de adición de un nodo a una red Naive P(Padre)=P(Padre_a_priori)·P(Hijo1/Padre)·P(Hijo2/Padre)·P(Hijo3/Padre) Aprendizaje Introducción al aprendizaje en redes bayesianas Existen dos tipos de aprendizaje: Estructural, que se reere al aprendizaje de la estructura (dependencia) gráca del grafo, es decir, determinar las aristas a incluir en el grafo. Paramétrico, que se reere al aprendizaje de la estructura parametrica, es decir, probabilidades. En el leguaje de los estadisticos, el aprendizaje parametrico se denomina estimacacion. En este punto se van a explicar en detalle ambos tipos de aprendizaje asi como los algoritmos usados en ESIDE-Depian para implementarlos. Por otro lado, según [57] todo método de aprendizaje consta de 2 elementos: Una medida de calidad, que se utiliza para decidir cual es mejor de un conjunto de redes bayesianas candidatas. Esto es una media global de la calidad, ya que mide la calidad de la red bayesiana en su totalidad, es decur ambas, la calidad de la estructura graca y la calidad de los parametros estimados. 163 Un algoritmo de busqueda, que se usa para seleccionar un pequeño subconjunto de redes bayesianas de alta calidad, del que se selecciona el mejor. Hay que darse cuenta que de todas las posibles redes, incluso para un pequeño numero de variables , es extremadamente grande y es virtualmente imposible determinar la calidad de todas las redes posibles. Tambien en [57] se establecen las siguientes etapas para el aprendizaje estructural y paramétrico: Elegir la medida de calidad y el algorimo de busqueda. Utilizar un algoritmo de busqueda para seleccionar un subconjunto de redes bayesianas con calidades altas. Esto requiere estimar los parametros de las redes seleccionadas usando metodos de estimacion y evaluando las calidades de todas las redes bayesianas en el conjunto elegido. Por ultimo, seleccionar la estructura de la red con mayor calidad del conjunto anterior. 2.5.2. Aprendizaje Estructural El consiste en la obtencion de la estructura de la red bayesiana, es decir, los nodos y los enlaces entre los nodos o de una forma más formal, consiste en obtener las relaciones de dependencia e independencia de las variables involucradas [130]. Existen dos aproximaciones basicas al aprendizaje estructural: Test de indepencia Puntuación y procedimientos de búsqueda. Existen multitud de algoritmos para este tipo de aprendizaje de los cuales se han utilizado los siguientes: Algoritmo PC Este es un algoritmo basado en test de independencia desarrollado por [326] y que pertenece a la clase de algoritmos basados en restricciones. La idea basica del algoritmo es desarrollar una serie de declaraciones condicionales de dependencia e independencia mediante tests estadisticos. El algoritmo realiza los siguientes pasos: En primer lugar realiza una serie de test de independecia para todos los para de variables, expecto para las que se haya denido algun tipo de restriccion estructural. 164 Posteriormente añade un enlace entre cada par de variables para las que no encuentra independecia condicional. El grafo resultante constituye el esqueleto de la estrucutura aprendida. Seguidamente identica los colideres, asegurandose que no se dan ciclos dirigidos. (un collider es un par de enlaces dirigidos tal que se encuentran en el mismo nodo). Despues se hacen cumplir las direcciones para aquellos enlaces cuya dirección se puede derivar de la independencia condicional encontrada y los colliders identicados. Finalmente, los enlaces no dirigidos restantes se dirigen de forma aleatoria, aseguranado que no se producen ciclos. Hay que darse cuenta de una cosa muy importnte; y es que, en general, este algoritmo no es capaz de derivar la direccion de todos los enlaces a partir de los datos y por lo tanto algunos enlaces los dirige de forma aleatoria. Mejora del Algoritmo PC, el algritmo NPC NPC signica condicion de ruta necesaria y es un criterio desarrollado por investigadore s de Siemens en Munich para resolver algunos problemas de los algoritmos basados en restricciones como el algoritmo PC. Basicamente PC y NPC son iguales en su funcionamiento (ambos construyen el esqueleto de la red en bases a test de independencia). NPC trata de reparar las deciencias del algoritmo PC y que ocurren espcialmente cuando se usan conjuntos de datos incompletos. La solucion propuesta por el algorimo NPC se bsa en la inclusion de un criterio conocido como condicion de ruta necesaria73 . Este criterio es la base para introducir la nocion de regiones ambiguas74 que proporcionan un lenguaje para la seleccion entre conjuntos de enlaces interdependientes e inciertos. En los algoritmos basados en restricciones, el esquleto del gráfo se construye mediante la no inclusion de un enlace en la gráfo siempre que los nodos correspondientes sean condicionalmente independientes. Puede, sin embargo, haber incosistencias entre el conjunto de independicia condiconal y las condiciones de dependencia originadas por el uso de un conjunto de datos limitado. Es decir no todas las condiciones se pueden representar a la vez. El número de inconsistencias en el conjunto de condiciones reejan el gradod e incertidumbre del modelo estructural. Por lo que, el numero de incertezas es un medida suciente como para saber si el aprendizaje se realizo consuencientes datos o no. Las condiciones incosnsitentes producen multples soluciones a la hora de inducir un grafo aciclico dirigido. 73 Informalmente, esta condicion dice que el orden de dos variables X e Y debe ser condicionamente independiente de un conjunto S; es decir, debe existir una ruta entre X y cada Z perteneciente a S (que no atraviese Y) y entre cada Y y cada Z de S (que no atraviese X). Si no, la inclusion de Z en S es inexplicable. Por lo que, para que la declaracion de independencia sea valida, se requiere un numero de enlaces en el grafo. 74 Cuando la ausencia de un enlace, a, depende de la presencia de otro enlace, b, y viceversa, se deene a y b para ser interdependientes. Tanto a como b constituyen lo que se llama enlaces inciertos. Una region ambigua es el maximo conjunto de enlaces interdependientes. Es decir, una region ambigua es un conjunto de enlaces inceirtos. El objetivo principal es obtener tan pocas y tan pequeñas regiones ambiguas como se pueda. 165 Algoritmo Hill-Climbing Una descripción intuitiva de Hill-Climbing se puede encontrar en probablemente sea el algoritmo de busqueda local mas conocido. La idea que subyace en este algoritmo es la siguiente: empezando en un estado generado aleatoriamente; moverse al estado vecino con mejor valor; reiniciandose, a otro estado aleatorio, cada vez que se alcanza el mimino local. Este proceso se repite hasta que se encuentra la solucion. Hill-Climbing, por lo general, mantiene un parametro llamado Max-Flips que se usa para limitar el numero de movimientos entre cada reinicio, lo que ayuda a dejar minimos locales no estrictos. El hecho de que tenga que explorar todos los vecinos del estado actual antes de realizar el siguiente movimiento, se debe tener en cuenta, puesto que lleva cierto tiempo [5, 314]. El algoritmo Hill-Climbing es un algoritmo de descenso, de sencilla implementación y gran robustez, que dada la repetitividad de su método de búsqueda permite contrastar resultados. La dirección de búsqueda se hace de forma exhaustiva calculando todas las posibles direcciones, y eligiendo aquella que consigue un mayor descenso. Para n variables z = (z0, z1,..., zn−1 ) se ensayan 2n formas [71]: z1 = (z0 + s, z1,..., zn−1 ), z2 = (z0 − s, z1,..., zn−1 ), ..., z2n−1 = (z0, z1,..., zn−1 + s), z2n = (z0, z1,..., zn−1 − s) donde s toma valores arbitrarios. Tipicamente, se realizan varios escalones , asignando a s valores decrecientes en los sucesivos escalones. Una vez alcanzada una situacion de equilibrio para un determinado escalon (cuando ninguna direccion de busqueda proporciona una solucion que mejore a la actual, cuando la mejora es menor que un cierto valor minimo, o cuando se alcanza un maximo de busquedas), el proceso se repite para el siguiente escalon k+1 en el que se aplica un salto s menor. La tendencia a obtener minimos locales es el principal problema de este algoritmo, que se debe al caracter descendiente del coste denido por los criterios de aceptacion del algoritmo, y que depende en gran medida de la solucion de partida. La descripción en forma de algoritmo se puede encontrar en [WIKIPEDI05]. Algoritmo Bayesian Information Criterion (BIC) BIC se ha convertido en un criterio para la seleccion de modelos popular en los ultimos años. BIC trata de proporcionar una medida del peso o el factor bayesiano de una evidencia que favorece a un modelo sobre otro. Tiene, sin embargo, algunas desventajas importantes que normalmente no son reconocidas [91]. Primero, los factores de Bayes dependen de la creencia previa sobre los valores esperados de los parametros de la distribucion y no existen garantias de que el factor de Bayes, implicado por BIC, vaya a hacer que este proximo a uno de los calculados previamente. 166 Segundo, para obtener los factores de Bayes que siguen desde BIC, los investigadores deben variar la ditribucion previa dependiendo de la distribucion marginal de las variables y de la naturaleza de las hipotesis. Dichas variaciones parecen injusticables, en prinicipio, y tienden a hacer que BIC se incline a modelos excesivamente simples en la práctica. Un modelo de mezcla nita se caracteriza por tener un numero de componentes K y un vector de parametros θ = (p1,..., pK , λ1,..., λK ) . Una forma clasica de elegir un modelo es seleccionar aquel que maximice la probabilidad integrada [4]: b = arg(max f (x|m, K)) (m, b K) m,K donde la probabilidad integrada es: f (x|m, K) = R Θm,K f (x|m, K, θ)π(θ|m, K)dθ con la probabilidad: f (x|m, K, θ) = Qn i=1 f (xi |m, K, θ) y siendo Θm,K el parametro que representa el espacio del modelo m con K componentes y π(θ|m, K) una distribucion debil o con poca informacion en θ para este modelo. Swarz propuso una aproximacion asintotica de la probabilidad integrada, valida en condiciones normales: b − log f (x|m, K) ≈ log f (x|m, K, θ) vm,K 2 log(n) donde θb es la estimacion ML (Maximum-Likelihood) de θ θb = argmax f (x|m, K, θ) θ y vm,K es el numero de parametros libres en el modelo m con K componentes. Esto lleva a minimizar el supuesto criterio BIC: BIC m,K = −2Lm,K + vm,K ln n b es la maxima log-likelihood para m y K. donde Lm,K = log f (x|m, K, θ) Aprendizaje Paramétrico El aprendizaje paramétrico consiste en encontrar los parámetros asociados a una estructra dada de una red bayesiana. Dichos parámetros consisten en las probabilidades a priori de los nodos raíz y las probabilidades condicionales de las demás variables, dados sus padres. Si se conocen todas las variables, es fácil obtener las probabilidades requeridas. Las probabilidades previas corresponden a las marginales de los nodos raíz, y las condicionales se obtienen de las conjuntas de cada nodo con su(s) padre(s). Para que se actualizen las probabilidades con cada caso observado, éstas se pueden representar como razones enteras, y actualizarse con cada observación. 167 Aprendizaje Paramétrico en modelos discretos La explicacion de este tipo de aprendizaje se realizara con un ejemplo. Supongase que se compra una bolsa de caramelos de limon y de cerazas de un nuevo fabricante y de los que se desconoce tolmente las proporciones de cada uno de ellos. En este caso se tiene una serie de hipotesis continuas. El parametro en este caso, llamado θ , es la proporcion de caramelos de cereza, y las la hipotesis es hθ . (La propocion de caramelos de limon es (1 − θ) ). Si se asume que todas las proporciones iguales a priori, entonces la aprocimacion Maximum-likelhood es razonable. Si se modela esta situacion mediante una red bayesiana, se necisita una variable alatoria, Flavor (que representa el sabor de un caramelo extraido aleatoriamente de la bolsa). Esta variable tiene los valores cereza y limon, donde la probabilidad de cereza es θ . Ahora se supone que se tiene N caramelos sin envoltorio, de los cuales c son de cereza y |l = N − c| son de limon. De esta forma la funcion de probabilidad es: N P (d|hθ ) = Π P (dj |hθ ) = θc (1 − θ)l j=1 La hipotesis de maximum-likelihood viene dada por el valor de θ que maximiza esta expresion. El mismo valor se obtiene maximizando el log-likelihood, L(d|hθ ) = log P (d|hθ ) = N P log P (dj |hθ ) = c log θ + l log(1 − θ) j=1 Mediante algoritmos se reduce los productos a sumas de los datos , que normalmente es mas facil de maximizar. Para encontrar el valor maximum-likelihood de θ , se diferencia L con respecto θ e igualando la expresion resultante a 0, de la siguiente forma: dL(d|hθ ) dθ = c θ − l 1−θ =0→θ= c c+l = c N Hasta aqui se ha reproducido el metodo de maximum-likelihood para el aprendizaje parametrico, que en resumen consiste: Escribir un expresion de probabilidad para los datos en funcion de los parametros. Calcular la derivada del log-lokelihood para cada parametros Encontrar el parametro cuya derivada es 0. El ejemplo mostrado hasta aqui ilustra un problema importante del aprendizaje maximum-likelihood en general: cuando el conjunto de datos es tan pequeño que algunos eventos no se han sido observados -por ejemplo, que no hay caramelos de cereza- este metodo asigna probabilidad 0 a estos eventos. Para evitar esto, se utilizan algun truco como incializar el conteo de los eventos a 1 en vez de a 0. 168 Los resultados que proporciona este metodo son buenos y es facil comprobar que se puede extender a cualquier tipo de red bayesiana cuyas probabilidades condicionales se representen como tablas. El punto mas imporante es que con datos completos, el problema del aprendizaje parametrico con maximum-likelihood en una red bayesiana se descompone en problemas separados, uno para cada parametro. Otro punto importante es que los valores del parametro para una variable, dados sus padres, son simplemente las frecuencias observadas de los valores de las variables para cada conguracion de los valores de los padres. Como antes, se debe tener cuidado con los cero cuando los conjuntos de datos son pequeños. Existe aprendizaje parametrico para modelos continuos, pero como en el presente proyecto no se hace uso de este tipo de modelos no se van a comentar; tan solo se comenta que sique los mismos principios que el aprendizaje en modelos discretos. Aprendizaje Paramétrico bayesiano El aprendizaje maximum-likelihood da lugar a procedimientos de aprendizaje muy simples, pero tiene serias deciencias en el tratamiento de conjuntos de datos pequeños. Por ejemplo, siguiendo con el ejemplo de los caramelos, la hipotesis maximum-likelihood es que la bolsa tenga el 100 % de caramelos de cereza ( θ = 1,0 ). A menos que la hipotesis previa sea que la bolsa debe contener tanto todos los caramelos de limon o todos de cerezas, esta no es una conclusion razonable. La aproximacion bayesiana para el aprendizaje de parametros establece una hipotesis previa sobre los posibles valores de los parametros y actualiza la distribucion segun llegan los datos. El ejemplo de los caramelos tiene un parametros θ : la probabilidad de que un caramelo cogido al azar sea de cereza. Desde el punto de vista bayesiano, θ es el valor (desconocido) de la variable Θ ; la hipotesis previa es simplemente la distribucion previa P (Θ) . Por lo que P (Θ = θ) es la probabilidad previa de que la bolsa tenga θ caramelos de cereza. Si el parametro θ puede tener cualquier valor entre 0 y 1, entonces P (Θ) debe ser una distribucion continua distinta de 0 solo entre 0 y 1 y que integra a 1. La densidad uniforme P (θ) = U [0, 1](θ) es un candidato. Resulta que la densidad uniforme es un miembro de la familia de la distribuciones beta. Cada distribucion beta se dene por dos hiperparametros a y b tales que: beta[a, b](θ) = αθa−1 (1 − θ)b−1 La constante de normalizacion depende de a y b. El valor medio de la distribucion es , por lo que valores mas grandes sugieren la creencia de que esta mas cercano a 1 que a 0. Valore mayores de a +b hace la distribucion mas escarpada, sugiriendo una gran certeza sobre el valor de . Por lo que, la familia beta proporciona un intervalo util de posibilidades para las hipotesis previa.]para 169 θ en el intevalo [0,1]. La constante de normalizacion α depende de a y b. El valor medio de la distribucion es a/(a + b) , por lo que valores mas grandes sugieren la creencia de que Θ esta mas cercano a 1 que a 0. Valore mayores de a +b hace la distribucion mas escarpada, sugiriendo una gran certeza sobre el valor de Θ . Por lo que, la familia beta proporciona un intervalo util de posibilidades para las hipotesis previa. Anterior, entonces, despues de observar un punto de referencia la distribucion posterior de tambien es una distribucion beta. A la familia beta tambien se la llama conjugada previa para la familia de distribuciones de variables booleanas. A continuacion se ve como trabaja, mediante el ejemplo de los caramelos:]Ademas de su felxibilidad la familia beta tiene otras propiedades interesantes: si Θ tiene una beta[a, b] anterior, entonces, despues de observar un punto de referencia la distribucion posterior de Θ tambien es una distribucion beta. A la familia beta tambien se la llama conjugada previa para la familia de distribuciones de variables booleanas. A continuacion se ve como trabaja, mediante el ejemplo de los caramelos: P (θ|D1 = cereza) = αP (D1 = cereza|θ)P (θ) =α' θ·beta[a, b](θ) = α' θ·θa−1 (1 − θ)b−1 =α' θa (1 − θ)b−1 = beta[a + 1, b](θ) Previa se comporta exactamente como si se hubiera iniciado todo el proceso con una beta[1,1] previa uniforme habiendo visto a-1 caramlelos de cereza actuales y b-1 caramelos de limon actuales. Así, despues de ver un caramelo de cereza, tan solo se incrementa el parametro a para obtener la probabilidad anterior; de forma similar despues de ver un caramelo de limon, se incrementa el paraemtro b. Asi, se puede ver que los hiperparametros a y b como contadores virtuales, en el sentido de que la beta[a, b] previa se comporta exactamente como si se hubiera iniciado todo el proceso con una beta[1,1] previa uniforme habiendo visto a-1 caramlelos de cereza actuales y b-1 caramelos de limon actuales. Mediante el examen de la secuencia de distribuciones beta para el incremento de los valores a y b, manteniendo las proporciones jas, se puede ver directamente como la distribucion posterior sobre el parametro Θ cambia segun llegan los datos. Por ejemplo, si se supone que en la bolsa actual hay un 75 % de caramelos de cereza. La distribucion converge, claramente, a un pico al rededor del valor de verdad de Θ . Para conjuntos de datos grandes el aprendizaje bayesiano converge para dar los mismos resultados que el aprendizaje maximum-likelihood. Si se utilizan tres parametros θ, θ1, θ2 donde θ se ha visto anteriormente lo que es, θ! es la probabilidad de que los caramelos de cereza tengane envoltorio rojo y θ2 la probabilidad de que los caramelos de limon tengan envoltorio rojo. La hipotesis bayesiana previa debe cubrir los tres parametros completamente -es decir, necesitamos especifocar P (Θ, Θ1, Θ2 ) . Normalemente se asume independencia de parametros: P (Θ, Θ1, Θ2 ) = P (Θ)P (Θ1 )P (Θ2 ) Con esta asunción, cada parametro puede tener su propia distribucion beta que se actualiza separadamente segun 170 llegan los datos. Una vez que se tiene la idea de que los parametros desconocidos se pueden representar variables aleatorias como Θ , es natural incorporarlas a la red bayesiana. Para hacer esto, tambien se deben hacer copias de las variables que describen cada caso. Por ejemplo, si se observan 3 caramelos entonces se necesita Sabor1, Sabor2, Sabor3 y Envoltorio1, Envoltorio2, Envoltorio3. El parametro variable Θ determina la probabilidad de cada varibale Sabori : P (sabor i = cereza|Θ = θ) = θ De forma similar la probabilidades de envoltorio dependen de Θ1 y Θ2 . Por ejemplo: P (Envoltorio i = rojo|Sabor i = cereza, Θ1, θ1 ) = θ1 Ahora el proceso de aprendizaje bayesiano se puede formular como un problema de inferencia en una reb bayesiana contruida convenientemente. La prediccion para una nueva instancia se realiza median la incorporacion nuevas variables de la instancia a la red, algunas de las cuales son encoladas. Esta formulacion del aprendizaje y la prediccion meustra claramente que el aprendizaje bayesiano no requiere de ningun principio de aprendizaje extra. Aprendizaje paramétrico secuencial Este tipo de aprendizaje es interesante, sobre todo, en situaciones en las que el proceso de aprendizaje no puede almacenar todas las observaciones pasadas en la memoria principal [136]. El aprendizaje/adaptación secuencial se puede denir como la capacidad crucial de un sistema para corregir los errores del modelo inicial y poder adaptarse a los cambios en la distribucion subyacente [34]. Este tipo de aprendizaje es interesante, sobre todo, en situaciones en las que el proceso de aprendizaje no puede almacenar todas las observaciones pasadas en la memoria principal [136]. Distingue esto del entramiento y prere llamarlo adaptación. En este punto es interesante hacer una distrincion entre la generacion del modelo inicial y la revision de los parametros que ya existen en el modelo. Existen dominios donde hay sucientes datos disponibles para aprender los parametros de la red a patir de una base de datos. Se puede defnir esta actividad como entrenamiento. Sin embargo, el caso más normal es tener que usar una combinacion de conocimiento experto y datos estadisticos para obtener los parametros requeridos. En este punto alguien puede querer usar los datos recibidos para revisar los parametros de la red; los parametros inicialmente se pueden precisar de forma imprecisa o, incluso, de forma incorrecta. [266] distingue esto del entramiento y prere llamarlo adaptacion. Cuando la muestra de entrenamiento aumenta y se requiere una actualizacion rapida e incremental de la red bayesiana, se puede hacer una alteracion de parametros simple sin que 171 afecte a la estructura de los padres. Esto quiere decir, que para cada varible x ∈ X y para cada conjunto de padres razonable Πx ∈ Px se debe incrementar el correspondiente valor de celdas y actuzalar las posteriores. Normalmente este proceso debe afectar a los nodos vivos en el entramado de padres. Por ejemplo, si se tiene una muestra z y se extiende a z' con el nuevo ejemplo teniendo x=i y Πc = j, se debe incrementar nx=i|j y (n +αx )(n Pr (ΠX |z ', ς, E) = Pr (ΠX |z, ς, E) (nx=i|j +mx αx x=.|j )(n x=.|j −1+mx αx ) x=i|j −1+αx ) Todo esto se deriva de las propiedades recursivas de la funcion Gamma. El proceso de actualizacion completo realizara, por tanto, O(P) operaciones. Se puede mejorar este proceso actualizando inicialmente, solo, los nodos hoja en los enntramados del padre porque el cambio en el conteo del ejemplo se puede ltrar hacia arriba sin referencia a los ejemplos. Aprendizaje con datos incompletos Una distinción importante sobre los datos incompletos (missing data) es si la ausencia de estos datos es depediente del estado real de las variables. Por ejemplo, un dato perdido en un estudio sobre dogadiccion puede indicar que el paciente lo hizo demasiado enfermo como para continuar en el estudio. Por otro lado, si la variable es oculta (por ejemplo, nunca se ha observado el caso) entonces la ausencia del dato es independiente del estado de la variable. Aunque los metodos bayesianos y los modelos grácos estan preparados para el análisis de ambas situaciones; los metodos necesarios para cuando la ausencia es independiente del estado son más simples que que aquellos en los que la ausencia es dependiente. En este punto se van a tratar algunos de ello para ver muchos mas se pueden utilizar las siguientes referencias [301, 190, 189]. Aprendizaje paramétrico con datos incompletos Se van a discutir ahora los métodos para el aprendizaje paramétrico cuando se usa una muestra de datos incompleta (por ejemplo, cuando no se han obserado algunas variables de algunos casos). La presentacion formal del problema es la siguiente: Suponiendo que se observa un unico caso incompleto. Sea Y ⊂ X y Z ⊂ X que son las variables observada y no observadas respectivamente. Asumiendo la independencia de parametros se puede calcular la distribucion posterior de θij para una estructura de red S, como sigue: X p(θij |y, S h ) = p(z|y, S h )p(θij |y, z, S h ) x = (1 − p(pa ji |y, S h )){p(θij |S h )} + ri X p(xki , pa ji |y, S h ){p(θij |xki , pa ji , S h )} k=1 Cada término dentro de las llaves en esta ecuacion es una distribucion de Dirichlet. Por lo que, a menos que Xi y todas las variables en Pa i se observen en el caso y, la distribucion posterior de θij sera una combinacion lineal de distribuciones de Dirichlet. 172 Cuando se observa un segundo caso incompleto, alguna o todos los componentes de Dirichlet de la ecuacion anterior se dividirán en mezclas de Dirichlet. Lo que siginica, que la distribucion posterior para θij se transformara en una mezcla de mezclas de Dirichlet. A medida que se siguen observando datos incompletos, cada valor perdido para Z, la distribucion posterior de θij contendra unnumero de componentes que es exponencial al numero de casos. En general, para cualquier conjunto interesante de probabilidades y prioridades, el calculo exacto de la distribucion posterior de θij es intratable. Por lo que se requiere una aproximacion para datos incompletos. Se procede a continuación a explicar los metodos mas comúnmente utilizados. Metodos de Monte-Carlo Una clase de aproximaciones esta basada en los muestreos de Monte-Carlo. Estas aproximaciones pueden ser extremadamente exactas, siempre que se este dispuesto a esperar bastante tiempo hasta que se produzca la convergencia. Se va a presetantar el metodo de Monte-Carlo conocido com Gibbs sampling (que aunque se ha explicado anteriormente, aquí tiene otra aplicacion). Dadas las variables X = {X1 , ..., Xn } con alguna distribución conjunta p(x) se puede utilizar el sampler de Gibbs para aproximar la expectativa para la función f(x) con respecto de p(x) de la siguiente forma. Primero, se elige (de alguna manera, por ejemplo, aleatoriamente) un estado inicial para cada una de las variables en X. A continuación se elige una variable culaquiera Xi se desasigna su estado actual, y se calcula su distribucion de probabilidad dados los estados de resto de n-1 variables. Entonces se muestrea un estado para Xi basado en su distribucion de probabilidad y se calcula f(x). Finalmente se repiten los dos primeros pasos, manteniendo un registro del valor medio de f(x). En el límite, como el número de casos se aproxima a innito, esta media es igual a Ep(x) (f (x)) con tal de que se cumplan dos condiciones. Primero, el sampler de Gibbs debe ser irreducible, es decir, la distribución de probabilidad p(x) debe ser tal que se pueda muestrear eventualmente cualquier posible conguracion de X dada cualquier conguración incial de X. Segundo, cada Xi se debe elegir amenudo. Para ilustar el funcionamiento de Gibbs Sampling, se aproximará la densidad p(θs |D, S h ) para cualquier conguracion de θs dado un conjunto de datos incompletos D = {yi , ..., yn }y una red bayesiana de variables discretas con prioridades de Dirichlet independientes. Para aproximar p(θs |D, S h ). Primero se incializa, de alguna forma, los estados de las variables no observadas en cada caso. Como resultado, se obtiene una muestra completa y aleatoria Dc . Segundo, se elige alguna variable Xil (variable Xi en el caso l) que no se ha observado en la muestra original D elegida al azar, y se reasigna su estado de acuerdo con la distribucion de probabilidad: p(x'il |Dc \ xil , S h ) = p(x'il ,Dc \xil |S h ) p(xil ,Dc \xil |S h ) x P il 173 donde Dc \ xil indica el conjunto de datos Dc con la observacion Xil borrada. Tercero, se puede repetir esta reasignacion para todas las variables no observadas en D, produciendo una muestra completa aleatoria nueva Dc' . Cuarto, se calcula la probabilidad posterior p(θs |D, S h ) . Y nalmente, se repiten los tres primeros pasos y se usa la media de p(θs |D, S h ). Aproximación Gaussiana Los metodos de Monte-Carlo proporcionan resultado exacto, pero normalmente son intratables, por ejemplo, cuando se tiene una muestra de datos demasiado grande. Otra aproximación que ofrece resultados practicamente igual de exactatos para muestras relativamente grandes es, esta aproximacion gaussiana [209] y [12] que se comenta en este punto. La idea que hay detras de esta aproximacion es que, para una cantidad de datos grande, p(θs |D, S h ) ∝ p(D|θs , S h )p(θs |S h ) se puede aproximar, frecuentemente, a una distribucion Gaussiana multivarible. Concretamente, sea: g(θs ) ≡ log(p(D|θs , S h )p(θs |S h )) También, se dene θ̃s como la conguracion de θs . Esta conguracion tambien maximiza p(θs |D, S h ) y se conoce como la conguracion MAP de θs . Para calcular esta aproximacion gaussiana, se debe calcular θ̃s , asi como, el Hessian75 negativo de g(θs ) evaluado en θ̃s . Aproximación MAP, ML y algoritmo EM Como aumente el tamaño de la muestra, el pico gaussiano es más agudo tendiendo a la función delta de la conguración MAP θ̃s . En este punto no es necesario calcular medias o expectativas. En su lugar, simplemente se realizan predicciones basadas en la conguración MAP. Una aproximación más profunda se basa en la observación de que, como el tamaño de la muestra aumenta, el efecto de la anterior p(θs |S h )disminuye. Por lo que, se puede aproximar θ̃s por medio de la conguracion de Maximum Likekihood del θs : θ̃ = argmax {p(D|θs , S h )} θa Existe un tipo de tecnicas de optimizacion basada en gradiente para para encontrar ML o MAP. Por ejemplo, se puede usar un gradiente ascendente, donde se siguien las derivadas de g(θs ) o la probabilidad p(D|θs , S h ) hasta el maximo local. [302] y [355] muestran como calcular las derivadas de la probabilidad de una red bayesiana con distribuiciones multinomiales no restringidas. [46] discute el caso más general donde la funcion de probabilidad viene de una familia exponencial. Por supuesto estos metodos basados en gradiente encuentran sólo el maximo local. 75 http://rkb.home.cern.ch/rkb/AN16pp/node118.html 174 Otra tecnica para encontrar un ML o MAP local es el algoritmo EM descrito por [104]. Para buscar el maximo local MAP o ML, se comienza por asignar, de alguna forma (por ejemplo, aleatoria) un conguracion a θs . Seguidamente, se calcula la estadistica suciente esperada para un conjunto de datos completo, donde la expectacion se toma con respecto a la distribucion conjunta para X condicionada por la conguracion asignada a θs y los datos conocidos D. En el ejemplo que se viene mostrando, se puede calcular: Ep(x|D,θs ,S h ) (Nijk ) = N P l=1 p(xki , pa ji |yl , θs , S h ) donde yl es el l-esimo caso incompleto de D. Cuando Xi y todas las variables en pa i se observan en el caso xl el término para este caso requiere una computación trivial: es cero o uno. Si no, se puede usar cualquier algoritmo de inferencia bayesiano para evaluar el término. Este cálculo es el paso de expectacion del algoritmo EM. Seguidamente, se usan las estadisticas-sucientes esperadas como si fuesen la actuales estadisiticassucientes de la muestra completa (aleatoria) D. Si se hace el calculo ML, se determina la conguracion de θs que maximiza p(Dc |θs , S h ). Siguiendo el ejemplo, se tiene que: θijk = Ep(x|D,θ ,S h ) (Nijk ) s Pri k=1 Ep(x|D,θ ,S h ) (Nijk ) s Si se hace el calculo MAP, entonces se establece la conguracion de θs que maximiza p(Dc |θs , S h ). Siguiendo el ejemplo, se tiene que: θijk = αijk +Ep(x|D,θ ,S h ) (Nijk ) s Pri k=1 (αijk +Ep(x|D,θ ,S h ) (Nijk )) s Esta asignacion, realmente, es el paso de maximizacion del algoritmo EM. Este algorimo se usa normalmente cuando cuando existen sucientes estadisiticas (por ejemplo, cuando una funcion de distribucion local está en una familia exponencial), aunque generalizaciones de EM permiten que se use en distribuciones locales mas complicadas. Una vez que se ha construido la red bayesiana ( a partir de concimiento, previo, datos o una combinacion de ambos) normalmente, surge la necesidad de determinar algunas probabilidades de interes a partir del modelo. Por ejemplo, en un problema sobre deteccion de fraude, se puede pretender obtener la probabiliadad de un fraude dadas una serie de observaciones de otras variables. Esta probabilidad no se almacena directamente en el modelo y por tanto se debe calcular. En general, el calculo de la probabilidad dado un modelo se conoce como inferencia. En este punto se va a describir la inferencia en redes bayesiana [86]. Como una red bayesiana, para una variable X, determina la distribucion probabilidad conjunta de esa variable, se puede (en principio), usar la red baysiana para calcular cualquier probabilidad que resulte de interes. Por ejemplo, para la siguiente red: 175 Figura 2.78: Red bayesiana de ejemplo La probabilidad se puede calcular: p(f |a, s, g, j) = p(f,a,s,g,j) p(a,s,g,j) = P p(f,a,s,g,j) p(f ' ,a,s,g,j) f' Para problemas con muchas más variables, sin embargo, esta aproximacion tan directa no es posible. Afortunadamente, cuando todas las variables son discretas, se puede aprovechar la independencia condicional codicada en las redes bayesianas para hacer estos calculos más ecientes. Dada la ecuacion de independecia condicional p(j|f, a, s, g) = p(j|f, a, s) la ecuacion anterior se transforma en: p(f |a, s, g, j) = )p(j|f,a,s) P p(f )p(a)p(s)p(g|f p(f ' )p(a)p(s)(g|f ' )p(j|f ' ,a,s) f' = )p(j|f,a,s) P p(f )p(g|f p(f ' )(g|f ' )p(j|f ' ,a,s) f' Muchos investigadores han desarrollado algoritmos de inferencia para redes bayesianas con variables discretas que aprovechan la independencia condicional como se ha descrito arriba. Por ejemplo en [166], [239] y [287] desarrollan algoritmos que invierten arcos o enlaces en la estructura de la red hasta que la pregunta probabilista realizada se puede leer directamente del grafo. En estos algoritmos cada enlace invertido se corresponde con una aplicacion del teorema de Bayes. [186] desarrolla un esquema de paso de mensajes que actualiza las distribuciones de probabilidad de cada nodo de una red bayesianas en respuesta a observaciones de una o más variables. [392], [197] y [97] crearon un algoritmo que primero transforma la red bayesiana en un arbol donde cada nodo en el arbol se correponde con un subconjunto de variables en X. El algoritmo se aprovecha, entonces, de algunas propiedades matematicas de los arboles para realizar la inferencia. Este algoritmo es el que más se utiliza con variables discretas. Aunque se utiliza la independencia condicional para simplicar la inferencia probabilistica, la inferencia exacta en redes bayesianas arbitrarias con nodos discretos es un problema NPhard76 . Incluso la inferencia aproximada mediante, por ejemplo, el metodo de Monte-Carlo es un problema NP-hard. El origen de esta dicultad subyace en lo ciclos no dirigidos de la estructura de la red bayesiana -ciclos en la estructura donde no se hace caso a la direccionalidad de los enlaces. Cuando una red bayesiana contiene muchos ciclos la inferencia es intratable. Para muchas aplicaciones la estructura es sucientemente simple (o se puede simplicar sin perder demasiada exactitud) por lo que la inferencia es eciente. 76 http://es.wikipedia.org/wiki/NP-hard 176 Algoritmo Gibbs Sampling [51] Este algoritmo es uno de los más simples dentro de los algoritmos de Monte-Carlo. Lo introdujo [144] en el contexto del procesamiento de imagenes y posteriormente lo discutio [350] en el contexto de problemas de perdida de datos. El documento [143] ayuda a demostrar el valor del algoritmo de Gibbs para un amplio abanico de problemas de analisis bayesiano. Para denir este algoritmo, se establece la distribucion condicional total como: {π(ψ1 |ψ2 , ..., ψp ); π(ψ2 |ψ1 , ψ3 , ..., ψp ); π(ψp |ψ1 , ..., ψd−1 )} Ahora un ciclo del algoritmo se completa mediante la simulacion de {ψk }pk=1 para esas distri- buciones, actualizando de forma recursiva las variables condicionantes. Cuando d=2 se obtienen los dos bloques del sampler de Gibbs que aparecen en [350]. En este sampler cada bloque se revisa en un orden jado, de la siguiente manera [39]: (0) (0) Se especica un valor inicial ψ (0) = (ψ1 , ..., ψp ) Repetir para j = 1, 2, ..., M (j+1) desde π(ψ1 |ψ2 , ψ3 , ..., ψp ) (j+1) desde π(ψ2 |ψ1 (j+1) desde π(ψp |ψ1 • Generar ψ1 • Generar ψ2 (j) (j) (j) (j+1) , ψ3 , ..., ψp ) (j+1) , ..., ψp−1 ) (j) (j) • ... • Generar ψp (j+1) Devolver los valores {ψ (1) , ψ (2) , ..., ψ (M ) } (j) (j+1) La densidad de la transicion de ψk hasta ψk (j+1) (j+1) (j) (j) p(ψk |ψ1 , ..., ψk−1 , ψk+a , ..., ψp ) viene dado por hasta que el bloque k-esimo se alcanza, el anterior (k-1) se actualiza. Por lo tanto, la densidad de la transicion de la cadena, bajo el supuesto de que π es absolutamente continua, viene dada por el producto de las transiciones de los nucleos de cada bloque: K(ψ, ψ ' ) = p Q k=1 (j+1) π(ψk |ψ1 j+1 j , ..., ψk−1 , ψk+1 , ..., ψpj ) Para ilustrar la manera en que los bloques se revisan, se considera el caso de dos bloques, cada uno con un único componente y esquematizado en la siguiente gura una posible trayectoria del algoritmo. 177 Figura 2.79: Trayectoria Del Algoritmo Los contornos en la gura representan la distribucion conjunta de ψ y las etiquetas (0), (1), etc denotan los valores simulados. Hay que darse cuenta que en cada iteracion del algoritmo se completa despues de que ambos componentes han sido revisados. Tambien hay que darse cuenta de que cada componente se revisa a lo largo de la los ejes de coordenas. Esta caracteristica puede ser una fuente de problemas si dos componentes estan ampliamente correlacionados porque entonces los contornos tienen compresiones y movimimientos a lo largo del eje de coordenadas que dan lugar a pequeños movimientos. Este algoritmo es aplicable cuando la distribucion conjunta no se conce explicitamente, pero la distribucion condicional de cada variable si es conocida. En resumen, lo que hace este algoritmo es generar una instancia de la distribucion de cada variable de forma condicional a los valores actuales de las otras variables [WIKIPEDI05]. Este algoritmo es facil de implementar y garantiza convergencia hacia la distribucion correcta, sin embargo puede requirir un numero excesivo de iteraciones antes de que converja [87]. Algoritmo Naive El metodo de inferencia que se prensenta en este punto se puede aplicar a cualquier modelo naive. En [87] describen el algoritmo de la siguiente forma: para preguntas marginales, sea X el conjunto de variables de consulta, sea C la variable componente de k estados y Z el conjunto de la demas variables ocultas. (Se asume que la variable componente nunca forma parte de la consulta, esto es, nunca se observa en los datos de entrenamiento). Permitase que X se reera a los estados jos de las variables de pregunta. Ahora se puede calcular la probabilidad marginal directamente mediante la suma de todos los posibles estados de C y Z: P (X = x) = k P P P (X = x, Z = z, C = c) c=1 z 178 Por la hipoteisis de naive Bayes, cada una de las otras variables son indepndientes dada C. Usando esto, se puede expresar la probabilidad en terminos de las distribuciones aprendidas P(C) y P (Xi |C) : P (X = x) = |Z | |X | k P P Q Q P (c) P (zi |c) P (xi |c) c=1 k Como P z i=1 j =1 P (zi |c) siempre es 1, las variables en Z no afectan al calculo de la probabilidad y se pueden ignorar con total seguridad: P (X = x) = k P X| Q | P (c) c=1 P (xj |c) j =1 Como esta expresion es el producto de k sumas, cada suma conteniendo |X|+1 terminos, el tiempo total requerido para calcaular P(X = x) es O(|X|k). El tiemp de inferencia de naive Bayes es constante al numero de variables ocultas mientras la inferencia exacta bayesiana es exponencial al numero de varibles ocultas. Las probabilidades condicionales se pueden calcular ecientemente como ratios de las probabilidades marginales. Permitase a Y referirse a un conjunto de variables condionantes en la consulta condicional y permitase a y referirse a un estado jo de Y. =y) P (X = x|Y = y) = P (X=x,Y P (Y =y) Las probabilidades marginales en numerador y denominador se pueden calcular en tiempo O(k(|X |+|Y |)) y O(k |Y |) respectivamente. Por otro lado, la probabilidad condicional P(X =x | Y = y) se pude calcular en tiempo O(k(|X |+|Y |)) . Hay que jarse en que este tiempo permanace independiente del numero de variables ocultas. Puesto que la distribucion de probabilidad completa, sobre multiples variables, especica un probabilidad para cada uno de un numero exponencial de estados, almacenar estas probabiliadades puede requerir un tiempo y espacio tambien exponencial. Se puede, sin embargo, generar de forma eciente un modelo reducido de naive Bayes que incorpore toda la evidencia. En este modelo reducido se borran todas las variables de Y y las evidencias en Y se han incorporado mediante el ajuste del peso de los componentes, P(C). Inferencia con datos incompletos Las inferencias sobre las magnitudes desconocidas parámetros, datos no observados, variables latentes, etc se obtienen calculando la distribución condicionada de éstas por las magnitudes conocidas, como son: el modelo estadístico, los datos observados, las variables explicativas, el método de muestreo y cualquier otra información auxiliar, como pueda ser el redondeo de los datos, la censura o truncado de estos, etc [182]. 179 Puesto que no se han encontrado que metodos o algoritmos emplea la libreria PNL para realizar esta labor; se pasa a describir algunos de los metodos mas importantes que se han encontrado. Metodos de imputacion multiple La imputacion múltimple (MI) es la practica de rellenar los datos perdidos con valores plausibles. Aparentemnente resuelve que existan missing-data al comienzo del analisis de los datos. Sin embargo, una metodo de imputacion ingenuo puede crear mas problemas de los que resuleve, distorsionando las estimaciones, produciendo errores de todo tipo como indica [300]. El procedimiento de MI proporciona tres metodos para la imputacion la imputacion de los valores perdidos y el metodos elegido depende del patron que sigan los missing-data. Para patrones monotonos son apropoiados tanto el metodo de regresion parametrica, que asume normalidad multivariable como un metodo no parametrico que usa un metodo de puntuacion de la propension. Para patrones arbitrarios se puede usar el metodo MCMC77 que asume normalidad multivariable. A continuacion se describen estos tres metodos comentados. 1. Metodo de regresion paramétrica De forma intuitiva, este metodo ajusta un modelo de regresion para cada variable con valores perdidos, con las variables previas como covarianzas. En base al resultado del modelo simula un nuevo modelo de regresión y lo usa para imputar los missing-data a cada variable [9]. Puesto que el conjunto de datos tiene un patron de perdida de datos monotono, el proceso se repite secuencialmente para variables con missing-data. De un modo mas formal, para una variable Yj con valores perdidos, se ajusta con observaciones no perdidas de un modelo Yj = β0 + β1 Y1 + β2 Y2 + ... + β(j−1) Y(j−1) El modelo ajustado tiene estimaciones del parametro de regresion (β̃0, β̃1, ..., β̃(j−1) , ) y la covarianza asociada σj2 Vj donde Vj es la matrix X'X de la interseccion y las variables Y1, Y2, ..., Y(j−1) . Para cada imputacion, aparecen nuevos parametros (β̃* 0, β̃*1 , ..., β̃*(j−1) , ) y σ*2j de la distribucion predictiva de los missing-data. Es decir, se simulan de (β̃0, β̃1, ..., β̃(j−1) , ) , σj2 y Vj . Los valores perdidos se reemplazan, entonces, por β*0 + β*1y1 + β*2y2 + ... + β*(j−1)y(j−1) + zi σ* j donde y1, y2, ..., y(j−1) son los valores de la covarianza de las primeras (j-1) variables y z es una desviacion normal simulada. 77 Markov Chain Monte Carlo 180 1. Metodo de puntuación de la propensión La puntuación de la propensión es la probabilidad condicional de la asignacion a un tratamiento particular dado un vector de covarianzas observadas [301]. En este metodo se genera una puntuacion de la propension para cada variable con valores perdidos para indicar la probabilidad de la observacion que falta . Las observaciones se agrupan entonces basandose en esa puntuacion y se aplica a cada grupo una imputación bayesiana aproximada [226]. Con un patron de perdida de datos monótono, los pasos a seguir para imputar valores a cada variable Yj con datos perdidos son los siguientes: Crear una variable indicador Rj con el valor 0 para las boservaciones con Yj perdido y el valor 1 en caso contrario. Ajustar el modelo logico de la regresion de logit(pj ) = β0 + β1 Y1 + β2 Y2 + ... + β(j−1) Y(j−1) donde pj = p(Rj = 0|Y1, Y2, ..., Y(j−1) ) y logit(p) = log(p/(1 − p)) Crear la puntuacion de la propension para cada una de las observaciones para indicar la probabilidad de los datos perdidos. Dividir las observaciones entre un jado de grupos basando es las puntuaciones. Aplicar un arranque de imputacion bayeisano aproximado para cada grupo. En el grupo k , denote Yobs la n1 obserbacion sin perdida de datos de los valores de Yj y denote Ymis la observacion n0 con perdida de datos de Yj . El arraque aproximado de la imputacion bayesiana primero muestra n1 observaciones aleatorias con remplazamiento de Yobs para * crear un nuevo conjunto de datos Yobs . Este es una analogia no-parametrica de los para- metros mostrados para la distribucion predictiva posterior de los datos perdidos. Entonces * muestra los n0 valores de Ymis reemplazandolos aleatoriamente con los valores de Yobs . Este proceso se repite secuencialmente para cada variable con valores perdidos. Este metodo utiliza sólo la informacion de covarianza con la que esta relacionada si los valores imputados de la varible estan perdidos. No usa correlaciones entre variables. Es efectivo para inferencias sobre las distribuciones de variables imputadas individualmente, pero no es apropiado para el analisis de las relaciones entre variables [400]. 1. Metodo MCMC En este metodo se construye una cadena de Markov sucientemente larga como para que la distribucion de elementos se estabilice en una distribucion comun y estacionaria. Mediante simulaciones repetidas se obtiene una distribucion de interes. En inferencia bayesiana, la informacion sobre los parametros desconocidos se expresa en forma de distribucion posteriror. MCMC se ha aplicado como un metodo de exploracion de 181 distribuciones posteriores en inferencia bayesiana. Es decir, mediante MCMC , se puede simular la distribucion conjunta entera de las cantidades desconocidas y para obtener una estimacion simulada de los parametros posterirores de interes. Asumiendo que los datos son de una distribucion normal miltivariante, el aumento de datos se aplica a la inferencia bayesiana con missing-data mediante la repeticion de una serie de imputaciones y pasos posteriores. Los pasos son los siguientes [400]: Paso de imputacion I-step. Con el vector de medias estimadas y la matriz de covarianza, este paso simula los valores perdidos para cada una de las observaciones de forma independiente. Esto es, si se denota las variables con valores perdidos de la observacion i como Yi(mis) y las variables con valores observados como como Yi(obs) entonces el paso I-step muestra valores para Yi(mis) de una distribucion condicional dado Yi(obs) . Paso posterior p-step Este paso simula el vector de poblacion media posterior y la matriz de covarianza para estimaciones de muestras completas.. Estas nuevas estimaciones se usan en el pasos I-step. Sin informacion previa sobre esos parametros, se usan piroridadas no informativas. Se puede usar otras prioridades informativas. Estos dos pasos se repiten lo suciente como para que sean conables para un conjunto multiple de datos imputados [316]. La meta es tener la convergencia iterada a su distribucion estacionaria y entonces simular una muestra independiente de valores perdidos. Es decir, con el parametro actualmente estimado (t+1) θ(t) en la t-esima iteracion el paso I-step muestra Ymiss muestra θ(t+1) de (t+1) p(θ|Yobs , Ymis ) de p(Ymis |Yobs , θ(t)) y el paso p-step (1) (2) . Esto crea la cadena de Markov (Ymis , θ(1) ), (Ymis , θ(2) ), ..., que converge en una distribucion para p(Ymis , θ|Yobs ). 2.5.3. Modelado de la información de estado [137] Sea X una variable aleatoria que puede tomar L posibles valores de un conjunto Σ. Sin pérdida de generalidad, sea Σ={1, ..., L} . Proporcionando un conjunto de entrenamiento D que contiene los resultados de N variables independientes x1, ..., xN de X de una distribucion multinomial desconocida P*. Se puede indicar por Ni el número de ocurrencias del símbolo i en los datos de entrenamiento. El problema de estimación multinomial es encontrar una aproximación buena para P* (que tambien es una distribucion multinomial). Este problema consiste en predecir el resultado de xN +1 dado x1, ..., xN . Dada una distribucion anterior sobre las posibles distribuciones multinomiales la estimacion Bayesiana es: 182 P (xN +1 |x1, ..., xN , ξ) = R P (xN +1 |θ, ξ)P (θ|x1, ..., X N , ξ)dθ donde θ = (θ1 , ..., θL ) es un vector que describe los posibles valores de las probabilidades desconocidas P * (1), ..., P * (L) , y ξ es la variable contexto que indica todas las posibles hipotesis sobre el dominio. La probabilidad posterior de θ se puede reescribir usando la ley de Bayes como: P P (θ|x1, ..., xN ) ∝ P (x1, ..., xN |θ, ξ)P (θ|ξ) = P (θ|ξ) θiNi i La distribucion de Dirichlet es una familia parametrica que son las conjugaciones de la distribucion multinomial. Esto es, si la distribucion previa es de esta familia, entoces esta en la posterior. Un Dirichelet prior para X se especica mediante los hiperparametros α1 , ..., αL y tienen la forma: P (θ|ξ) = donde Γ(x) = R∞ 0 P Q P Γ( Q i α i ) θ α i -1 ( θ i i Γ(α ) i i i i = 1andθi > 0∀i) tx-1 e-t dt es la funcion gamma. Dado un Dirichlet prior, la prediccion incial para cada valor de X es: P (X 1 = i|ξ) = R θiP (θ|ξ)dθ = Pαi j αj Con todo esto es facil ver que, si el previo es un Dirichelet prior con hiperparametros α1 , ..., αL eentondes el posterior es un Dirichelet con hipermarametros α1 + N1 , ..., αL + NL . Por lo la prediccion para X N +1 es: P (xN +1 = i|x1, ..., xN , ξ) = P αi +Ni j (αj +Nj ) Se puede pensar en los hiperparametros αi como un numero de ejemplos imaginarios en los que se ha visto el resultado i. Así, el ratio entre los hiperparametros corresponde a la valoracion inicial de la probabilidad relativa de los resultados correspondientes. El peso total de los hiperparametros representa la conanza en el conocimiento previo. Como se puede ver, si este peso es grande, la estimacion de los parametros tiende a ir mas allá de las frecuencias observadas empiricamente de los datos. Cadenas de Markov En este apartado se van a describir las cadenas de Markov, los modelos de Markov Ocultos y diversas aproximaciones a su implementación. Además se dará una visión de las problemáticas y algorítmicas empleadas. [290, 228] 183 Cadenas de Markov Una cadena de Markov representa un automáta con estados nitos de la siguiente forma: Figura 2.80: Cadena de Markov Se dene como λ = N, {π1}, {aij} N, representa el número de estados que tiene la cadena. π representa la probabilidad inicial o a priori de cada uno de los estados. {aij}, representa la matriz de distribución de probabilidad para transiciones entre estados de la cadena. La premisa fundamental que se realiza en todo tratamiento y trabajo relacionado con modelos de Markov es la hipótesis de independencia de todas las muestras anteriores con la actual salvo para con la anteior. Esto explicado de forma matemática queda de la siguiente forma: P (qt = j|qt−1 = i|qt−2 = k, ...) = P (qt = j|qt−1 = i) La interpretación es que la probabilidad de estar en el estado j en el instante actual sólo viene condicionada al estado en el que se encontraba el sistema en el instante t-1. El resto de las muestras que se han producido en el modelo se descartan, si bien hay trabajos relacionados para ampliación del número de etapas anteriores a tener en consideración: bigramas, trigramas, . . . n-gramas. Las cadenas de Markov además tienen la propiedad de ser estacionarias, es decir, que en cada momento se cumple el principio de Markov, esto es: P (qt = j|qt−1 = i) = P (qt+1 = j|qt+1−1 = i) A este tipo de cadenas de Markov también se le suele denominar cadenas de primer orden. A su vez denotar que los estados en estas cadenas son observables, es decir, se puede saber su valor en todo momento. La parte observable de este modelo es la propia secuencia de estados y a su vez se puede calcular la probabilidad de que se de una observación en concreto para un determinado modelo: 184 P (X|M ) = πX1 · αX1 X2 . . . αXn−1 Xn La fórmula anterior indica que para calcular la probabilidad de que una cadena de Markov genere una determinada observación, se calcula de forma tan sencilla como la arriba indicada: probabilidad de inicio por el primer estado de la observación, por la probabilidad de transición entre el primer estado observado y el segundo, etc. Representacion de cadenas de markov como RRBB Las cadenas de Markov son un subconjunto de las propias Redes Bayesianas. Es decir, que se puede representar lo mismo de ambas formas. Para el caso de una cadena de Markov simple como la que sigue: Figura 2.81: Cadena de Markov representada como red bayesiana En esta red de ejemplo las probabilidades son las siguientes: Cuadro 2.4: Tabla de probabilidades de la gura Con una determinada distribución inicial π , que indica la probabilidad a priori de que se esté en un estado o en otro. Una red bayesiana que represente lo mismo, partiendo del principio de que sólo se mantiene el conocimiento del estado anterior, queda tan simple como esta: 185 Figura 2.82: Tablas de probabilidad condicionada Las tablas de probabilidades condicionadas para el nodo de la RRBB que se ha denominado SFinal, van a indicar la probabilidad de que se de un determinado estado de la variable en función del estado que haya ocurrido con anterioridad. Como se puede aprenciar en la gura, además de tener las tablas de probabilidad condicionada en el segundo nodo, se tiene la tabla de probabilidad a priori del primero, que coincidirá con la distribución π , de una cadena de markov simple. Denotar además, que solo hacen falta dos variables para computar todo, introduciendo evidencias parciales y manteniendo el productorio. Para el primer caso de las cadenas de Markov el procedimiento para calcular la ruta S1, S2, S3, S5, S4, S1: P (S1, S2, S3, S5, S4, S1) = P (S1) · P (S2|S1) · P (S3|S2) · P (S5|S3) · P (S4|S5) · P (S1|S4) Realizando la misma operación, de la RRBB sólo nos va a interesar el CPD78 del segundo nodo, para poder realizar el cálculo pertinente. Todas las probabilidades condicionadas se van a poder obtener de la susodicha tabla. Además las probabilidades iniciales, para una cadena de markov en la que no se tiene denido ni estado de principio ni de nal, quedan representadas en la tabla o CPD del nodo denominado Sinicial . En la forma anterior como se puede apreciar, resulta bastante sencilla la modelización de una cadena de Markov y además se obtienen una serie de ventajas algoritmicas y computacionales dadas por las redes bayesianas en sí mismas79 . Hidden Markov Model Los Modelos Ocultos de Markov son autómatas de estados nitos estocásticos con observaciones continuas o discretas. Estas observaciones o salidas se conocen como símbolos y en cada momento del tiempo sólo se extrae uno en concreto. 78 79 CPD, tabla de probabilidades del nodo en cuestión. Inferencia, aprendizaje, correlación, independencia, representación del conocimiento . . . 186 Básicamente es el mismo concepto que las cadenas de Markov anteriores, con la salvedad de que los estados no son visibles, si no que de ellos sólo se conoce la salida que emiten. Se han utilizado extensamente en el reconocimiento del habla, en los que se llega incluso a una jerarquía de modelos que van desde la detección de subpalabras (fonemas, semisílabas, sílabas) hasta la detección de palabras y textos completos. Otros usos comunes son el modelado de secuencias genéticas de ADN, el modelado de textos o la extracción de información de los mismos [Rabiner93]. Aplicaciones en las que se utilizan pueden ser: robótica, reconocimiento de voz, genoma humano, economía, nanzas, marketing y un largo etcétera. Se pueden considerar como una máquina abstracta con k estados ocultos que emiten símbolos observables de un alfabeto Σ. Cada estado tiene su propia distribución de probabilidad con lo que la máquina varía entre los estados de acuerdo a esta distribución. Se tienen que tomar para realizar un cambio de estado dos decisiones: ¾a qué estado se tiene que pasar?, y ¾qué símbolo del alfabeto Σ es el que se tiene que emitir? Los observadores pueden ver los símbolos que han sido o se están emitiendo, pero desconocen el estado oculto en el que se encuentra el modelo HMM en cada momento. La idea subyacente es conseguir identicar la secuencia de estados ocultos por la que se ha ido para la obtención de una determinada serie de símbolos. Los parámetros de un Modelo Oculto de Markov son los siguientes: Alfabeto Σ de símbolos que pueden ser emitidos. Conjunto S de estados ocultos que pueden emitir símbolos del alfabeto anterior. Matriz de transiciones T. Indicando la probabilidad de pasar de un estado s a otro estado s. Matriz de emisiones A para cada estado. Indica la probabilidad de emitir un determinado símbolo del alfabeto estando en un determinado estado. Se puede denir otra variable acorde a la ruta seguida a través de los estados ocultos en el interior del modelo que se denomina habitualmente path o hidden path. Se asume que en total hay N estados Sn posibles para el modelo. Además, se añade un estado S0 en el que siempre se va a comenzar por conveniencia en la implementación. También se añade un estado SN como el estado nal del modelo, dado que llegado a ese punto, el modelo parará. Se tiene a su vez un conjunto P como posibles salidas del modelo que cumplen el alfabeto Σ = {a1, a2, . . . , aP}. Si además se añade un símbolo a 0 que reprensenta la salida nula se concede al modelo que pueda haber momentos en los que no exista ninguna salida. Cada estado Sj tiene una distribución de probabilidad de emisión de símbolos denida por el vector Aj tal que la probablidad de emisón de a cuando se esté en el estado Sj sea denida por Aj (a). Se cumple que: 187 P A(α) = 1 ∀Sj ∈ S α∈A Para la matriz de transiciones T, dena de forma que Tjk es la probabilidad de moverse desde el estado Sj al estado Sk. Denotar que las las de la matriz generada de esta forma deben sumar 1, si bien las columnas no tienen porqué. También se tiene que resaltar que los elementos de la diagonal de esta matriz deberán ser diferentes de cero para poder permitir transiciones de un estado a sí mismo. Para poder eliminar la necesidad de almacenar la distribución inicial de partida de los estados se tiene a usar el estado comentado anteriormente S0, estado en el que el modelo siempre empieza y no vuelve nunca a él. Esto indica que la primera columna de la matriz T esté rellena de ceros y que la primera la es sólo la distribución de probabilidad de comienzo de los estados. En general por compendio se va a utilizar a partir de ahora la nomenclatura de [Rabiner93] en la que una cadena de Markov queda completamente denida de la siguiente forma: N estados ocultos. M posibles observaciones. Las distribuciones iniciales de los estados {π1, π2, . . . , πN } Los estados se etiquetan como S1, S2,. . . , SN. El número de observaciones se ja en T y éste será a su vez el número de estados ocultos a través de los que se ha pasado. La secuencia de observaciones: O = O1, O2,. . . , OT . La notación que se emplea para una determinada ruta de estados ocultos es: Q = q1, q2, . . . , qT. La matriz de transición entre estados ocultos se denota A y sus coecientes serán aij. La matriz de emisión de símbolos por estado se denota B y es única para cada estado oculto, por lo que sus coecientes en función del estado son: bi(j). De esta forma la nomenclatura completa para una cadena de Markov viene determinada por: λ = N, M, {π1}, {aij}, {bi(j)} Los cálculos más comunes que se suelen emplear son: Probabilidad de que una determinada secuencia siga un determinado camino en el interior del modelo. Probablidad de emitir una determinada serie de símbolos alcanzando el estado 188 Probabilidad de estar en un determinado estado símbolos. Los problemas más comunes para los que se trata de buscar una solución mediante aplicación de estos modelos [290]: Calcular la probabilidad con la que un determinado modelo puede producir una secuencia de observaciones. Encontrar el camino óptimo dentro de los estados ocultos que más probablemente haya podido generar una determinada secuencia. Aprender un HMM que satisfaga lo mejor posible las secuencias observadas. Para el primero de los problemas planteados, la solución pasa por calcular la probabilidad con la que la secuencia observada se ajusta al modelo: P(O / λ). Esta útilidad permite seleccionar de una serie de modelos, cúal es con mayor probabilidad el que la ha generado y por tanto permite hacer una clasicación de la muestra adecuada. El segundo problema implica que se tenga una observación y se quiera determinar cúal ha sido el camino seguido en los estados ocultos. Mediante esta resolución se consigue descubrir y arrojar luz a un comportamiento no observado directamente. Se puede a su vez dar una explicación a los datos obtenidos al poder comprobar los estados ocultos que han sido los encargados de llegar a ese resultado. Una de las partes más importantes que se deben de tener en cuenta en este punto es el criterio de optimización a elegir para realizar la maximización de probabilidad, uno de los más usados es el criterio de la semejanza, likelihood80 . El tercer problema que se plantea es tratar de tener un modelo completamente ajustado a los datos de muestras observadas. Sería partir de un histórico de observaciones y a partir de ellas tratar de inferir los parámetros pertinentes del modelo HMM. Esto se consigue mediante entrenamiento del modelo, realizando un ajuste topológico del mismo y reestimando los parámetros hasta que el ajuste a las muestras de partida es el mejor posible. Sobre toda la problemática que se trata de resolver mediante modelos HMM se volverá más extensamente y en detalle en la parte de algorítmica. Si bien es interesante mostrar la representación de un HMM de ejemplo y la expansión posible en lo que se denomina Trellis: 80 Likelihood, valor de semejanza, generalmente usado en logaritmos. Este concepto se ampliará en secciones posteriores. 189 Figura 2.83: Cadena de Markov y la evolución de sus estados. En la gura anterior, a la izquierda se observa un HMM de ejemplo, y a la derecha se puede observar un despliegue de hacia donde puede evolucionar cada estado en cada momento dependiendo de la conexión que tenga con el resto. El modelo en Trellis será usado más adelante para explicación de algoritmos. Tipos de HMM 1. Prole Hidden Markov Models. PHMM Un modelo oculto de Markov basado en perles es una representación de un alineamiento múltiple. Este alimenamiento múltiple es indicado para encontrar una determinada secuencia. Generalmente se usa en biotecnología o genética. El usar este tipo de modelos se justica debido a la facilidad con la que puede cuanticar coincidencias potenciales de nuevas secuencias proteicas. Figura 2.84: Ejemplo de PHMM 1. Input Driven Hidden Markov Models, IDHMM Son modelos de Markov Ocultos que además de quedar denida por: λ = N, M, {π1}, {aij}, {bi(j)} tienen en consideración entradas externas en cada estado oculto en cuestión. Queda de la siguiente forma: 190 Figura 2.85: Ejemplo de IDHMM El modelo queda denido por una sextuplaλ = S, N, M, {π1}, {aij}, {bi(j)} , donde S son los valores nitos de símbolos de entrada al mismo. 1. Hierarchilcal Hidden Markov Models, HHMM Esta implementación de modelos de Markov oculto se basa en el establecimiento de una determinada jerarquía en su interior. La parte superior de la misma por ejemplo podrían ser estados que emitan frases, justo por debajo estarían otros modelos que representasen palabras, silabas, cadenas cortas, etcétera. La idea es conseguir desarrollar una estructura lo sucienmente amplia y genérica para dar cabida a la resolución de problemas con características determinadas. Un ejemplo aplicado a biotecnología [Skounakis+03]: Figura 2.86: Ejemplo de HHMM 1. Coupled Hidden Markov Models, CHMM [Zhong+01] 191 Figura 2.87: Ejemplo de integración de cadenas interrelacionadas Los ejemplos de la gura superior indican la forma en la que se pueden integrar dos cadenas correlacionadas/acopladas mediante una sucesión estructurada de estados ocultos. Los Modelos de Markov Acoplados vienen dados por una necesidad de incremento de funcionalidad en los Modelos de Markov simples. Otra aproximación para establecimiento de correlación entre estados ocultos que se vean altamente relacionados (se incluyen en este punto los HMM Factoriales izquierda y los HMM de Entrada-Salida): Figura 2.88: Otra aproximación para la integración de cadenas interracionadas Algorítmica En la sección anterior se han descrito una serie de problemáticas a las que se puede dar solución mediante los Modelos Markovianos. Las soluciones pasan por ajustarse a determinados algoritmos para la realización de los cálculos pertinentes. A continuación se detalla el funcionamiento de los algoritmos que se utilizarán: 1. Evaluación en HMM Dada una secuencia de observaciones y, la probabilidad P(y) se calcula de las siguientes formas: Calcular la probabilidad del camino seguido por los estados. Calcular la probabilidad condicionada de cada símbolo emitido al estado en que se encuentra dado el camino anterior. 192 Suma del producto para el camino de la probabilidad del estado por la probabilidad condicionada de emitir esa observación. P P (y) = x P (x, y) = P x P (x)P (y/x) Esta ecuación se simplica aplicando el concepto de Markov y asunciones de independencia condicional. La probabilidad P(x) para el camino x es igual a la probabilidad inicia del estado x0, por la probabilidad de realizar una transición del estado x0 al estado x1 , por la probabilidad de pasar de x1 a x2 y así sucesivamente. P (x) = π(x0 ) τ Q a(xt−1 , xt ) t=1 La probabilidad P(y/x) de observar una secuencia y dado un camino x se calcula multiplicando la probabilidad de observar y1 después de transicionar de x0 a x1 por la probabilidad de observar y2 despues de pasar de x1 a x2 , etcétera. P (y|x) = τ Q b(xt−1 , xt , y t ) t=1 Y nalmente si se sustituye adecuadamente en la ecuación inicial por las dos anteriores se llega a la conclusión: P (y) = τ Q o a(xt−1 , xt )b(xt−1 , xt , y t ) x π(x ) t=1 P La evaluación directa de la ecuación anterior implica O(T NT) multiplicaciones, donde N es el número de estados en el HMM, y donde hay NT caminos a través de la red trellis en que cada uno de ellos requiere T multiplicaciones. 1. Algoritmo Fordward Este algoritmo es una altenativa eciente para cuanticar la probabilidad P(y) basado en una programación dinámica. Este algoritmo calcula las probabilidades de secuencias de observaciones parciales mediante el uso de probabilidades de observaciones más cortas y sus posibles estados intermedios. Se denomina algoritmo forward debido a que funciona desde el comienzo de una secuencia de observaciones hasta el nal. Si se denomina αt (j) como la probabilidad conjunta en el instante t del estado xj para la secuencia de observación parcial y1 , . . . , yt : αt (j) = P (y 1 , ..., y t , X t = xj ) 193 La probabilidad P(y1 , . . . , yt ) puede ser calculada marginalizando Xt , esto es, sumar las probabilidades conjuntas de observar esta secuencia y visitar el estado x en el instante t, para todo j: P (y 1 , ..., y t ) = P P P (y 1 , ..., y t , X t = xj ) = αt (j) j j Siguiendo el razonamiento anterior se puede concluir que: P (y) = P T α (j) j En base a la demostración anterior, el algoritmo forward trata de calcular los coecientes α inductivamente en la forma que sigue: α0 (j) = π(xj ) P αt+1 (j) = αt (i)aij bij (y t+1 ), para 0 ≤ t ≤ T − 1 En particular, α0 (j) se dene como la probabilidad inicial (a priori) del estado x , y αt+1 (j) se calcula de la forma siguiente: Tomar el valor αt (i) para el estado arbitrario xi . Buscar la probabilidad de transición aij para pasar del estado x al estado x. Encontrar la probabilidad de observar yt+1 después de transicionar del estado xi al estado xj. Y nalmente sumar el producto αt(i)·aij·bij·(yt+1) para todo i. La complejidad del algoritmo forward es O(T·N2). 194 Figura 2.89: Complejidad del algoritmo Fordward 1. Algoritmo Backward El algoritmo Backward es otro algoritmo para calcular la probabilidad P(y). Como en el algoritmo anterior, es un algoritmo para programación dinámica. La diferencia con el anterior radica en que trabaja desde el nal de la observación al principio de la misma, calculando las probabilidades de las secuencias de observación parciales, en terminos de probabilidad de observación de secuencias más cortas, dados los estados intermedios. Como en el anterior la probabilidad P(yt+1 ,. . . ,yT ) puede ser calculado mediante una marginalización de Xt : suma las probabilidades conjuntas de observar esta secuencia y visitar el estado x en el tiempo t, para todo i: Donde β T (i) denota la probabilidad de observación de la secuencia yt+1 , . . . , yT , cuando el estado xi se visita en el instante t: β T (i)=P(yt+1 ,. . . ,yT / Xt = x). Teniendo en cuenta que P(X0 x ) = ) se concluye que: 195 Los valores de β se pueden calcular de la forma siguiente: Particularmente, β T (i) se inicializa a 1 y β t (i) se procesa así: mirar la probabilidad de transición para pasar del estado x al estado x observar la probabilidad de que se de una muestra y en la transición de x a x. Buscar el valor β t (j) para el estado x, que será la probabilidad de observar la secuencia (y,. . . ,y) dado x en el instante t. Sumar el producto a b (y) β (i) para todo i. La complejidad del algoritmo backward es de O(T N2 ). Figura 2.90: Complejidad del algoritmo de Backward 196 1. Algoritmo Fordward-Backward El objetivo del algoritmo Forward-Backward es aglutinar de alguna forma los valores α del algoritmo forward y los valores β del algoritmo backward. Esto es: Luego, mediante la marginalización de X t , se consigue: 1. Filtrado y suavizado de las probabilidades. Filtering and Smoothing algorithms Las probabilidades se pueden ltrar de forma sencilla mediante el uso de los valores [F103?] para las muestras entre los instantes: 0 ≤ t ≤ T. Las probabilidades suavizadas son calculadas mediante el uso de los valores [F103?] y β para las muestras entre los intantes: 0 ≤ t ≤ T. 197 1. Decoding Algorithm (Vitervi) El problema de la decodicación consiste en encontrar una ruta que maximice la probabilidad de pasar por esos estados dada una secuencia de observaciones. Como la secuencia de observaciones es dada, P(y) es constante con lo que: Cualquier camino de estados ocultos que pertenezca a la maximización arriba indicada es una solución válida para el problema de la decodicación. El algoritmo de Vitervi resuelve el problema de la decodicación encontrando subrutas (x , ..., xt ) tales que ∈ arg máx{x0 , ..., xt }P (x0 , ..., xt , y 1 , ..., y t ). 0 Si se dene: El algoritmo de Vitervi se calcula inductivamente como sigue: Simultáneamente, el algoritmo almacena los estados que comprenden el camino más probable: Para calcular el camino más probable, se va hacia atrás en la traza en la forma que se detalla a continuación: 198 Donde ahora se puede realizar: Y en particular: Figura 2.91: Cálculo del algoritmo de Viterbi El problema del aprendizaje en HMM Si se consiguieran pares de valores de estados y observaciones en la forma {(x1,y1),. . . ,(xn,yn)} sería una cuestión muy sencilla la estimación de los parámetros de una cadena de markov oculta, HMM λ = (π, A, B)Para maximizar la semejanza81 de los datos al modelo se usarían 81 Semejanza o Likelihood. Valor, logaritmico generalmente, que indica la probabilidad de que una muestra se ajuste a un determinado modelo de Markov Oculto: P(Muestra/Modelo). 199 contadores frecuenciales relativos para estimar las probabilidades iniciales, de transición y de emisión: Donde #Z indica el número total de ocurrencias de un determinado evento Z. En general, sin embargo, los datos de esta forma no están disponibles. Como su propio nombre indica, la información de los estados está oculta en un HMM. 1. Algoritmo Baum-Welch El algoritmo Baum-Welch, es un algoritmo destinado al aprendizaje de parámetros de un HMM dada una secuencia de observaciones. Si se denota: Se puede derivar en base a los algoritmos anteriores: 200 La metodología a seguir para calcular el algoritmo Baum-Welch es la siguiente: Inicializar λ = (π, A, B) Iterar hasta conseguir que [λ = (π, A, B)] = [λ0 = (π 0 , A0 , B)] • Maximización ◦ Ejecutar algoritmo forward para calcular: ◦ Ejecutar algoritmo backward para computar: ◦ Para 1 ≤ t ≤ T, calcular: • Expectación: ◦ Estimar las probabilidades iniciales: 201 ◦ Estimar las probabilidades de transición de ◦ Estimar la probabilidad de transición de i a j: i a j y emitir el símbolo k : ◦ Modelo: 1. Algoritmo Bayesian Merging Introducción Este algoritmo propuesto en el año 1994 con referencia [308], ha sido la base para el aprendizaje automatizado en las partes que conllevan cadenas de Markov. En el esquema general se pueden encontrar tres tipos de gramáticas probabilísticas: n-gramas Modelos de Markov Ocultos (HMM) Gramáticas estocásticas de Contexto-Libre. (SCFG, Stocastic Context-Free Grammars) En todas las anteriores sería aplicable este algoritmo en particular. Problemas a solventar 202 La problemática se ja en encontrar o aprender modelos aplicables a un conjunto de muestras determinado. Los modelos probabilísticos más comunes se pueden caracterizar por dos partes: una estructura discreta (la topología de un HMM, el backbone de contexto libre en un SCFG) y una serie de parámetros discretos/contínuos que determinan las probabilidades de las observaciones que integren el modelo. El problema radica en la determinación de la estructura. Se ha visto en el apaartado anterior que el algoritmo baum-welch de partida necesita un modelo base. El hecho de requerir un modelo de partida obliga a determinar de antemano el número de estados que va a disponer el modelo en cuestión. Una vez jada la estructura, los parámetros pueden ser ajustados usando los métodos estandar, como la maximización de similitud82 (ML). En los modelos de variables/estados ocultos (HMM, SCFG) la estimación típicamente involucra EM (Expectation Maximization, ej. Baum-Welch), acertado para estructuras prejadas, dado que puede aprender cualquiera de los comoponentes de un modelo de markov oculto: λ = (π, A, B): Explicación funcional El método denominado Bayesian Merging se puede usar tanto en HMM como en SCFG. Se trata de realizar diferentes operaciones de unión de subestructuras de un modelo base tratando de maximizar la probabilidad posterior bayesiana del mismo en base a los datos dados. Este método se ha propuesto como una alternativa eciente, robusta, y cognitivamente plausible para la construccion de modelos probabilisticos en una amplia variedad de dominios. Este método se ha propuesto como una alternativa eciente, robusta, y cognitivamente plausible para la construccion de modelos probabilisticos en una amplia variedad de dominios. Este algoritmo se puede caracterizar de la siguiente forma: Incorporacion de datos: Dado un cuerpo de datos X construir un modelo inicial M mediante la acomodación explícita de cada punto individualmente, tal que, Maximice la probabilidad P(X|M)83 . El tamaño del modelo inicial crecerá con la cantidad de datos y no exhibirá normalmente una generalización signicativa. 82 83 Maximización de similitud o semejanza o likelihood. Explicada anteriormente en la parte algorítmica. Donde X será la secuencia de observaciones y M será el modelo HMM en este caso. 203 Mezcla de estructura: Consiste en la construcción de una secuencia de nuevos modelos obteniendo M a partir de M mediante la aplicacion de una generalizacion o merging (operador m) que se une a la subestructura en M. En resumen, consiste en construir un modelo base de partida introduciendo explícitamente cada punto de datos individualmente, de modo que el modelo M 0 maximize la similitud P(x/M). Esto quiere decir que para cada muestra se tenga la probabilidad más elevada posible de producirla con el modelo M planteado. Después de este paso se construye una secuencia de nuevos modelos a los que se le aplica un operador o función de merging M i+1 = m(Mi ). Las operaciones que realiza m() son dependientes del tipo de modelo, pero en general todo modelo se puede explicar por unas subestructuras separadas. Para comprobar la bondad de ajuste de un modelo i+1 con respecto al anterior se utiliza la fórmula de Bayes (probabilidad posterior): Esta fórmula como se puede apreciar es proporcional a la probabilidad apriori P(M) y a la similitud P(x/M). El denominador a la hora de realizar la maximización no necesita ser tomado en consideración, no depende de M, con lo que puede ser ignorado. Por último, se necesita encontrar una estrategia para encontrar modelos con la más alta probabilidad posterior posible. La que se usa en este caso es la denominada BEST-FIRST. Empezando con el modelo inicial (maximiza la similitud, pero tiene generalmente una baja probabilidad apriori) se exploran todos los posibles pasos de mezcla (merging). Sucesivamente se va escogiendo uno (greedy search, búsqueda ávida) o unos (beam search, búsqueda de haz) que den el mejor incremento inmediato en la probabilidad posterior. En la práctica, para mantener funcionando correctamente a los modelos en un tamaño manejable, se puede usar una versión "on-line" para el algoritmo de mezcla, en el cual la incorporación y los estados de mezcla/búsqueda estén intercalados. Aplicación del modelo de mezcla en las gramáticas probabilísticas. 204 El caso que se esta estudiando se centra en los modelos de Markov Ocultos, HMM. La aplicación del modelo de mezcla en estos modelos se realiza acorde a lo explicado en los siguientes párrafos: 1. Para cada muestra observada se crea una única ruta (path) entre el estado inicial y el nal asignando un nuevo estado para símbolo token en la misma. Es decir, si se dan los datos ab, abab el modelo inicial es el siguiente: 2. En el proceso de mezcla, dos estados antiguos del HMM son reemplazados con un único nuevo estado. Éste estado hereda la unión de las transiciones y emisiones de los estados anteriores. Una muestra para el ejemplo anterior: 205 3. El punto crucial es que cada uno de estos modelos puede ser encontrado maximizando la probabilidad posterior del HMM. El punto de parada es cuando se consigue un modelo que produce un salto muy elevado en el término de similitud, decrementando considerablemente la probabilidad aposteriori del modelo. Distribuciones previas. La aproximación se elige de forma "desinformada apriori", esto amplía la probabilidad apriori a lo largo de todos los posibles HMMs sin dar preferencia explícita a topologías particulares. Un modelo M es denido por su estructura M y sus parámetros continuos θ. De esta forma se puede descomponer la probabilidad del modelo apriori en lo siguiente: 206 Además hay que tener en cuenta que las estructuras de los modelos reciben la probabilidad apriori de acuerdo a su longitud de descripción : l(M) es el número de bits necesarios para codicar M, por ejemplo: número de bits necesarios para codicar todas las transmisiones y emisiones. Las probabilidades apriori para θ , son asignadas en base a la distribución de Dirichlet para cada parámetro multinomial de transición y emisión, parecido a un arbol de decisión Bayesiana [Buntine92]. Por conveniencia del modelado se asume que los parámetros asociados a cada estado son apriori independientes. Hay tres formas intuitivas de conocer el por qué las simples prioridades como las planteadas en este apartado pueden conducir a probabilidades posteriores mayores para los modelos HMM. Estas aproximaciones se demuestran debido a: Las topologías pequeñas tienen una longitud de descripción menor, y por ello una probabilidad apriori mayor. Esto se corresponde con la intuición de que una estructura más grande necesita ser seleccionada de un mayor rango de posibles alternativas equiprobables, por lo que cada elección individual es menos probable en forma a priori. Los modelos más grandes tienen más parámetros, por ello se hace que cada parámetro en particular sea menos relevante. Se conoce también como factor de Occam [Gull98]. Después de que dos estados hayan sido unidos, la cantidad de datos efectiva para cada parámetro se aumenta (la evidencia para las subestructuras mezcladas se junta). Esto cambia y encumbra las distribuciones posteriores para esos parámetros más cercanos a las conguraciones de máxima similitud. 1. Cómputo Posterior El objetivo del procedimiento de inferencia es la estructura del modelo, luego como se ha dicho, el objetivo es maximizar la probabilidad posterior del modelo: 207 El motivo matemático para maximizar la parte estructural en vez de simplemente P(M/x), es que con nes inferenciales un modelo con una estructura posterior elevada representa mejor la aproximación del procedimiento óptimo de Bayes para promediar todos los posibles modelos M. Esta armación anterior se puede calcular de la siguiente forma: Si bien, puede ser aproximada usando la suposición común de Vitervi sobre las probabilidades en los HMMs. 208 Cuadro 2.5: Implementación del algoritmo 209 Otras cuestiones de implementación relacionadas • Incorporacion eciente de muestras: En el caso más simple este paso crea un estado dedicado para cada instancia de símbolo en cada una de las muestras X. Estos estados son enlazados con transiciones de probabilidad a 1, de tal modo que una muestra (x...x) es generado por una secuencia de estados (q...q). q puede ser alcanzado desde q a través de una trasición de probabilidad 1/X, donde X es el número total de muestras. Todos los estados emiten su correspondiente símbolo de salida xi con una probabilidad de uno. De esta forma, muestras repetidas llevan a multiples caminos a lo largo del modelo, todos ellos generando el mismo string de entrada. La probabilidad total de un string x de acuerdo al modelo inicial es entonces c(x)/X (la frecuencia relativa del string x). Como se ha introducido anteriormente de esta forma se constituye el modelo de maxima similitud con los datos de X. Denotar que los estados correspondientes en caminos equivalentes podrían ser mezclados sin tener por ello una perdida en la similitud del modelo. Esto es básicamente lo que va haciendo el algoritmo en las fases iniciales. Una optimización en este estado es evitar la multitud de rutas y comprobar para cada nueva muestra si ya esta introducida en una ruta existente. Caso de que sea de esta forma sólo habra que actualizar la probabilidad de transmision inicial. Usando una extension del algoritmo de Viterbi, la nueva muestra puede ser alineada con los estados existentes en el modelo, reclutando nuevos estados sólo cuando y donde sea necesario. Este alineamiento no tiene efecto en las posibles mezclas, no va a generar ciclos, pero si que puede reducir el número inicial de estados en el modelo. Cálculo de los candidatos a mezclarse El caso general es examinar todos los posibles pares de estados en el modelo actual: Como se puede apreciar, lo mejor es mantener el modelo con pocos estados, para evitar unos costes elevados de cómputo. El coste de una mezcla está generalmente dominado por el coste de mezclar las distribuciones de salida de los estados involucrados. Debido a lo anterior, conviene en este caso indexar los estados de acuerdo a sus características de emisión y considerar solo pares de estados que tengan similares entradas. Esta restricción se podría eliminar más adelante después de que se hayan agotado todas las posibilidades de mezclas. El benecio es claro, dotar 210 al algoritmo de rapidez, y en casos de uso incremental previene de mezclas prematuras que a la luz de nuevos datos deberían mantenerse separadas. Evaluación del modelo usando rutas de Vitervi Para encontrar la probabilidad posterior de un modelo potencial, necesitamos evaluar la estructura inicial P(M). El objetivo de la maximización puede ser MAP (Maximun Posterior Probability), cuyos parámetros pueden calcularse a través del algoritmo Baum-Welch, teniendo en cuenta la condición de inicio de Dirichlet tomada. Por otro lado otro objetivo puede ser la evaluación de P(x/M s ), cuya solución no tiene una solución obvia. Para solventar esta situación y la anterior se puede hacer uso de la aproximación de Vitervi. Computación de similitud La probabilidad exacta de la similitud de un modelo con referencia a un cojunto de datos X, es dada por el producto de cada una de las probabilidades de la muestra con la siguiente ecuacion: Esto se puede leer como el productorio de la probabilidad de todas las muestras posibles que haya. Y la probabilidad de las muestras se puede obtener calculando sucesivamente la probabilidad de pasar del estado Inicial al estado 1 por la probabilidad de que el estado 1 emita el símbolo x1 de la muestra... y as sucesivamente hasta llegar al nal del "string" /Muestra/Cadena en cuestión. La aproximación de Viterbi implica el reemplazo de los sumatorios de todas las muestras por los terminos con la contribucion mas elevada: Los términos en esta expresión pueden ser agrupados por estados, llegando a la forma: 211 En esta ecuación anterior los componentes c(q→q) y C(c→σ ) son los contadores totales de transiciones y emisiones que ocurran a lo largo de las rutas Viterbi asociadas a las muestras de X. Si se usa la notación de c(q) para la colección de contadores de Vitervi asociados con el estado q, la fórmula anterior quedará: MAP parameter estimation. Para estimar aproximadamente el parametro MAP basado en contadores de ruta Viterbi se han de modicar los parametros para incluir las condiciones de Dirichlet. Para implementar esta evaluacion hace falta aproximar la siguiente integral: Aplicando una serie de aproximaciones basadas en las rutas óptimas de Vitervi y aplicación de las prioridades de Dirichlet se puede llegar a obtener una formula más simple. Actualizacion de ruta usando Viterbi de manera optimista. Consiste basicamente en creer que los estados mezclados preservan las rutas de maxima representacin de Vitervi. Para ello se requiere que los contadores intermedios de Vitervi se mantengan durante la fase de mezcla. 212 Capítulo 3 ESIDE-Mendizale Un Framework Bayesiano de detección de intrusiones En este capítulo se explica el modelo conceptual de la solución dividiendo éste en nueve puntos, según el modelo conceptual propuesto por Emilie Lundin. Dichos puntos son: Formalización, Captura de información, Análisis, Respuesta, Fortaleza, Cuestiones operacionales, Evaluación y Aspectos sociales. De esta forma se obtiene una visión global del Modelo Conceptual de la solución propuesta. 3.1. Análisis de riesgos y formalización Este aspecto es fundamental a la hora de la implementación del modelo puesto que estos parámetros constituyen las variables que tendra éste. Para dilucidar cuáles serian los parámetros sensibles de mostrar una actividad anómala de los procesos, se ha realizado un estudio, primero del estado del arte en cuestiones de sistemas de monitorización de actividad de sistemas, que puede verse en puntos anteriores. Así como un estudio de cuáles pueden ser los valores susceptibles de ser monitorizados para detectar dicha actividad anormal. 3.1.1. Posibles parámetros En este punto se hace un repaso de todos parámetros manejados durante el desarrollo del proyecto. Estos parámetros son medidas que se toman en los sistemas monitorizados, que permiten dilucidar si el equipo se encuentra comprometido o no. Para obtener dichos parámetros, se han seguido las variables que un estudio previo de las soluciones ya realizadas en éste ámbito utilizaban para sus desarrollos. Estos parámetros se pueden dividir en dos grandes grupos muy diferenciados, por una parte, las medidas que se pueden utilizar para realizar un proling de usuario [236], que sirven para dilucidar si lo que el sistema está realizando es lo que el sistema suele realizar 213 Figura 3.1: Imagen del monitor de anomalías desarrollado por Teresa F.Lunt y R. Jagannathan. para un usuario concreto, y por otra parte los parámetros que persiguen dilucidar si un proceso realiza las acciones que suele realizar. Estas dos aproximaciones permiten detectar las intrusiones a dos niveles completamente diferentes: por una parte, la detección de intrusiones basada en proling de usuario, permitiría detectar intrusiones a nivel de usuario, es decir, podría resolver que el usuario actual, no es1 el usuario que conocía. El otro método, permite controlar la utilización anómala de los recursos para cada proceso. Es decir, permite realizar un proling de procesos. Cada una de las técnicas conllevan un tipo de detección diferente y unos resultados diferentes que se comentarán en los siguientes apartados. Parámetros de proling de usuario Estudios anteriores[236], demuestran que un proling de usuario, permite grandes tasas de acierto sobre la variación de comportamientos de usuario, observando cierto numero de parámetros que permiten discernir un usuario sobre otro. Por lo tanto este método, aprendiendo el perl de un usuario, se puede llegar a detectar una utilización anómala, tal y como habían anticipado mucho tiempo antes[21]. Este sistema de proling de usuario para detección ha sido implementado por varios [236, 21, 117] sistemas, los cuales se enumerarán los parámetros que han manejado para dichos trabajo. Teresa F. Lunt and R. Jagannathan, Experto de detección de intrusiones El documento [236], expone la creación del experto de detección de intrusiones basado en un experto que generaba perles de los usuarios. En dicho trabajo, utilizaban los siguientes parámetros, divididos en dos grandes grupos, variables discretas y continuas: 1 O al menos se comporta de una manera totalmente diferente. 214 Variables discretas: Este tipo de variables tienen un rango de valores nito, se trata de un conjunto de valores que se utilizan para caracterizar aspectos del usuario. Cada perl de usuario está compuesto en parte por un conjunto de variables discretas y la probabilidad de que el usuario cumpla dicho valor. 1. Time of login : Se trata del número de sesiones que un usuario inicia en un periodo de veinticuatro horas. Asimismo, cada periodo de veinticuatro horas se encuentra dividido en tres categorías diferentes: el periodo de día, periodo de tarde y periodo de cementerio2 , el cuál no debería haber nadie. Cada login es caracterizado en alguno de estos tres periodos. 2. Location of login : Localización del login, es el número de sesiones que un determinado usuario ha iniciado en un determinado lugar. La estación desde la que se conecta el usuario, puede bien estar directamente conectada con el servidor, bien puede estar conectado mediante un multiplexor, o estar conectado remotamente. Cada localización diferente sería un valor discreto dentro de la localización del login. Variables continuas: Este tipo de variables tienen un rango de valores innito, es decir, que pueden tomar cualquier valor, dado que son variables que van aumentando (los valores se van acumulando), conforme la sesión va avanzando. Cada perl de usuario, maneja una probabilidad condicionada de que se den los valores acumulados medios de las sesiones anteriores. Asumiendo distribuciones normales a este tipo de variables se puede conseguir el porcentaje de ajuste del valor actual con la normalidad3 . Para realizar el estudio normal, se utilizaron los valores de los último 50 días para poder permitir un grado de cambio gradual a los usuarios. Las variables estudiadas fueron las siguientes: 1. Connect time : Tiempo de conexión, que es la duración de una sesión en un sistema. Como un sólo usuario puede iniciar varias sesiones en un mismo sistema4 , se identica cada una de las sesiones con un identicativo de trabajo, y cuando se acaba la sesión, se cierra cada uno de los trabajos creados. 2. CPU Time : Tiempo de CPU, es la suma del tiempo de procesamiento utilizado en una sesión. 3. IO Activity : Actividad de entrada y salida, la suma de las actividades de entrada / salida realizadas en una sesión. 4. Protection Violations : Violación de protecciones, es el número de violaciones de acceso de los permisos acumulados en la sesión. 2 Traducción literal de Graveyard period , supuestamente en este periodo de tiempo no debería haber ningún tipo de actividad en el sistema auditado. Considerando el inglés estadounidense también puede ser una variación de Graveyard shift, que signica turno de noche. 3 4 Asumiendo que las interacciones anteriores eran interacciones normales. Como es usual en sistemas Unix-Like. 215 Este sistema desarrollado, permitía detectar el 95 % de los ataques masquerade 5 , en tiempo real, mostrando una interfaz que permitía al administrador de sistemas de conocer y tomar contra los eventos anómalos detectados con el conjunto de parámetros anteriores. Dorothy Denning Dorothy Denning en su documento[105] establece un modelo en el que dene los siguientes parámetros, todos ellos discretos para determinar si un sistema estaba siendo comprometido. 1. Frecuencia de login : Se trata de un parámetro discreto que reeja las veces que un usuario se conecta a un servidor. También puede interpretarse como un parámetro para IDS de red si se considera contra un servidor. 2. Frecuencia de localización : Parámetro discreto a nivel de host que reeja, como su nombre indica las veces que se conecta un usuario desde un determinado lugar. También se puede interpretar como parámetro a nivel de red si la validacion se hace contra un servidor. 3. Ultimo login : Parámetro discreto a nivel de host reeja como su nombre indica cuando se produjo el último login del usuario. También se puede interpretar como parámetro a nivel de red si la validación se hace contra un servidor. 4. Tiempo entre sesiones : Parámetro discreto a nivel de host que reeja, como su nombre indica, el tiempo entre dos sesiones. También se puede interpretar como parámetro a nivel de red si la validación se hace contra un servidor. 5. Output de la sesión : Este parámetro indica la cantidad de tráco generada durante una sesión. 6. Carga de CPU, IO,... etc de la sesión : Se trata de un parámetro discretizado, que marca la carga de entrada/salida y CPU que genera una sesión. Este parámetro puede considerarse continuo, y suponer que sigue una ley normal para poder obtener una salida que marcase la normalidad del mismo. D. Denning, ha discretizado este dato, en vez de utilizar leyes normales para tratar estos parámetros. 7. Numero fallos en contraseña: Parámetro discreto a nivel de host reeja, como su nombre indica, el intentos de validación fallidos. También se puede interpretar como parámetro a nivel de red si la validación se hace contra un servidor. 8. Frecuencia de ejecución : Parámetro discreto a nivel de host reeja, como su nombre indica, la frecuencia con que se ejecuta un determinado programa. 9. Numero de ejecuciones denegadas : Parámetro discreto a nivel de host que indica el número de ejecuciones denegadas de un determinado programa. 5 Ataque de suplantación de usuario. 216 10. Carga de CPU, IO,... etc del programa : Parámetro discreto a nivel de host reeja, como su nombre indica, el throughput de un determinado programa. 11. Numero de veces que un programa se queda sin recursos : Parámetro discreto a nivel de host que indica el número de veces que un determinado programa se queda sin recursos. 12. Frecuencia de lectura, escritura, creado y borrado de un chero : Parámetro discreto a ni- vel de host que reeja, como su nombre indica, la frecuencia de operaciones IO de un determinado programa sobre los cheros. 13. Registros leídos/escritos : Parámetro discreto a nivel de host que reeja, como su nombre indica, la frecuencia de operaciones IO de un determinado programa sobre los cheros. 14. Fallos de lectura, escritura, creado y borrado de un chero : Parámetro discreto a nivel de host que reeja, como su nombre indica, los fallos de operaciones IO de un determinado programa sobre los cheros. 15. Fallos por excesivo uso de recursos por parte de un chero : Parámetro discreto a nivel de host que indica el número de veces que un determinado chero se queda sin recursos. Una idea que se puede extraer de este documento es la organización del modelo en una serie de planos o esferas conceptuales que represente diversos aspectos tales como tiempo, lugar por poner algunos ejemplos sencillos. De esta forma se tiene un plano temporal, un plano de ubicación. Así se podría conseguir analizar datos heterogéneos de forma homogénea muy fácilmente. Además también se pueden ver dos aspectos importantes de los planos en los que se está dando la auditoría en el sistema, tanto a nivel de proceso, como a nivel de usuario, para poder monitorizar a nivel de usuario, o de proceso. Parámetros de proling de proceso Como se ha explicado anteriormente existen multitud de parámetros para modelizar el comportamiento de un usuario para con el equipo, pero muchos ataques no se producen por suplantación de usuario, sino que se dan al hacer que un proceso presente un comportamiento diferente al que debería llegar. Por lo tanto, para llegar a detectar ataques que no son de suplantación de usuario, habría que llegar a un nivel mas bajo: al proling de proceso[285]. Primeramente, hay que hacer una diferenciación entre el código fuente y los procesos. Los procesos, son código fuente en proceso de ejecución, es decir el código fuente6 solo es el guión de lo que se ejecuta, luego lo que se ejecuta es el código fuente cargado en memoria, con sus valores su puntero de ejecución y su pila de valores, es decir, un proceso. Cuando los procesos se están ejecutando, no interactúan directamente sobre el hardware del sistema, sino que utiliza la abstracción que el sistema operativo provee a los programas para con 6 También conocido como código muerto. 217 los componentes. Si este sistema no funcionase de esta manera, el software sería especico de una máquina concreta, dejando de funcionar cuando el software se ejecute sobre un hardware diferente. Para que este echo ocurra7 , el sistema operativo provee de un conjunto de rutinas que abstraen a al software de los entresijos del funcionamiento del hardware, y permiten ejecutar códigos fuente entre diferentes máquinas con diferente HW8 . Los mismos formatos ejecutable (Tanto PE para sistemas Windows como los COFF para formatos Unix), funcionan de esta manera, reservando espacio para las llamadas a el núcleo que realiza el acceso al Hardware. Figura 3.2: Arquitectura interna de los sistemas operativos De la misma manera la arquitectura de los procesadores actuales, implementan en Hardware todas estas capacidades de los sistemas operativos. Existen varios niveles de privilegio (también conocidos como Rings), los cuales implementan a nivel hardware el funcionamiento interno del sistema operativo descrito anteriormente. Por lo tanto, para realizar un proling de proceso, hay que monitorizar la actividad del proceso, esta actividad puede abordarse mediante dos perspectivas diferentes, monitorizando la interacción de los procesos con el kernel, o observando externamente al proceso. Parámetros de monitorización externa de procesos. Los parámetros de monitorización externa de procesos, realizan un perl del aspecto externo del proceso, es decir, sin analizar ningún tipo de llamada al sistema. Estas variables son varias de las que explica D. Denning[105] en el artículo de monitorización de usuarios. Estos parámetros son: Consumo de memoria de un proceso. E/S de un proceso. 7 8 Que exista la posibilidad de ejecutar software sobre plataformas Hardware diferentes. Pos supuesto, nos referimos a HW similar, pero distinto, por ejemplo la utilización de un procesador AMD o intel ó una tarjeta ATI, o una tarjeta Nvidia; en ningún caso cambios de HW tan grande que afecten a los programas de zona de usuario como puede ser la utilización de una arquitectura de 64 y 32 bits. 218 Figura 3.3: Abstracción a dos niveles en sistemas Linux Consumo CPU de un proceso. Frecuencia de ejecución. Fallos de escritura / lectura. Fallos en los permisos. Hay que resaltar que el método de monitorización externa de procesos, presenta un alto índice de fallos, dado que los parámetros considerados, son susceptibles a grandes cambios por la carga del sistema, y no sólo a la acción de ataques y /o intrusiones tanto externas como internas. Parámetros de monitorización interna de procesos. Los procesos, en los sistemas operativos modernos necesitan acceder a servicios provistos por el sistema operativo para realizar acciones para con su entorno. Esta abstracción, permite que un mismo código pueda ejecutarse en diferentes sistemas. Pero esta abstracción no es la única que existe, dado que la cantidad de hardware disponible, y lo diferentes que son entre sí, hacen que una API de kernel permanente y estándar sea algo excesivamente rígido, por lo que también se da una abstracción a nivel de usuario, mediante librerías, que son las que realizan las llamadas a las funciones del Kernel. En los sistemas Windows, la API al nivel de aplicación (en ring3), es conocida como la API Win32, que se encuentra implementada en diversas DLL del sistema. En los sistemas Linux, esta API, es conocida como la glibc, aunque también existen otras librerías menos importantes que también llaman al kernel, como pueden ser la X11 o la librería de sincronización pthread, las cuales están recogidas en el estándar POSIX. Por lo tanto, en todos los sistemas operativos modernos, existen dos tipos de posibilidades para realizar una monitorización interna de procesos, una de ellas, monitorizando las llamadas 219 a la librerías que implementas las API a nivel de usuario, es decir, monitorizar las llamadas a las librerías Win32, glibc... o bien realizar una monitorización a nivel de llamadas desde dichas librerías al kernel. Las llamadas a las librerías de zona de usuario que abstraen las llamadas al kernel, y la intercepción de este tipo de llamadas producirían una salida de más alto nivel, que permitiría generar un proling a mayor nivel, pero como contrapartida, se genera gran cantidad de información que puede considerarse como ruido. Este inconveniente puede enmascarar las evidencias que muestran un ataque. En éste ámbito existen varios sistemas[140]9 , que implementan la captura de datos a este nivel. Tal y como se comenta en estudios anteriores[247], la monitorización de todas las llamadas de este tipo causa una gran sobrecarga sobre el sistema dado que los programas actualmente hacen un uso exhaustivo de las rutinas en este tipo de librerías. Pero lo que también se reeja en el estudio es que resultaría altamente interesante monitorizar algunas de las llamadas a librerías externas como pueden ser por ejemplo el API de Winsock10 en sistemas Windows. El prototipo de estas funciones es en C, y exportan servicios a los programas para que éstos los consuman. Listing 3.1: Prototipo de función VirtualAlloc de la API Win32. LPVOID V i r t u a l A l l o c ( LPVOID lpAddress , SIZE_T dwSize , 2 DWORD f l A l l o c a t i o n T y p e , DWORD f l P r o t e c ) ; Listing 3.2: Prototipo de la función malloc para sistemas linux provista por el API de glibc. void ∗ malloc ( size_t s i z e ) ; La otra opción de monitorización interna de procesos son las syscalls o llamadas al sistema que generan los programas, éstas bien pueden estar generadas por las librerías o directamente por los programas que llaman a la función sysenter o bien la interrupción 2e en sistemas Windows o a la interrupción 80 en sistemas GNU/linux. Este tipo de parámetros han sido utilizados en estudios anteriores [279, 374, 37, 199, 126, 375, 194], estando demostrado[134] que una alteración del comportamiento o de la naturaleza de los procesos provoca un cambio de las syscalls que se ejecutan en el nivel privilegiado del sistema operativo. Estas llamadas, están formados por un código de función11 , y por un número variable de 9 También existe para los sistemas GNU/Linux, las librerías ltrace, que permiten una auditoría de los programas a este nivel de abstracción. 10 Especicación de la API de comunicación mediante red en sistemas Windows, actualmente se encuentra en la versión número dos. Mas información en http://www.sockets.com/. 11 Que se almacena en el registro eax del procesador cuando se realiza la llamada a la interrupción. 220 argumentos que se almacenan también en los registros. Por lo tanto cada llamada al sistema posee un prototipo, identicado por un número de llamada. Listing 3.3: Prototipo de syscalls write (código 4) y kill (código 37) de sistemas GNU/linux long k i l l _ s a v e d ( pid_t , i n t ) ; long write_saved ( int , const char ∗ , s i z e _ t ) ; Listing 3.4: Prototipo de la función NTCreateFile del kernel de Windows NTSTATUS N t C r e a t e F i l e ( PHANDLE F i l e H a n d l e , ACCESS_MASK D e s i r e d A c c e s s , POBJECT_ATTRIBUTES O b j e c t A t t r i b u t e s , PIO_STATUS_BLOCK I o S t a t u s B l o c k , 4 PLARGE_INTEGER A l l o c a t i o n S i z e , ULONG F i l e A t t r i b u t e s , ULONG ShareAccess , ULONG C r e a t e D i s p o s i t i o n , ULONG CreateOptions , 9 PVOID EaBuffer , ULONG EaLength ) ; 3.1.2. Selección realizada Finalmente los parámetros utilizados para el proyecto han sido las syscalls o llamadas al sistema, los argumentos a favor de esta decisión se encuentra detallada a continuación: Realiza un modelado del comportamiento de cada proceso: Es decir, no solamente genera perles de los usuarios[236], sino que se realiza un proling de proceso, el primer enfoque es particularmente preciso a la hora de reconocer ataques de suplantación pero hoy en día uno de los mayores problemas con los que se encuentra la seguridad hoy en día son los conocidos como buer overows 12 [269], que modican el comportamiento de cada proceso para poder realizar acciones arbitrarias sobre el sistema a nivel de proceso. Con el proling de usuario, los ataques realizados mediante buer overows puede ser detectado, pero será inherentemente mas lento e inexacto que un proling de proceso en el cuál se mantiene un modelo de proceso y no de usuario; detectando inmediatamente si un proceso está realizando acciones arbitrarias que no debería ejecutar dicho proceso con respecto a la normalidad. 12 También conocidos como desbordamiento de buer, se trata de realizar sobre los programas acciones que per- mitan ejecutar código arbitrario. Usualmente se utiliza la técnica de sobreescribir mediante copias no controladas el valor de retorno almacenado en la pila del proceso. 221 Se trata de un mecanismo similar en todos los sistemas operativos modernos : La mayoría de lo sistemas operativos modernos implementan un mecanismo de comunicación entre los procesos en zona de usuario y el kernel en ring 0, con privilegios para ejecutar cualquier acceso al hardware, y es similar en todos los sistemas estudiados, lo que reduce los problemas de integración entre los datos de diferentes plataformas. En casi todos los sistemas operativos se encontraban ya implementados [375, 38] sistemas de recogida de datos parecidos al que habíamos de implementar. Esto presenta la ventaja de que se sabe de antemano que la auditoría de dichos parámetros es posible. Permite la correlación de syscalls entre diferentes sistemas, es decir, se puede realizar un estudio de las syscalls que genera un proceso apache (por poner un ejemplo) en un sistema GNU/Linux y en un sistema Windows. Genera una menor cantidad de información, el sistema implementado necesita la mayor brevedad posible para poder tomar acciones con la mayor brevedad posible, y un volumen de datos mayor[247] aumenta el tiempo necesario para aprender tanto la normalidad como para aprender la estructura de los datos aprendidos. Aunque, conceptualmente puede percibirse que parte de la información vital para la detección de anomalías se haya perdido, en realidad dichas anomalías se encuentran también[134] en las syscalls de más bajo nivel. De esta manea al reducir la cantidad de datos, se elimina una gran cantidad de ruido13 . A menor nivel que la mayoría de infecciones de malware, la mayoría[315, 247] de las infec- ciones de malware utilizan la técnica de interceptar las llamadas a nivel de API del sistema, por lo que si el sistema de recolección se encuentra en el mismo nivel, puede que el malware haga que el sistema de recogida de datos no capte las acciones realizadas por el sistema, al interceptar las llamadas a las API del sistema a un nivel más alto del que lo hace el sistema de recolección de datos. Proporciona datos que permiten detectar comportamientos anómalos, que ya ha sido de- mostrado por estudios anteriores[134], y que han sido la base de multitud de estudios relacionados con la seguridad anteriormente[199, 126, 131, 375, 194, 309]. Las razones anteriores, han echo que la elección de parámetros para el sistema haya sido utilizar las llamadas al sistema para utilizarlas como parámetro en el sistema implementado en el proyecto. En el sistema se han utilizado las partes que integran una llamada al sistema: Función llamada: Habitualmente ha sido el parámetro utilizado, para detectar desviaciones en el comportamiento de los procesos, normalmente no se utiliza el nombre de la función sino que se utiliza el número que idéntica unívocamente cada syscall. 13 Como ruido, se considera los datos que no tienen una representatividad y difuminan la importancia de los que sí que la tienen. 222 Parámetros de la función: Los parámetros han sido siempre ignorados, hasta que un estudio[372] demostró que conociendo el sistema que iba a auditar el proceso, era posible engañar al sistema, emulando la cadena de syscalls que sería lícita en el sistema mediante llamadas a función que realmente no hacían nada. Este tipo de ataques denominados mimicry, hicieron necesaria la inclusión de los argumentos como parámetro a incluir en estudios posteriores[68]. Valor de retorno de la función: El parámetro del valor de retorno[95, 233] , ha sido incluido en varios estudios actuales de modelización de secuencias de llamadas al sistema. Como puede apreciarse, cada llamada genera tres parámetros de entrada al sistema, que permiten realizar una modelización a bajo nivel, para poder realizar una modelización de comportamiento de procesos, y no de usuarios. 3.1.3. Futuros parámetros Como futuros parámetros se establece la línea de investigación que se abre para correlacionar los parámetros de un entorno de red con los parámetros que se contemplan del entorno de host. Estos parámetros permitirían establecer una serie de esferas /planos de análisis, de forma, que se integren en el análisis homogéneo parámetros heterogéneos. Por lo tanto, un análisis de datos heterogéneos, puede dar relaciones entre los dos mundos ampliamente separados desde sus inicios, como pueden ser los HIDS, y los NIDS. A continuación se describen los posibles parámetros relacionados con el mundo de la red que pudieran ser utilizados conjuntamente con los parámetros que ya han sido expuestos anteriormente. Para obtener estos parámetros se tuvieron en cuenta fuentes como los protocolos IP, TCP, UDP e ICMP, el sistema de detección de intrusos Snort y el proyecto Lerad [364] por citar algunos. De forma general para todas las tablas, aquellos parámetros en los que el tipo se indica Binario / Discreto es porque se pueden implementar de las dos formas; por ejemplo, para el parámetro Ipopts de Snort este se puede implementar de forma discreta con una variable que contenga nueve estados o bien, de forma binaria mediante nueve variables (una para cada estado) que contenga tan solo dos estados. Y también que en aquellos sitios donde aparece cuanticable No es que el parámetro tiene naturaleza discreta pero los valores que pueden contener son aleatorios. Formato de las tramas En este punto se explica el formato de las tramas IP, TCP, UDP, ICMP y se comentan los posibles valores que pueden tomar y con qué tipo de variables se pueden representar. Se han elegido estos protocolos puesto que son fundamentales en las redes Ethernet actuales. 223 Formato trama IP El protocolo IP (Internet Protocol, IP) es un protocolo no orientado a conexión usado tanto por el origen como por el destino para la comunicación de datos a través de una red de paquetes conmutados. [8] El formato de su datagrama es el siguiente, según [RFC791]: Figura 3.4: Formato IP El tipo y los posibles valores cada parámetro de este datagrama se detallan en la siguiente tabla. Parámetro Tipo Valores posibles Versión Internet Header Lenght Tipo de servicio Longitud Total Identicador Dont Fragment (DF) More Fragment (MF) Desplazamiento del fragmento Tiempo de vida Protocolo Suma de comprobación Dirección Origen Dirección Destino Discreto Discreto Discreto Discreto Discreto Binario Binario Discreto Discreto Discreto Discreto Discreto Discreto 4ó6 24 24 216 No cuanticable 0-1 0-1 213 26 26 216 232 232 Cuadro 3.1: Tipo y valores posibles de cada parámetro 224 Formato de TCP El protocolo de control de transmisión ('Transmission Control Protocol', TCP) está pensado para ser utilizado como un protocolo 'host' a 'host' muy able entre miembros de redes de comunicación de computadoras por intercambio de paquetes y en un sistema interconectado de tales redes. [10] Su formato según [10] es el siguiente: Figura 3.5: Formato TCP El tipo y los posibles valores cada parámetro de este protocolo se detallan en la siguiente tabla. Parámetro Tipo Valores posibles Puerto origen Puerto destino Número de secuencia Número de conrmación (ACK) Desplazamiento URG ACK PSH RST SYN FIN Ventana Checksum Puntero Urgente Opciones + Relleno Datos Discreto Discreto Discreto Discreto Discreto Binario Binario Binario Binario Binario Binario Discreto Discreto Discreto Discreto Discreto 216 216 212 212 24 0-1 0-1 0-1 0-1 0-1 0-1 216 216 216 No cuanticable No cuanticable Cuadro 3.2: Tipos y posibles parámetros del protocolo TCP 225 Formato UDP Este Protocolo de Datagramas de Usuario (User Datagram Protocol, UDP) asume que el protocolo IP se utiliza como protocolo subyacente. Este protocolo aporta un procedimiento para que los programas de aplicación puedan enviar mensajes a otros programas con un mínimo de mecanismo de protocolo. El protocolo se orienta a transacciones, y a la entrega como la protección ante duplicados no se garantizan. Las aplicaciones que requieran de una entrega able y ordenada de secuencias de datos deberían utilizar el protocolo TCP. [11] Su formato según [11] es el siguiente: Figura 3.6: Formato UDP El tipo y los valores de cada parámetro de este protocolo se detallan en la siguiente tabla. Parámetro Tipo Valores posibles Puerto Origen Puerto Destino Longitud Checksum Discreto Discreto Discreto Discreto 216 216 216 216 Cuadro 3.3: Tipos y posibles parámetros de UDP Formato ICMP El protocolo IP se utiliza para el servicio de datagramas de "host" a "host" en un sistema de redes interconectadas denominado Catenet. Los dispositivos de conexión de redes se denominan Pasarelas (Gateways). Estas pasarelas se comunican entre ellas con propósito de control mediante el Protocolo Pasarela a Pasarela (Gateway to Gateway Protocol (GGP)). Ocasionalmente, una pasarela o un "host" de destino se comunicará con un "host" de origen para, por ejemplo, informar de un error en el procesamiento de datagramas. El Protocolo de Mensajes de Control Internet (ICMP) se usa para este propósito. ICMP utiliza el soporte básico de IP como si se tratara de un protocolo de nivel superior. Sin embargo, ICMP es realmente una parte integrante de IP, y debe ser implementado por todo módulo IP. [7] Su formato según [7] es 226 Figura 3.7: Formato ICMP El tipo y los valores de cada parámetro de este protocolo se detallan en la siguiente tabla. Parámetro Tipo Valores posibles Tipo Código Checksum Contenido Discreto Discreto Discreto Discreto 28 28 No cuanticable 216 Cuadro 3.4: Tipos y posibles parámetros ICMP Snort Mediante un exhaustivo proceso de revisión de las reglas que incluye este sistema se consiguió extraer un conjunto de métricas que fueron separadas en dos categorías: Bajo Nivel y Alto Nivel respectivamente. Las de bajo nivel se corresponden con la mayoría de los parámetros de las tramas de los protocolos explicados anteriormente y las de alto nivel representan conceptos más complejos que los propios parámetros. Los parámetros de bajo nivel son los siguientes: Parámetro Tipo Valores posibles Flags (Syn, Ack, Rst, etc) Fragbits (MF,DF) TTL ID Ipopts Dsize Flow Window Discreto/Binario Binario Discreto Discreto Discreto/binario Discreto Discreto/Binario Discreto 0-1 0-1 26 No cuanticable rr, eol, nop, ts, sec, lsrr, ssrr, satid, any No cuanticable to_client, to_server, from_client, from_server, establishe No cuanticable Cuadro 3.5: Tipo y parámetros de bajo nivel de Snort Algunas de los parámetros de alto nivel son los siguientes: 227 Parámetro Tipo Valores posibles Not-suspicious Attempted-recon Shellcode-detect Suspicious-login System-call-detect Unsuccessful-user Unsuccessful-admin Icmp-event Binario Binario Binario Binario Binario Binario Binario Binario 0-1 0-1 0-1 0-1 0-1 0-1 0-1 0-1 Cuadro 3.6: Tipo y parámetros de alto nivel de Snort Como se puede observar muchos de los parámetros de los obtenidos de las tramas se corresponde con los parámetros de bajo nivel de Snort, a continuación se muestra una tabla donde se observa la correspondencia entre los parámetros obtenidos de las las tramas y los obtenidos de Snort. Todos los parámetros extraídos de Snort están recogidos en los parámetros de las tramas, menos Flow que se puede implementar de una manera alternativa. Queda claro, de esta forma, que implementar los parámetros de las tramas combinados con los de Snort permite extender y mejorar el modelo que incorpora Snort. Lerad En el documento [364] Mahoney y Chan proponen un algoritmo para la detección de intrusiones que utiliza los siguientes parámetros. Parámetro Tipo Puerto Origen Puerto Destino Longitud de la conexión Duración de la conexión Flags de los dos primeros paquetes Flags de los dos últimos paquetes Ocho primeros octetos del campo datos Numero de conexiones a un puerto de una ip concreta Discreto Discreto Discreto Discreto Binario/Discreto Binario/Discreto Discreto Discreto Valores posibles No No No No 216 216 cuanticable cuanticable 0-1 0-1 cuanticable cuanticable Cuadro 3.7: Parámetros que proponen Mahoney y Chan[364]. Marina Bykova Marina Bikova y otro en su documento [48] analiza los siguientes parámetros para detectar comportamientos anómalos en la red. 228 Parámetro Tipo Numero de direcciones IP fuera de rango Numero de otras violaciones en la dirección Opciones IP no adecuadas Numero de paquetes demasiado pequeños (IP/TCP) Veces que aparece puerto cero Checksum invalido Discreto Discreto Discreto Discreto Discreto Discreto Cuadro 3.9: Parámetros de alto nivel de Marina Bykova Parámetro Tipo Valores posibles Tamaño paquete (IP/TCP) Checksum (IP/TCP) Dirección IP Opciones IP Puertos TCP Flags TCP Bits reservados TCP Discreto Discreto Discreto Discreto Discreto Binarios Binarios Tantos como paquetes Tantos como paquetes 212 No cuanticable 216 0-1 0-1 Cuadro 3.8: Parámetros y tipos de Marina Bykova Como puede comprobarse estos parámetros son los mismos que se obtienen del análisis de las cabeceras de las tramas. Con estos parámetros, Bykova, establece los siguientes parámetros de mayor de nivel de abstracción. Christopher Kruegel De la mano de dos autores altamente reconocidos, como son Christopher Krügel y Giovanni Vigna, en el documento [217] se comentan una serie de métricas factibles de ser aplicadas, ampliadas y generalizadas. La idea de la que parten es la aplicación de conocimiento experto para el análisis de solicitudes web. Dieren las peticiones en una serie de partes denidas por el estándar del protocolo HTTP [6]. El objetivo general de la práctica que realizan es contrastar el tráco que se genera en un determinado momento con el tráco aprendido como válido y sin ataques en una fase de aprendizaje. Se compone por lo tanto de dos fases diferenciadas y claves, el aprendizaje y la detección. Durante la primera se tratará de establecer el valor de la métrica que corresponda en la forma más precisa posible y durante la segunda se comparará, como si de una medida patrón se tratase, para validar una posible ocurrencia en dos categorías: normal o anomalía. Para realizar esta clasicación se basan en una serie de métricas susceptibles de ser añadidas al sistema en futuras ampliaciones como parámetros. 229 3.2. Recogida de información La recogida de la información permite alimentar el sistema con los datos de los terminales móviles, (en este caso las syscalls con sus argumentos), estos terminales pueden ser heterogéneos, es decir, se han desarrollados sistemas de captura de datos para diferentes plataformas: GNU/Linux, Windows, Windows Poquet PC y Symbian. Aunque el sistema esta diseñado para ser un analizador de anomalías en terminales móviles, la solución implementada permite analizar diferentes plataformas, no solamente en terminales móviles, sino en sistemas operativos de propósito general , ampliando el estudio realizado. A continuación se detallan los sistemas de recogida de información llevada a cabo en los sistemas mencionados. 3.2.1. Recogida de información en sistemas GNU/Linux Los sistemas GNU/Linux se caracterizan por encontrarse en multitud de dispositivos y arquitecturas diferentes, desde dispositivos embebidos14 , hasta soluciones móviles, PDAs... por lo que un aspecto interesante del proyecto pasaba por realizar un sistema de recogida de información en sistemas GNU/Linux por la amplitud del arquitecturas y sistemas en los que se encuentran. Particularmente la opción elegida pasaba por implementar un sistema de recolección de información para PDAs de Nokia N770 que utilizan una distribución propia llamada maemo15 . Al nal de este apartado se especicarán los detalles de implantación en la Plataforma. En los sistemas Unix-like16 , la arquitectura del sistema se divide en dos partes muy diferenciadas: el modo real y la zona de usuario, siendo las syscalls el lenguaje por el cual hablan las dos partes. Dichas syscalls17 , son el mecanismo que permite conectar las dos zonas divididas por el sistema operativo, el modo real, en el que se encuentra el kernel, y la zona de usuario, donde se encuentran los programas de usuario. Las diferencias entre estas dos zonas son muy signicativas, en el modo real, se realizan las funciones primordiales de los sistemas operativos18 , como pueden ser la gestión de memoria, la gestión de procesos... por lo tanto su tratamiento es eminentemente diferente a la zona de usuario, en la que se disponen de los servicios provistos por el kernel (gestión de memoria virtual 19 , gestión de sistemas de cheros...); y para pedir dichos recursos al sistema operativo, ha que 14 15 16 también conocidos como dispositivos empotrados. Mas información sobre esta distribución en www.maemo.org. Se trata de un sistema de funcionamiento parecido al de un sistema Unix tradicional, pero que no se encuentra bajo una especicación UNIX convencional, tradicionalmente este término ha estado ligado al software libre y a sistemas abiertos como GNU/Linux. 17 18 También conocidas como llamadas al sistema. Cabe destacar, la excepción de los sistemas microkernel, en el que las funciones del sistema operativo aparecen en zona de usuario. 19 Los sistemas operativos emulan las direcciones de memoria utilizadas por los programas de usuario, haciéndoles creer que disponen de un rango de direcciones mayor del que existe físicamente en la memoria física de la máquina. De esta manera el sistema operativo puede almacenar temporalmente en zonas del disco duro (minimizando la utilización de un recurso tan valioso como es la memoria) bloques de memoria virtual poco utilizados. 230 Figura 3.8: Esquema de la estructura del kernel Figura 3.9: Proceso de llamada a una syscall utilizar el mecanismo de las syscalls. Los sistemas GNU/Linux, siguen el estándar POSIX 20 , que denen un conjunto de syscalls, de esta manera se parte de un conjunto de llamadas al sistema susceptibles de ser recogidas como parte de la información utilizada posteriormente para el aprendizaje e inferencia de la herramienta, dado que ya ha sido demostrado en estudios anteriores[375] que los ataques generan una variación detectable en las syscalls generadas por los procesos. Sistema de syscalls en sistemas GNU/Linux Antes de proceder a la intercepción de las llamadas a las syscalls, fue necesario realizar un completo estudio de la arquitectura que posee el kernel de GNU/Linux para el tratamiento de las syscalls. La parte de la gestión de estas syscalls, se pueden dividir en dos partes muy diferenciadas: La llamada desde la zona de usuario y la recepción por parte de el kernel. 20 Portable Operating System Interface, siendo la X referencia a los sistemas Unix. Se trata de un conjunto de estándares que dene las syscalls que ha de implementar un sistema Unix. Se encuentra denida en los estándares IEEE1003. Cabe destacar, que este estándar no solamente dene las syscalls, sino que también especica programas a nivel de usuario (sed, awk...) linea de comandos y otros tantos aspectos de los sistemas Unix-Like. 231 Llamada a syscalls desde la zona de usuario La llamada a las funciones del sistema en los sistemas GNU, se implementan mediante interrupciones21 generadas por instrucciones en ensamblador o mediante las puertas de llamada lcall7/lcall2722 , por lo tanto, cuando alguno de los dos mecanismos ocurre, el procesador, cuando un proceso de zona de usuario requiere un recurso, interrumpe lo que estaba haciendo y da servicio a la petición recibida. Esta llamada puede realizarse desde los programas directamente en código ensamblador, llamando a las interrupciones int0x80, para ello se cargan en los registros EAX el código de la instrucción (en el ejemplo se trata del código de la instrucción write , con el número de syscall 4, seguido de la syscall 1, la exit). Listing 3.5: Ejemplo de programa en ensamblador .data 3 msg : # Zona de d a t o s . s t r i n g " Hello , world ! \ n" # d e f i n i c i o n cadena l e n = . − msg # longitud .text . g l o b a l main 8 # decimos e l " e n t r y p o i n t " main : 13 18 movl $ l e n , %edx # l o n g i t u d de l a cadena movl $msg , %ecx # p u n t e r o a l a cadena movl $1 , %ebx # h a n d l e r ( 1 = STDOUT) movl $4 , %eax # (4 = write ) int $0x80 # llamada a l k e r n e l movl $0 , %ebx #c o d i g o de s a l i d a movl $1 , %eax #(1 = e x i t ) int $0x80 # llamada a l k e r n e l Como se puede observar, el código para llamar a una syscall concreta, depende de la syscall que sea llamada, esto, hace que tenga muchas variaciones, y que el código ensamblador sea muy difícil de escribir. Por dicha razón, hoy en día la mayoría de las llamadas a las syscalls, se 21 Señal que indica al procesador que debe interrumpir el curso de ejecución actual, y proceder a ejecutar el tratamiento especico para la interrupción que acaba de ejecutarse. 22 Puertas de llamada utilizadas en sistemas Solarix, Unixware, que también son soportados por el kernel de Linux. 232 encuentran englobadas en una librería (conocida como la glibc23 ), que provee de una API a alto nivel para las llamadas a las syscalls, lo que permite abstraernos de las llamadas a bajo nivel y de los registros en los que tenemos que almacenar los argumentos. Para comparar los dos sistemas, lo que antes se hacia en varias lineas crípticas de ensamblador, se realiza en una sola línea en lenguaje C. Listing 3.6: Ejemplo de la mejora con lenguaje C 1 int main ( ) { p r i n t f ( " H o l a Mundo " ) ; } También existe otro tipo de macros que permiten las llamadas a las syscalls abstrayéndonos en cierto modo de los registros del sistema, estos son: Listing 3.7: Macro para llamar a syscall s y s c a l l 2 ( long , runqueue , unsigned long ∗ , dst , long , l e n ) ; Los programas, al seguir su curso generan un numero determinado de syscalls que pueden ser logeadas, mediante el comando strace24 (para ver las llamadas al sistema así como sus argumentos). Mediante esta útil herramienta se pueden depurar programas comúnmente utilizados, viendo si existe algún tipo de comportamiento extraño en la secuencia o el tipo de llamadas a las syscalls del sistema. Esta herramienta fue un punto de partida sobre el que se planteó comenzar a trabajar, pero se vieron varios y numerosos inconvenientes: Se trata de un sistema que trabaja a petición, es decir, hay que decir explícitamente que el programa se ejecute bajo la supervisión de strace. Genera una salida en texto que habría que parsear, siendo este un arduo trabajo. Los programas ejecutados bajo strace, se ejecutan más lentamente que los ejecutados normalmente. Vistos estos inconvenientes se optó por otro tipo de sistema para capturar las llamadas al sistema, ya que strace no ofrecía las funcionalidades necesarias, tratándose más de un medio de depuración de los programas, más que un sistema de monitorización integral. Recepción de syscalls en zona de kernel Para poder interceptar las llamadas, se procedió a un estudio exhaustivo de cómo se realiza la recepción y tratamiento de las llamadas al kernel en los sistemas GNU/Linux. 23 24 GNU C library, es una parte esencial de los sistemas GNU/Linux . Strace es un comando de la linea de comandos de Linux (comúnmente conocida como bash), que permite logear las llamadas al sistema que se efectúan por parte de un programa. 233 Figura 3.10: Ejemplo utilización del comando strace 234 La comunicación se realiza mediante syscalls, siendo éstas llamadas a la interrupción 0x80, estas llamadas, se traducen, en la llamada a la rutina situada en la entrada 0x80 de la tabla de manejo de interrupciones. Por lo tanto, por ejemplo si se produce una interrupción 0x13, se sumaría 13 a la dirección base del vector tabla de interrupciones, obteniendo de esa manera la dirección de la función que ha de gestionar dicha interrupción25 . Este proceso completo se puede encontrar en varios archivos del kernel, en el archivo r/src/linux/include/asm/unistd.h, /us- podemos encontrar un conjunto completo de las syscalls que el kernel esta preparado para recibir, en cada versión del kernel existe un número diferente de syscalls, siendo siempre mayor que el anterior, dado que una vez que se ha insertado una nuevas syscall, hay que mantenerla en el kernel por razones de compatibilidad, cuando una syscall ha dejado de ser implementada, se le asigna una nueva syscall: sys_ni_syscall, que devuelve el valor -ENOSYS, que indica que dicha syscall ya no está implementada. Listing 3.8: Contenido de unistd.h los números de las syscalls #i f n d e f _ASM_I386_UNISTD_H_ #d e f i n e _ASM_I386_UNISTD_H_ /∗ 4 9 ∗ This file contains the system #d e f i n e __NR_restart_syscall 0 #d e f i n e __NR_exit 1 #d e f i n e __NR_fork 2 #d e f i n e __NR_read 3 #d e f i n e __NR_write 4 #d e f i n e __NR_open 5 #d e f i n e __NR_close 6 call numbers . ∗/ Estas llamadas son recibidas a nivel de kernel por código especíco para cada tipo de procesador, que extrae el valor del registro eax, en el que almacena el numero de la syscall que va a ejecutarse. Este numero (multiplicado por el tamaño de las direcciones de memoria) se suma a la dirección base de la idt26 , obteniéndose el handler de la interrupción que va a ejecutarse. Listing 3.9: Denición de la IDT en linux struct d e s c _ s t r u c t i d t _ t a b l e [ 2 5 6 ] __attribute__ ( ( __section__ ( " . d a t a . i d t " ) ) ) = { {0 , 0} , } ; Como se puede ver en la inicialización, existen varias interrupciones aparte de la 80, denida por la macro 25 SYSCALL_VECTOR, como pueden ser división por 0, page fault... El vector de interrupciones es conocido como la zona de memoria en la que se encuentran los punteros a las funciones que tratan cada una de las interrupciones. Por lo tanto para desplazarnos por las entradas del vector, sumamos a la dirección base del vector el número de interrupción que queremos tratar. 26 Interrupción Description Table: Vector en el que se almacenan 235 Listing 3.10: Inicialización de la IDT set_trap_gate (0 ,& d i v i d e _ e r r o r ) ; s e t _ i n t r _ g a t e (1 ,& debug ) ; s e t _ i n t r _ g a t e (2 ,& nmi ) ; 4 set_system_intr_gate ( 3 , &i n t 3 ) ; /∗ i n t 3 −5 can be called from all ∗/ set_system_gate (4 ,& o v e r f l o w ) ; set_system_gate (5 ,& bounds ) ; set_trap_gate (6 ,& i n v a l i d _ o p ) ; set_trap_gate (7 ,& d e v i c e _ n o t _ a v a i l a b l e ) ; 9 set_task_gate ( 8 ,GDT_ENTRY_DOUBLEFAULT_TSS) ; set_trap_gate (9 ,& coprocessor_segment_overrun ) ; set_trap_gate (10 ,& invalid_TSS ) ; set_trap_gate (11 ,& segment_not_present ) ; set_trap_gate (12 ,& stack_segment ) ; 14 set_trap_gate (13 ,& g e n e r a l _ p r o t e c t i o n ) ; s e t _ i n t r _ g a t e (14 ,& p a g e _ f a u l t ) ; set_trap_gate (15 ,& s p u r i o u s _ i n t e r r u p t _ b u g ) ; set_trap_gate (16 ,& c o p r o c e s s o r _ e r r o r ) ; set_trap_gate (17 ,& alignment_check ) ; 19 #i f d e f CONFIG_X86_MCE set_trap_gate (18 ,& machine_check ) ; #e n d i f set_trap_gate (19 ,& s i m d _ c o p r o c e s s o r _ e r r o r ) ; set_system_gate (SYSCALL_VECTOR,& s y s t e m _ c a l l ) ; Otra función importante que existen en el kernel, se trata de la función request_irq, que permite habilitar una interrupción, siendo argumentos de la misma, el handler27 , y el número de la interrupción que deseamos mapear. Esta función se encuentra redenida para varias de las arquitecturas, siendo el handler generalizado el que se puede encontrar en l/irq/manage.c 28 /usr/src/linux/kerne- . Una vez que se ha recibido la IRQ, (la interrupción que ha enviado la zona de usuario), se realiza la gestión de la misma, como se puede ver en la<inicialización de las interrupciones, se 27 28 La función que maneja una interrupción. Se pueden encontrar otras implementaciones de este código para otras arquitecturas: arm: arch/arm/kernel/irq.c arm26: arch/arm26/kernel/irq.c sparc: arch/sparc/kernel/irq.c sparc64: arch/sparc64/kernel/irq.c Estos son los cheros donde podemos encontrar la implementación de la función que recoge las interrupciones. 236 asigna una función a cada interrupción que será llamada cuando se de dicha interrupción. Nueva gestión de llamadas al Kernel: Sysenter29 . La gestión de interrupciones, aún a pesar de estar lo más optimizada posible, siguen siendo una tarea ardua y dura, dado que el kernel tiene que gestionar las puertas de llamada, y todo el sistema de runlevels. Para mitigar esta deciencia, ha surgido una nueva manera de llamar al Kernel, que se trata de sysenter, que mejora el rendimiento en las llamadas al kernel. Este sistema es totalmente compatible con el anteriormente explicado, las interrupciones se pueden llamar tanto por Systenter como por int80. Pero la instrucción systenter está más optimizada. En los sistemas GNU/Linux, las llamadas a las syscalls se realizan desde la glibc, y en los últimos tiempos se está llevando a cabo una transición desde las llamadas a las syscalls mediante la interrupción 80, a la llamada más rápida Sysenter. Por supuesto esta nueva gestión de llamadas se realiza únicamente en sistemas i386, siendo especico de ésta arquitectura. Gestión de las syscalls en zona de Kernel Cuando llega una interrupción 80, el sistema de gestión de interrupciones explicado anteriormente delega la gestión a el handler de las syscalls, o en su defecto, se realiza una llamada a la función sysenter, llamando al handler de las interrupciones. Este handler es diferente para sysenter y para la interrupción int80, pero esencialmente realizan la mismo: Inspeccionan si la syscall que se quiere llamar está implementada (el número de syscall es menor o igual que el número mayor de syscalls), si se produce esta situación se devuelve un error. En caso contrario, se calcula la dirección donde se encuentra almacenado el handler30 que ha de tratar dichas syscall y se llama a dicha función devolviendo a zona de usuario lo que el handler devuelva. Listing 3.11: Gestión de la interrupción 80 #System 2 c a l l handler stub ENTRY( s y s t e m _ c a l l ) p u s h l %eax # s a v e orig_eax SAVE_ALL GET_THREAD_INFO( %ebp ) # system c a l l t r a c i n g i n operation / emulation /∗ 7 Note , _TIF_SECCOMP i s and 29 not testb bit number 8, so it needs testw ∗/ Para mayor información: http://www.codeguru.com/cpp/w-p/system/devicedriverdevelopment/article.php/c8223/#more, articulo sobre la optimización realizada por la instrucción sysenter[152]. 30 and La función que se va a encargar de tratar dicha syscall 237 t e s t w $ (_TIF_SYSCALL_EMU|_TIF_SYSCALL_TRACE|_TIF_SECCOMP| _TIF_SYSCALL_AUDIT) , T I _ f l a g s( %ebp ) jnz syscall_trace_entry cmpl $ ( n r _ s y s c a l l s ) , %eax jae syscall_badsys 12 syscall_call : c a l l ∗ s y s _ c a l l _ t a b l e (, %eax , 4 ) movl %eax ,EAX( %e s p ) # s t o r e t h e return v a l u e syscall_exit : cli # make s u r e we don ' t m i s s an interrupt # s e t t i n g need_resched or 17 sigpending # b e t w e e n s a m p l i n g and t h e iret movl T I _ f l a g s ( %e b p ) , %e c x t e s t w $_TIF_ALLWORK_MASK, %c x # c u r r e n t −>work jne syscall_exit_work Listing 3.12: Gestión de la llamada sysenter #S y s e n t e r 2 c a l l handler stub ENTRY( s y s e n t e r _ e n t r y ) movl TSS_sysenter_esp0( %e s p ), %e s p sysenter_past_esp : sti p u s h l $ (__USER_DS) p u s h l %ebp 7 pushfl p u s h l $ (__USER_CS) p u s h l $SYSENTER_RETURN 12 /∗ ∗ Load ∗ Careful the potential about sixth argument security . ∗/ cmpl $__PAGE_OFFSET−3, %ebp jae syscall_fault 17 1: movl ( %ebp ), %ebp 238 from user stack . . s e c t i o n __ex_table , " a " . align 4 . long 1b , s y s c a l l _ f a u l t 22 . previous p u s h l %eax SAVE_ALL GET_THREAD_INFO( %ebp ) 27 /∗ Note , _TIF_SECCOMP i s and not testb bit number 8, and so it needs testw ∗/ t e s t w $ (_TIF_SYSCALL_EMU|_TIF_SYSCALL_TRACE|_TIF_SECCOMP| _TIF_SYSCALL_AUDIT) , T I _ f l a g s( %ebp ) jnz syscall_trace_entry cmpl $ ( n r _ s y s c a l l s ) , %eax jae syscall_badsys 32 c a l l ∗ s y s _ c a l l _ t a b l e (, %eax , 4 ) movl %eax ,EAX( %e s p ) cli movl T I _ f l a g s( %ebp ) , %ecx t e s t w $_TIF_ALLWORK_MASK, %cx 37 jne syscall_exit_work /∗ if something modifies registers it must also disable sysexit ∗/ movl EIP( %e s p ) , %edx movl OLDESP( %e s p ) , %ecx x o r l %ebp, %ebp 42 sti sysexit Como se puede ver en los ejemplos mostrados, la llamada call, que se realiza en ambos códigos (call *sys_call_table(, %eax,4) ), es la parte en la que se llama a la función que se encarga de manejar cada syscall. Estos punteros a funciones se almacenan en un vector llamado sys_call_table, y como cada dirección de memoria en i386 son 4 bytes, multiplicando por cuatro el valor de eax , se obtiene 31 el oset32 necesario para calcular la dirección en la que se almacena el puntero a función que se va a llamar. El objeto 31 32 sys_call_table, es de especial importancia, en versiones anteriores del kernel (de En eax en ese momento se almacena el número de syscall que se está llamando. desplazamiento 239 Figura 3.11: Esquema de llamada a una interrupción mediante interrupción la rama 2.4 y anteriores) dicho objeto se encontraba disponible por parte de cualquiera de los módulos que se cargasen en el sistema, y con realizar extern void* sys_call_table[]; se tenía acceso a uno de los puntos mas importantes del sistema operativo. Este aspecto ha sido ampliamente explotado por rootkits33 , lo que llevó a Linus Torvalds34 , a decidir eliminar esta exportación haciendo algo más difícil algo que anteriormente era trivial. Esta ocultación no ha permitido eliminar todos los sistemas de troyanización del kernel, dado que la dirección de la sys_call_table, se puede seguir accediendo desde otros caminos que se explicarán posteriormente. Como se puede ver también en ambos ejemplos el manejo del retorno de la función llamada es también igual en ambos casos, ya que las funciones llamadas mediante call, devuelven el valor de retorno en almacenado en la pila, por lo tanto lo que se realiza es almacenar el contenido de la cima de la pila, que es el resultado de la syscall (todas las syscalls por convención devuelven un long). Denición del sistema de recogida de datos en sistemas GNU/Linux Para llegar a la sección de plantear las posibles opciones de acceder a las llamadas al sistema que se dan en un momento en el sistema se realizó un estudio de las técnicas utilizadas para auditar las aplicaciones en sistemas GNU/Linux. De un comienzo aparecieron varias opciones: Realizar un sistema vírico que intercepte las llamadas a las syscalls. Utilizar un sistema de logeo de syscalls convencional, como pueden ser strace y ptrace. 33 34 Sistemas de troyanización del kernel de linux. Creador del Kernel de Linux, y actualmente mantiene una parte del desarrollo del mismo. 240 Figura 3.12: Logo de SuSE, distribución alemana, respaldada por la empresa Novell Utilizar un sistema ya realizado por Novell : LAuS[261]35 . Utilizar el sistema de auditoría snare[16]. Adaptar un sistema BSM[270] de auditoría en sistemas Solaris Los requisitos planeados eran los siguientes: Funcionamiento en todo tipo de plataformas / arquitecturas. Funcionamiento en tiempo real y transparente para el usuario. No haya necesidad de interacción con el usuario. Dados los requisitos, se fueron analizando las diferentes opciones. El sistema LAuS, era un sistema desarrollado por Novell para la distribución SuSE en forma de parche del kernel de linux, que permitía auditar las syscalls. Este sistema existe para que los sistemas SuSE obtuvieran el certicado de seguridad informática CC EAL436 , esta solución aunque buena para los sistemas que empleen SuSE, no es exible para los requisitos marcados por el sistema a emplear, y no se ha probado en sistemas embebidos ni sistemas móviles. Además para funcionar necesita que el kernel sea recompilado y es un proceso que para nada es transparente para el usuario. El sistema LAuS, permite en ordenadores convencionales auditar a procesos, pero no ofrece la exibilidad necesaria para realizar un proyecto con él, por lo que la opción de SuSE y Novell quedó desechada por dichas razones. Los sistemas de strace y ptrace 37 , permiten seguir a un proceso el curso de la ejecución de otro en forma de syscalls, reciben las acciones del otro proceso, este sistema implementable en 35 36 Se trata de un sistema de auditoría realizado por Novell para SuSE Estándar de seguridad informática Common Criteria Assurance Level 4 : Methodically Designed, Tested and Reviewed. Analysis is supported by the low-level design of the modules of the TOE, and a subset of the implementation. Testing is supported by an independent search for obvious vulnerabilities. Development controls are supported by a life-cycle model, identication of tools, and automated conguration management.[URL]http://www.cesg.gov.uk/site/iacs/index.cfm?menuSelected=1&displayPage=13 37 La función ptrace, permite, al igual que el comando strace, seguir el funcionamiento de otro proceso. http://linuxgazette.net/issue81/sandeep.html 241 Figura 3.13: Logo del agente de snare para sistemas GNU/Linux zona de usuario puede parecer en principio una buena opción, pero entraña un gran peligro, que es fácilmente superable por el malware existente actualmente. Listing 3.13: Prototipo de la función ptrace #include long <s y s / p t r a c e . h> int p t r a c e ( enum __ptrace_request r e q u e s t , pid_t pid , void ∗ addr , void ∗ data ) El sistema de funcionamiento del sistema ptrace, solamente permite que un proceso siga la ejecución de un proceso dado, es decir, un solo proceso puede seguir el funcionamiento de otro. Algunos de los sistemas antimalware para sistemas GNU/Linux hacían uso de la función ptrace, y la manera que desarrollaron los hackers, fue crear dos procesos en el malware, y se suscribían mutuamente excluyendo la posibilidad de que cualquier otro proceso se suscribiese a su propia ejecución, con esta ptrace maniobra de evasión y el comando strace el sistema de auditoría de syscalls mediante la función se ve inutilizado. Otro aspecto dentro de el sistema de strace/ptrace es que el sistema deja de ser trasparente para el usuario si se ejecutan bajo el comando strace, ya que los programas han de ser ejecutados mediante línea de comandos lo que deja al sistema sin posibilidad de ser independiente del usuario del sistema operativo auditado. Los sistemas BSM proporcionan un sistema de auditoría y de alertas para el seguimiento de los usuarios. Se trata de un sistema que no solamente realiza un histórico de las syscall generadas por el sistema, sino que se encuentra abierto a muchos tipos de eventos, como puede ser que se abra una conexión ftp... Por lo tanto se trata de un sistema que genera un grupo heterogéneo de datos de entrada38 , en los que pueden aparecen relaciones de dependencia entre los datos de entrada por el nivel de abstracción de los mismos. Además existen varios tipos de datos (sobre todo syscalls a bajo nivel), que han sido rechazados para el sistema, dado que generan muchas entradas y que genera datos sin sentido 39 , esta supresión de datos, para un sistema de experimentación como puede ser Mendizale, dichos datos, pueden dar un perl mucho más exacto de los procesos que están siendo inspeccionados. Por otra parte los sistemas BSM, permiten auditar usuarios, pero no procesos en particular, lo que ha ocasionado que auditar procesos mediante un sistema de auditoría de usuarios, no dé la solución más óptima. 38 Es decir, podemos encontrar, por una parte datos de muy alto nivel como puede ser la apertura de una conexión ftp, y con datos de muy bajo nivel, como por ejemplo una syscall. 39 En concreto: Several audit classes were excluded because they did not generate meaningful information (or generated too much data). 242 El sistema Snare[16], realizado por la empresa intersec alliance, es un sistema global de detección de intrusiones el cuál dispone de un sistema de logeo de syscalls, que permite generar reglas estáticas al administrador que genera alarmas cuando dicho evento se da en el sistema. Este agente utiliza un sistema de auditoría, y por el momento únicamente funciona en Redhat Enterprise Linux 4.0 U3, y ha sido testado en Fedora Core, en sistemas como Ubuntu Linux de Canonical, no es funcional todavía, esta situación ha propiciado que este sistema que es funcional haya sido rechazado en detrimento de la realización de un sistema de recogida de datos propio. Por lo tanto las líneas que se han seguido han sido utilizar técnicas víricas que permitan auditar el kernel de linux a bajo nivel. Este proceso se puede llevar a cabo de varias maneras, pero siempre insertando código a nivel de kernel en forma de LKM40 . Desarrollo del sistema de recogida de datos en sistemas GNU/Linux Una vez denida cuál va a ser la losofía del sistema, se investigó cuáles eran las opciones posibles: Desarrollar un parche del kernel, conceptualmente puede que sea una buena solución dado que modicar código que no está en ejecución puede ser mas seguro41 , que otras opciones, pero no era una opción válida, dado que la transparencia con el usuario queda sustancialmente reducida con un proceso como recompilar el kernel. Desarrollar un módulo del kernel de linux que secuestre las funciones del vector sys_call_table, la cual era la opción más válida para el proyecto, y la que se ha desarrollado. Por lo tanto, el sistema elegido ha fue un módulo del kernel que realice la recogida de datos, pero existen también varias opciones en cuanto al acceso a las funciones llamadas a bajo nivel, por lo tanto uno de los mayores problemas a la hora de desarrollar el sistema de recogida, ha sido seleccionar qué método se utiliza a la hora de secuestrar las llamadas. Para seleccionar el método necesario se ha tenido en cuenta la interoperabilidad entre diferentes plataformas o arquitecturas42 , y el impacto sobre el sistema operativo43 . Los métodos implementados y estudiados para la elección del método denitivo, fueron dos: Modicar las entradas de la sys_call_table para que en vez de que se llamen las funciones que se han de encargar de las syscalls, se llame a funciones nuestras. Este sistema tiene la complejidad añadida de que desde el kernel 2.5 el símbolo sys_call_table, no se encuentra exportado en el kernel. 40 Loadable Kernel Module: Se trata de una sección de código que una vez compilada se la permite ser descargada y carga en el kernel de linux. 41 Existen menos posibilidades de que se de un Kernel Panic modicando código fuente, que redireccionando direcciones de memoria en tiempo de ejecución dado que puede tener consecuencias imprevisibles. 42 Alguno de los métodos utiliza código nativo a la hora de realizar la intercepción de las llamadas, y uno de los requisitos de este sistema de recogida de datos era la interoperabilidad entre diferentes arquitecturas. 43 El tiempo de retraso que se puede dar por un proceso como el de la auditoría de syscalls. 243 Modicar en tiempo de ejecución el código de manipulación de las syscalls del kernel para que en vez de realizar las funciones originales se llame a un método denido por nosotros. Las dos opciones comentadas fueron han sido realizadas y probadas, para decidir cuál de las dos era la mejor opción. Desarrollo de sistema de recogida de datos basado en intercepción de sys_call_table Esta opción, lo que realiza es la suplantación de las direcciones de memoria almacenadas en la variable sys_call_table, haciendo que cuando se ejecute una llamada a una syscall (tanto mediante la interrupción 80, como la llamada sysenter), se llame a una función propia. El mecanismo de funcionamiento es muy simple, se realiza un módulo del kernel, que cuando se cargue modique las entradas necesarias en el vector de direcciones, y que cuando se descargue las deje como las encontró. El mecanismo de funcionamiento de los módulos del kernel permiten realizar esta tarea sin problemas, dado que la estructura básica de un módulo del kernel, únicamente dispone de dos funciones, una que se la llama al cargar44 , y otra que se llama al descargarse45 . Listing 3.14: Ejemplo de un módulo básico 3 #include <l i n u x / module . h> #include <l i n u x / k e r n e l . h> #include <l i n u x / timex . h> static int __init f e n t _ i n i t ( void ) { p r i n t k (KERN_INFO " H o l a s o y un LKM e n modo r e a l O_o" ! ! ! \ n" ) ; return 0; } 8 static v o i d __exit f e n t _ e x i t ( v o i d ) { p r i n t k (KERN_INFO " Se d e s c a r g a e l LKM. . . \ n " ) ; } 13 module_init ( f e n t _ i n i t ) ; module_exit ( f e n t _ e x i t ) ; MODULE_LICENSE( "GPL" ) ; 44 Existen dos maneras de cargar módulos en el kernel, una mediante el comando insmod (que no carga los módulos dependientes necesarios, y que carga el módulo desde cualquier localización), y el comando modprobe, que realiza la carga tanto del módulo como de los módulos dependientes necesarios (los módulos han de estar localizados en un sitio concreto de la jerarquía de cheros). 45 Mediante el comando rmmod. 244 El problema surge cuando deseamos buscar la dirección de memoria de la variable sys_call_table, como ya hemos comentado anteriormente, a partir del kernel 2.5 no está disponible en el kernel directamente. Las opciones para realizar el calculo de esta dirección son varias, este valor, se encuentra almacenado en el chero System.map, resultante de compilar el kernel, en este chero se encuentran las direcciones46 en las que se almacenarán las variables del kernel, y en este chero sí que aparece la variable que nos interesa: sys_call_table. Por lo tanto podemos copiar esta dirección, y embeberla en el código fuente para disponer de una referencia a la dirección de memoria en la que se encuentra el vector de direcciones. Otra opción sería también pasar la dirección mediante un parámetro del LKM, y en el script para introducir, realizar una manipulación de System.map para que encuentre la dirección adecuada. Esta solución es viable siempre y cuando se disponga del System.map del kernel que queremos auditar, no hace falta recompilar el kernel, sino que el System.map sea el original de la compilación. Si el chero System.map, no estuviese disponible o si la versión del mismo no fuese la original existe otro método para localizar la dirección de la misma, se trata de buscar en el código que se está ejecutando la dirección. El método[313] es bastante lógico, existe una función que permite conocer la dirección base de la tabla IDT47 , por que entrando a la entrada 80, tenemos el handler de la interrupción 80 que es la que se encarga de tratar las syscalls. En este momento disponemos de el puntero a la función que se encarga de tratar las int80, y mediante un memcpy48 , lo que hacemos es copiar el código de la función que se encarga de tratar las syscalls (aparece anteriormente la sección de código que se encarga de ello). Por lo tanto, para encontrar la dirección tenemos que buscar la llamada call que se realiza desde el código fuente por lo que buscamos los códigos de operación 0x 0x14 0x85 49 , que se corresponden a la llamada call, y posteriormente encontramos la dirección de la sys_call_table, este método permite localizar la syscall table, pero tiene varios problemas que se detallarán a continuación. Listing 3.15: Función que obtiene la base del vector de syscalls s t a t i c void int g e t _ s y s _ c a l l _ t a b l e ( void ) { i; unsigned i n t char sys_call_off ; sc_asm [ SIZE ] ; 5 asm ( " s i d t %0" : "=m" ( i d t r ) ) ; p r i n t k ( " [ + ] i d t r b a s e a t 0 x %08x \ n " , i d t r . b a s e ) ; 46 47 48 49 Direcciones físicas en las que se van a almacenar La tabla IDT es el vector de interrupciones. función de C, que se encarga de copiar una zona de memoria a otra. Se trata código ensamblador, que se ocupa de hacer una call. 245 memcpy(& i d t , ( void ∗ ) ( i d t r . b a s e +8∗0x80 ) , s i z e o f ( i d t ) ) ; s y s _ c a l l _ o f f = ( i d t . o f f 2 << 1 6 ) | i d t . o f f 1 ; 10 p r i n t k ( " [ + ] i d t [ 8 0 h ] d e s c r i p t o r p o i n t s t o 0 x %08x \ n " , sys_call_off ) ; memcpy( sc_asm , ( void ∗ ) s y s _ c a l l _ o f f , SIZE ) ; for ( i =0; i <SIZE ; i ++) if 15 ( ( sc_asm [ i ] == ' \ x f f ' ) && ( sc_asm [ i +1] == ' \ x 1 4 ' ) && ( sc_asm [ i +2] == ' \ x 8 5 ' ) ) { printk ( " [+] s y s _ c a l l _ t a b l e c a l l found ! ( at b y t e %d f r o m 0 x %08x a d d r e s s ) \ n " , i , sys_call_off ) ; break ;; } 20 if ( i <SIZE ) { s y s _ c a l l _ t a b l e = ( void ∗ ) ∗ ( ( i n t ∗ ) &sc_asm [ i +3]) ; p r i n t k ( " [ + ] s y s _ c a l l _ t a b l e a t 0 x %p \ n " , s y s _ c a l l _ t a b l e ); } else { printk ( " [ −] s y s _ c a l l _ t a b l e not found ! " ) ; 25 } } El código que hemos mostrado tiene el problema de que es muy dependiente de la arquitectura en la que esté implementado el sistema, por lo que topa con el requisito marcado de independencia de la arquitectura, dado que el código no sólo se quiere utilizar para arquitecturas i386, sino también para arquitecturas ARM..., esta opción aunque atractiva, fue desechada. Por lo tanto el sistema para encontrar la dirección mediante la búsqueda de la dirección de la base del vector de syscalls, fue desechado en favor del método del System.map, siendo este un sistema más exible para la utilización en diferentes arquitecturas. Listing 3.16: Ejemplo de la intercepción de la syscall Kill 3 #include <l i n u x / k e r n e l . h> #include <l i n u x / module . h> #include <l i n u x / i n i t . h> #include <l i n u x / t y p e s . h> /∗ ∗ Direccion de memoria sacado directamente 246 de s y s t e m . map , la entrada es : sys_call_table ∗ ∗/ 8 SYSCALLDIR 0 xc03337e0 #d e f i n e MODULE_LICENSE( " GPLv2 o r l a t e r " ) ; static int ( ∗ k i l l _ s a v e d ) ( pid_t , i n t ) ; almacenar el valor ∗ Direccion de memoria // P u n t e r o a funcion para inicial /∗ es : sacado directamente de s y s t e m . map , la entrada sys_call_table ∗ ∗/ 13 long ∗ s y s _ c a l l _ t a b l e = ( long ∗ ) SYSCALLDIR ; static int m i _ k i l l ( pid_t pid , i n t s i g ) { struct del task_struct ∗ ptr = current ; // P i l l a m o s la instancia pcb p r i n t k ( " K  ½ l l s i g n a l : %d u s u a r i o %d p i d : %d \ n " , s i g , ptr −> 18 uid , ptr −>p i d ) ; return ( ( ∗ k i l l _ s a v e d ) ( pid , s i g ) ) ; } int __init i n i t _ i n t e r c e p t ( void ) { p r i n t k ( " M e n d i z a l e module l o a d e d \n" ) ; 23 gettimeofday_saved = ( int ( ∗ ) ( struct t i m e v a l ∗ , struct t i m e z o n e ∗ ) ) ( s y s _ c a l l _ t a b l e [ __NR_gettimeofday ] ) ; k i l l _ s a v e d = ( i n t ( ∗ ) ( pid_t , i n t ) ) ( s y s _ c a l l _ t a b l e [ __NR_kill ] ) ; s y s _ c a l l _ t a b l e [ __NR_kill ] = ( unsigned long ) m i _ k i l l ; s y s _ c a l l _ t a b l e [ __NR_gettimeofday ] = ( unsigned long ) mi_gettimeofday ; return 28 0; } void __exit e x i t _ i n t e r c e p t ( void ) { / ∗ Lo d e j a m o s todo como e s t a b a ∗/ s y s _ c a l l _ t a b l e [ __NR_kill ] = ( unsigned long ) k i l l _ s a v e d ; 33 s y s _ c a l l _ t a b l e [ __NR_gettimeofday ] = ( unsigned long ) gettimeofday_saved ; } 247 module_init ( i n i t _ i n t e r c e p t ) ; module_exit ( e x i t _ i n t e r c e p t ) ; Por lo tanto, este método realiza una suplantación de las direcciones del vector de syscalls original, esto supone que cuando una función kill es llamada, la función kill original, no es llamada, sino que se llama realmente a la función suplantada por nosotros. Para no levantar sospechas ni modicar el funcionamiento de las syscalls originales, después de realizar lo que queremos (en el caso del ejemplo un simple printk), llamamos a la función kill original, devolviendo lo que la función original ha devuelto. De este modo se consigue un logeo transparente al usuario. Desarrollo de un sistema de recogida de datos basado en la modicación en tiempo de ejecución de la rutina de tratamiento de las syscalls. Este sistema de tratamiento ha sido desarrollado por parte de un hacker[292], para un rootkit a nivel de kernel para kernels de la rama 2.6. Este sistema, utiliza una manera diferente para interceptar todas las llamadas, en lugar de suplantar las direcciones a las que llama la rutina de tratamiento de las syscalls, modica la rutina de tratamiento con técnicas víricas para ejecutar su propia función cada vez que llega una syscall. Este método, tiene la ventaja de que modicando en un solo punto50 el código fuente, ya hookea todas las syscalls, su funcionamiento es eminentemente vírico. Su funcionamiento es parecido al de un virus, modica el código que se va a ejecutar. Listing 3.17: Líneas que son sobreescritas con un salto a la función. a r c h / i 3 8 6 / k e r n e l / e n t r y . S −−−− 2 # system c a l l h a n d l e r s t u b ENTRY( s y s t e m _ c a l l ) p u s h l %eax # s a v e orig_eax SAVE_ALL GET_THREAD_INFO( %ebp ) 7 cmpl $ ( n r _ s y s c a l l s ) , %eax //−−−> Estas instrucciones seran las que jae syscall_badsys //−−−> sobreescribiremos con nuestro salto . # system c a l l t r a c i n g i n o p e r a t i o n 12 t e s t b $_TIF_SYSCALL_TRACE, TI_FLAGS( %ebp ) jnz syscall_trace_entry 50 En el desarrollo anterior, hay que sustituir tantas direcciones a función como syscalls queremos hookear. 248 syscall_call : c a l l ∗ s y s _ c a l l _ t a b l e (, %eax , 4 ) movl %eax ,EAX( %e s p ) 17 # s t o r e t h e return v a l u e .... −−−− e o f −−−− Exactamente el sistema inserta un salto en la comprobación de si el número de syscall es mayor al permitido (cmpl $(nr_syscalls), %eax ), y el salto condicional a sys_badsys si el número de syscall no es el permitido. Estas acciones debemos realizarlas nosotros mismos dentro de la rutina a la que lleva el salto. Estas dos operaciones ocupan en total 11bytes51 , lo más sencillo será cambiar por un pushl y un ret52 , los cuales ocupan 6 bytes. Este método ha de llevarse a cabo tanto en el handler de sysenter como en el de la interrupción 80, modicando en ambos los bytes concretos (en los dos sitios se realiza la misma comprobación). Por lo tanto mediante este sistema podríamos tener un sistema que logease las interrupciones o llamadas a la función sysenter sin tocar las direcciones de la sys_call_table. El problema que plantea este método es la poca portabilidad que ofrece, dado que el código que sobreescribe es altamente dependiente de la arquitectura sobre la que se ejecuta el sistema, y además la dirección a la que salta es una shellcode53 , que por supuesto, es dependiente de la arquitectura sobre la que se ejecute el sistema. Por lo tanto, este método, aunque limpio y efectivo, se trata de un método ampliamente dependiente de la arquitectura en la que esté implementado. Listing 3.18: Shellcode a la que saltamos cuando se llama a la función. char idt_handler []= // ( el sysenter_handler es identico ) " \ x 9 0 \ x 9 0 \ x 9 0 \ x 9 0 \ x 9 0 \ x 9 0 \ x 9 0 \ x 9 0 \ x 9 0 \ x3d \ x 1 2 \ x 0 1 \ x 0 0 \ x 0 0 \ x 7 3 \ x 0 2 " " \ xeb \ x06 \ x68 \ x90 \ x90 \ x90 \ x90 \ xc3 \ x83 \ x f 8 \ x25 \ x74 \ x06 \ x68 \ x90 \ x90 " " \ x90 \ x90 \ xc3 \ x f f \ x15 \ x90 \ x90 \ x90 \ x90 \ x68 \ x90 \ x90 \ x90 \ x90 \ xc3 " ; Mecanismo elegido, y detalles de implementación del mismo Tras las dos aproximaciones que se desarrollaron, se decidió generar un sistema de recogida de datos mediante la sobreescritura de la sys_call_table, dado que se trata del método arquitectónicamente más neutro y más transparente para el usuario. Por lo tanto el sistema que se ha implementado necesita el archivo System.map original para funcionar. Esto implica que o 51 52 53 6 bytes el salto condicional y 5 la comparación. Inserta un valor en la pila del sistema y salta a él mediante el ret. código ensamblador embebido en el código fuente del LKM. 249 bien se ha compilado el kernel, o bien junto con el mismo se incluyen los archivos System.map originales54 . La naturaleza desestructurada del Kernel de linux, ha puesto alguna traba al desarrollo del proyecto, como las cabeceras de las funciones que han de reemplazar a las originales han de ser exactamente iguales, se hacía necesario buscar las declaraciones de las funciones por todo el árbol de directorios del Kernel. Para automatizar todo este sistema, se desarrolló un script en Shell script, que generaba las funciones necesarias para hookear todas las syscalls del kernel de linux. Otro de los escollos a superar ha sido la comunicación kernel / userland que había que realizar, dado que la intercepción se realiza a nivel de Kernel, y el análisis del mismo se realiza en otra máquina. Este sistema implica que hay que realizar una comunicación kernel-userland, existiendo las siguientes alternativas para que esta comunicación exista: Netlink sockets Kernel-Userland. Dispositivos de caracteres. Dispositivos /proc. Finalmente la comunicación se estableció mediante dispositivos /proc, generando un dispositivo55 mediante el cual se puede controlar el agente, ver estadísticas y para recibir las syscalls logeadas. Listing 3.19: Ejemplo de la creación y destrucción de un dispositovo /proc. 1 static int if __init p r o c _ i n i t ( void ) { ( ( p r o c F i l e = c r e a t e _ p r o c _ e n t r y ( " e j e m p l o " , 0 6 4 4 , NULL) )== NULL) { remove_proc_entry ( " e j e m p l o " , &proc_root ) ; p r i n t k (KERN_ALERT " E r r o r : C o u l d n o t c r e a t e p r o c 6 entry \n" ) ; return −ENOMEM; } p r o c F i l e −>owner = THIS_MODULE; p r o c F i l e −>p r o c_ i o p s = &InodeAllowedOps ; p r o c F i l e −>proc_fops = &FileAllowedOps ; 11 p r o c F i l e −>mode = S_IFREG | S_IRUGO | S_IWUSR; p r o c F i l e −>u i d = 0 ; p r o c F i l e −>g i d = 0 ; p r o c F i l e −>s i z e = 1 0 0 0 ; 54 55 Echo que se da en la gran mayoría de las distribuciones de linux actuales. Concretamente /proc/sysmonitor. 250 return 16 0; } s t a t i c void __exit p r o c _ e x i t ( void ) { remove_proc_entry ( " t e t a " , &proc_root ) ; } La ventaja de utilizar este tipo de dispositivos radica en que su creación es automática, al contrario de los dispositivos de caracteres, para los que hay que ejecutar el comando además permiten la ejecución de comandos como cat, tail..., mknod, de esta manera la utilización del sistema es mucho más sencilla y simple para el usuario, que utilizando mecanismos netlink, en los cuales hay que recompilar el kernel y manejar complejas APIs para realizar dicha comunicación. Otro de los grandes escollos que planteó la implementación del sistema de recolección, fue la sincronización en el kernel y evitar que ocurran condiciones de carrera56 , para lo que se utilizaron sistemas de sincronización a nivel de kernel, esto se da por la naturaleza multiproceso de los sistemas GNU/Linux y que hacen que un proceso pueda pararse en cualquier momento para que su ejecución sea relevada por otro, este proceso plantea el problema de como que algunos procesos pueden escribir en zonas que otro proceso este leyendo. Los sistemas utilizados han sido los siguientes: spin_locks: Cerrojos, que los procesos abren y / o cierran mediante operaciones atómicas57 , y que permiten hacer exclusiva la utilización de un recurso por parte de un proceso. Semáforos a nivel de kernel, con un funcionamiento similar a los semáforos a nivel de usuario. Colas de espera. Mediante estos métodos se ha realizado un sistema de recepción de datos que ante pruebas de stress no pierde datos ni entra en condiciones de carrera. Esta parte es importante dado que un fallo, o un interbloqueo a nivel de kernel, puede ser especialmente dañino, dado que hay grandes posibilidades de que el sistema sufra un kernel panic 58 . Existe una sola situación en la que se desechan datos de syscalls, que es cuando el buer en el que se almacenan los datos se llenan (es decir, no se ha leído lo suciente), para evitar un buer overow. Otra situación que ha habido que solventar es la identicación del proceso, dado que cuando estamos recibiendo la syscalls de un proceso, podemos saber el identicativo del proceso que recibe dichas peticiones, pero no sabemos el nombre del ejecutable, para ello se utiliza un método 56 También conocidas como race conditions, se producen cuando dos o más procesos se quedan interbloqueados a la espera de un recurso que nunca se va a liberar. 57 58 El proceso no se puede quedar a mitad de ejecución de dicha operación. Nombre con el que se conoce a los fallos de Kernel. 251 que permite identicar el ejecutable del que proviene dicho proceso, de esta manera se puede identicar no solamente el nombre del proceso59 , sino el ejecutable responsable de dicho proceso. Listing 3.20: Código que permite saber el ejecutable padre del que proviene el proceso. ∗ GetEXE( void ) i n t char { if ( c u r r e n t −>mm) { struct (vma) { while 5 vm_area_struct ∗ vma = c u r r e n t −>mm−>mmap; if ( ( vma−>vm_flags & VM_EXECUTABLE) && vma−>vm_file ) { char ∗ buf = k m a l l o c (PAGE_SIZE, GFP_KERNEL) ; char ∗p ; if ( buf == NULL) return NULL; memset ( buf , 0 , PAGE_SIZE) ; 10 p = d_path (vma−>vm_file −>f_dentry , vma−>vm_file −>f_vfsmnt , buf , PAGE_SIZE) ; if ( ! IS_ERR( p ) ) { memmove( buf , p , s t r l e n ( p ) + 1 ) ; return ( const char ∗ ) buf ; } 15 k f r e e ( buf ) ; return NULL; } vma = vma−>vm_next ; } } 20 return NULL; } El texto se envía en formato texto plano a la zona de usuario, debiendo el agente de zona de usuario parsear 60 cada cadena de texto para conseguir toda la información. Este agente de zona de usuario, conecta el sistema de recolección de datos con la infraestructura del sistema de análisis de Mendizale, enviando por red la información recogida por el agente en el kernel de linux. 3.2.2. Recogida de información en sistemas Windows Mobile. Windows Mobile es un sistema operativo compacto basado en el API Win32 de Microsoft, que combinado con una serie de aplicaciones especícamente diseñadas para este tipo de sistemas, 59 60 Que se puede obtener del valor comm del task_struct que apunta current. Extraer las diferentes partes de información de una unidad. En este caso concreto de una línea de texto. 252 da soporte a muchos de los dispositivos móviles que se encuentran hoy en el mercado61 . Los sistemas Windows Mobile, en la totalidad de sus versiones Windows CE 3.X, 4.X y 5.X presenta unas características especiales en el manejo de memoria62 , comunicación entre procesos... que hacen imposible reutilizar herramientas desarrolladas para la auditoría de syscalls en sistemas Windows convencionales en este tipo de sistema operativo. Cuestiones de Desarrollo. Los sistemas Windows CE, carecen por completo de sistemas de debuggeo o de programación a bajo nivel, por lo que el desarrollo de cualquier tipo de aplicación o de agente de recolección de información, suponía un gran esfuerzo por parte del equipo de investigación. Afortunadamente, en la última versión del sistema de desarrollo Microsoft Visual Studio 2005, conscientes de la situación que existía, Microsoft ha incorporado funcionalidades de depuración en tiempo real y remotos de aplicaciones para Windows CE. En concreto, la última versión de Windows Device Emulator, soporta la emulación real de aplicaciones para Windows CE en todas sus versiones, lo que permite que una aplicación pueda ser probada y desarrollada en un dispositivo63 que tenga las mismas características y funcionalidades que el dispositivo nal en el que se va a ejecutar la aplicación nal. Este echo ha facilitado la investigación dado que se ha podido emular y desarrollar el agente en un ambiente idéntico al de un dispositivo físico real. De esta manera en este momento es posible debugear directamente sobre el dispositivo físico o sobre el emulador, pudiendo incluso atachearse 64 a procesos activos bien en la máquina real, o en el emulador. Sistema de llamadas al Kernel de Windows CE El sistema de llamadas al kernel de Windows CE, es similar al de sus hermanos mayores, los ejecutables tienen un formato PE65 , por lo que las llamadas al kernel de NT, no se realizan directamente desde los programas sino que se realizan desde diferentes DLL que realizan dichos accesos en lugar del el proceso directamente. 61 A nales del 2004 ya se hizo líder de ventas de software para este tipo de dispositivos por delante de PalmOS. http://www.canalpda.com/displayarticle180.html 62 Los sistemas Windows Mobile, poseen un mecanismo propio de protección de memoria, que establece una capa de abstracción entre la memoria virtual ofrecida por el procesador y la memoria que utilizan los procesadores. Este mecanismo permite controlar los accesos de lectura / escritura a zonas de memoria que no hayan sido reservadas anteriormente en la capa de abstracción[298]. 63 64 Se trata de un dispositivo virtual, pero de las mismas características que un sistema Windows CE normal. Se trata de una técnica de depuración que permite parar procesos en ejecución y ver lo que están ejecutando en cada momento. 65 Portable Ejecutable, formato de archivo ejecutable introducido en la versión 3.1 del kernel de NT. Inspirado en el formato COFF de sistemas Unix-like, mantiene la compatibilidad con todas las versiones de Windows. De ahí el nombre de Portable. 253 Figura 3.14: Esquema del formato Portable Ejecutable Este proceso es similar al que realiza la glibc, en sistemas GNU/Linux, pero en este sistema, las llamadas las realizan diferentes DLLs en vez de una sola librería como la glibc. Dada que la ubicación de las DLL dentro del sistema del usuario puede variar de una instalación a otra, el PE ha de especicar en la cabecera las DLL que va a necesitar, para que el loader resuelva en dinámicamente las dependencias y si es necesario cargue las DLL que no estuvieran cargadas en ese momento. De la misma manera, el formato PE, dene en la IAT66 , las funciones que necesita de las DLL. Desarrollo del sistema de recogida de datos para Windows Mobile Para realizar la recogida de datos necesaria para el proyecto hace falta interceptar en algún punto la llamada en cualquiera de sus fases desde la IAT, hasta el dispacher del kernel de Windows CE. Para realizar dicha aproximación varias opciones fueron barajadas[247], la primera de ellas consistía en la modicación en la memoria permanente de las DLL involucradas en las llamadas al Kernel de Windows CE. De esta manera sería posible inyectar código en cada DLL, o realizar un wrapper67 sobre la misma. Sin embargo este proceso llevaría consigo la necesidad de modicar la memoria ROM de todos los dispositivos en los que se quiere instalar el agente. Soluciones heredadas de sistemas Windows, como la de modicar la IAT de todos los procesos del sistema, o inyección de código en las entradas de las funciones exportadas por las DLL fueron desechadas por el coste computacional que necesitaban y la limitada potencia de cálculo de los sistemas ARM en los que se ejecuta Windows CE. 66 67 La IAT es el lugar donde el cargador escribe las direcciones de las funciones exportadas de alguna DLL. Nombre técnico para un envoltorio software de ciertas funciones o DLLs. 254 Figura 3.15: Esquema de llamadas para ejecutar una operación a nivel de kernel. La única solución una vez desechada las ideas anteriores, fue la de realizar una recogida de datos a nivel de kernel, modicándolo en tiempo real, para que el usuario nal no tenga que realizar pesadas instalaciones ni ralentice el sistema. Para implementar una solución de este tipo, se necesita un gran conocimiento de cómo se enumeran internamente las funciones, y de cómo se trata Windows CE las llamadas a las funciones de su kernel. Pero, afortunadamente Microsoft liberó parte de las especicaciones internas de su sistema operativo para sistemas móviles en el cuál se podían ver la distribución de ciertas estructuras del kernel de linux, y de ciertas llamadas no documentadas del API de Windows CE, en concreto la llamada PerfomCallBack4, ha sido de especial interés para el estudio que ha sido llevado a cabo. Entre los datos que se encontraron en dichas especicaciones, se encuentran varias estructuras de gran importancia como puede ser la KDataStruct, que incluye información interna sobre todo el sistema, y se encuentra siempre en la misma dirección de la memoria68 . Dentro de esta estructura podemos encontrar: SYSHANDLE_OFFSET: que da acceso al proceso actual. KINFO_OFFSET: que da acceso a un array de estructuras UserKInfo, que poseen informaciones tan importantes como la lista de módulos, el heap del kernel, y la importantísima tabla de punteros a las API, SystenAPISets. En Windows CE existen dos tipos de API, las implícitas y las basadas en handles . Las primeras son accesibles de forma global mediante el uso de la tabla de punteros a las API, encon68 En concreto se encuentra en las direcciones 0xFFFFC800 para el procesador ARM y 0x00005800 para el resto de CPU soportadas por el sistema. 255 Figura 3.16: Esquema de la información contenida en la estructura KDataStruct trándose indexadas por su el identicativo de su categoría (SH_WIN32, SH_GDI, SH_WMGR, etc.) y su número de API. Este tipo de interfaces, se encuentran contenidas en objetos de kernel como mutex o eventos y son referenciadas mediante su número de API y el puntero (handle) al objeto que las contiene. Este tipo de APIs no son actualmente monitorizadas por el agente desarrollado. En los sistemas Windows CE, las llamadas a las funciones del kernel, se realizan mediante la llamada a unas direcciones de memoria especiales llamadas traps , que generan una excepción que son gestionadas por el dispacher del kernel de Windows CE. La manera más limpia y rápida de realizar una auditoría de las syscalls que ocurren en un sistema Windows CE, es modicar los punteros de las funciones que realizan la gestión de las excepciones generadas por los traps, para registrar los datos que nos son relevante para luego devolver el control a la función original suplantada por nuestro agente. Como algunas funciones del Kernel de Windows CE, realizan una comprobación de que el propietario del thread en ejecución lo que hace que el agente deba de residir dentro del propio thread. Además como ya se ha comentado con anterioridad, las llamadas a las funciones del kernel de Windows CE, se abstraen dentro de llamadas a DLLs, en este caso, existe una DLL, coredll.dll, que mantiene una caché con las direcciones de las funciones que tratan las llamadas, por lo tanto mediante este sistema que hemos explicado, ocurre el problema de que las funciones que son llamadas desde coredll.dll, no serían redireccionadas debido a la caché que mantiene en su interior. Para ello, si queremos también capturar las llamadas de la librería core.dll, habremos de modicar las la cache de la librería para todos los procesos. Al igual que en los procesos en Windows NT/2000, la inyección de una DLL, pasa por funciones no documentadas, en este caso PerfomCallBack4, que provoca la creación de un thread 256 Figura 3.17: Detalle de interfaz de usuario del agente. remotamente en el proceso que se desee. La inyección previa de un código binario que efectúe la llamada a loadlibrary, hace el resto. Existe también la necesidad de monitorizar también las llamadas de los nuevos procesos que se creen y no solamente de los que ya existan el sistema en el momento de la carga, por lo que también es necesario monitorizar la llamada CreateProcess de la API del kernel, para realizar el mismo proceso con los nuevos procesos. Por lo tanto una vez denida la metodología a seguir, se dividió el desarrollo en dos partes separadas: El apartado de modicación de la caché de coredll.dll, de la inyección de una dll en todos los procesos que llamen a las funciones nuestras, y la monitorización de la función CreateProcess, para realizar lo mismo con los procesos nuevos. El apartado de comunicación con la infraestructura de Mendizale y de interfaz de usuario. La comunicación entre ambos componentes se realiza mediante la librería HTRACE[356], que permite la comunicación entre las dos partes del sistema mediante memoria compartida implementado como un buer circular. El apartado de comunicación con la infraestructura de Mendizale, lo que realiza es leer las llamadas al Kernel de Windows CE del buer circular, y enviarla mediante una conexión TCP a la infraestructura. La gestión de la conguración y de la interfaz de usuario sigue dos caminos separados, por una parte la conguración de las llamadas que son capturadas y las que no, cuestión que sea realiza mediante un chero XML, en el que se especica qué llamadas son capturadas y cuáles no. Por otra parte se puede congurar el puerto y dirección ip a la que se puede enviar el resultado de la captura de las llamadas mediante la interfaz gráca, que es minimalista pero muy potente. El sistema inserta un icono en el systray de Windows Mobile, estando en todo momento visible y mostrando menús de conguración con el botón derecho del ratón. Este sistema de interfaz gráca también permite parar y arrancar el sistema de logeo de las llamadas, lo que permite al usuario del sistema nal controlar solamente los aspectos necesarios para él. 257 3.2.3. Recogida de información en sistemas Windows. Tradicionalmente Microsoft no ha caracterizado por permitir al usuario nal acceder a bajo nivel a su plataforma Windows. Sin embargo la gran cantidad de usuarios que utilizan esta plataforma siempre ofrece gran cantidad de información a los investigadores de los sistemas operativos. Desde que Desde que Windows 95 viera la luz en Agosto de 1995, se han publicado muchos estudios y ensayos, sobre su funcionamiento interno y programación a bajo nivel. Gran parte de estas investigaciones han sido llevadas a cabo por la comunidad de programadores de virus[315] , que vieron en esta plataforma un entorno ideal al que migrar sus creaciones. Actualmente, existen 3 grandes ramas en el mundo Windows. Por una parte tenemos la conocida rama 9x, surgida del nacimiento de Windows 95, y dirigida al mercado doméstico. Dada su orientación, la rama 9x carece de mecanismos de seguridad avanzados y permite una gran exibilidad y compatibilidad con aplicaciones heredadas de MSDOS y Windows 3.x. La rama 9x comprende también los sistemas operativos Windows 98 (1998) y Windows Millenium, además de las diferentes revisiones de los mismos, Windows 95 OSR2, Windows 98 SE, etc. Por otra parte encontramos la rama NT (New Tecnology), que surgió en la década de los noventa con una clara vocación profesional, esta familia de sistemas operativos (Windows NT 3.X, Windows NT 3.5.X, Windows NT 4.X y Windows 2000), ofrecían una robustez y abilidad ampliamente superior a los sistemas Windows 9X, que tenían un marcado carácter doméstico. El comienzo de milenio, trajo consigo la eliminación por parte de Microsoft de la rama Windows 9X, para ofrecer dos versiones de su sistema Windows XP, la versión Home Edition, y la versión Professional, que ha disfrutado de una amplia difusión y fama en los sistemas profesionales y privados, que puede considerarse como parte de la familia NT, ya que se trata de una evolución de los sistemas NT. De las misma manera los sistemas Windows 2003 (en todas sus versiones), también con un marcado carácter profesional, se consideran dentro de los sistemas NT. Otra de las ramas de los sistemas Windows, se trata de su versión para dispositivos móviles con recursos limitados, como pueden ser PDAs o Tablet PC, Windows CE, tanto en sus versiones CE4.1 (Windows Mobile 2003SE), ó CE 5.0 (Windows Mobile 2005). Para nalizar, y con la inminente comercialización de los sistemas Windows Vista, surge la última versión de Windows para PC con grandes cambios muy novedosos sobre las ramas anteriores. Actualmente el mercado doméstico de Microsoft esta copado con Microsoft Windows XP. El mercado profesional utiliza también Windows XP (Professional) para escritorio, y Windows 2000 y 2003 para servidores. El agente de recogida de información desarrollado está destinado a su uso en sistemas operativos de la rama NT, a partir de Windows 2000, cubriendo de esta manera la casi totalidad del mercado actual. 258 Métodos de recogida de datos en sistemas Windows Los sistemas de Microsoft Windows, funcionan a en dos niveles ofrecidos por la arquitectura i386, los niveles 0, y 3 respectivamente. El kernel se ejecuta en nivel 0 (ring 0), y las aplicaciones y procesos del sistema lo hacen a nivel 3 (ring 3). Microsoft siempre ha tenido gran cuidado con mimar la compatibilidad entre sus plataformas mediante la plataforma Win32, es decir, que una aplicación desarrollada en un sistema Windows de la rama 9x, funciona igualmente en otro sistema de la rama NT. Dado que en ambas ramas, el kernel es totalmente diferente en las dos ramas de Windows, también lo son los procedimientos de llamada y de retorno de datos a la zona de usuario. Con el n de salvar esta problemática en compatibilidad, los procesos de zona de usuario, nunca llamarán directamente al kernel de Windows, sino que lo harán mediante la capa Win32, la cuál, se encargará de la comunicación con el Kernel. La capa win32 esta compuesta por una serie de DLLs del sistema que exportan un conjunto de funciones similares, tanto en 9x como en NT, a los programas de usuario. A este conjunto de funciones exportadas se le denomina la API win32. A pesar de que la API ofrecida por la capa Win32, sea similar en todos los sistemas Windows, la implementación interna de dicha capa, y de la comunicación con el kernel de Windows es completamente diferente entre los diferentes sistemas. Por lo tanto la capa Win32, ofrece un nivel de abstracción clave para el mantenimiento de la compatibilidad entre diferentes sistemas Windows. En el caso de la rama NT, la comunicación kernel - zona de usuario se realiza mediante dos mecanismos diferenciados : Mediante la interrupción 2E que al igual que la interrupción 80 en sistemas GNU/linux es gestionada en zona Kernel, las DLL que forman la estructura de Win32, suelen terminar su ejecución mediante la llamada a la interrupción int2Eh. Listing 3.21: Utilizanción de int2Eh en Windows 2 MOV EAX, SyscallNumber ; LEA EDX, [ ESP+4] ; EDX = p a r a m s . . . INT 2Eh requested ; throw ; return the syscall number execution to the KM h a n d l e r RET 4 ∗NUMBER_OF_PARAMS Mediante la utilización de la instrucción optimizada sysenter[152] que realiza una ejecución más rápida[31] que los sistemas tradicionales. Listing 3.22: Utilizanción de int2Eh en Windows push fn ; 259 push syscall number pop eax ; EAX = s y s c a l l push eax ; this call b ; put normalize one number makes no caller diff address on stack 5 b: r: add [ esp ] , ( o f f s e t r − o f f s e t b ) ; mov edx , esp ; EDX = s t a c k db 0 fh , 34h ; SYSENTER i n s t r u c t i o n add esp , ; ( param ∗ 4 ) normalize stack stack De forma general, el sistema Win32, sigue utilizando la interrupción 2E, en lugar de la optimizada sysenter, por lo que un debugger an nivel de usuario podría recoger la información de las llamadas a las DLL, hasta que éstas efectúen la llamada al kernel de NT mediante dicha interrupción. Por ejemplo, una llamada a la función ExitProcess de Kernel32.dll, prepara los argumentos para la llamada ZwTerminateProcess en NTdll.dll, la cuál genera llamando a KiFastSystemCall, una interrupción 2e. De todo este funcionamiento se puede deducir, que existen dos maneras de monitorizar las llamadas a el Kernel de Windows, una a nivel de zona de usuario, recibiendo las llamadas a las DLL que conforman la capa Win32, y otra a nivel de Kernel, recibiendo las llamadas que realizan dichas DLL al kernel de NT. 260 Figura 3.18: Esquema de memoria de NT, y posible puntos de recolección de datos. Monitorización de llamadas a la API Win32 Por lo tanto el método a alto nivel, o a nivel de zona de usuario sería interceptar las llamadas a la API de Win32 que estandariza las llamadas al kernel de Windows. Para realizar esta acción, existen diversos métodos, que permiten recoger información de este tipo de llamadas, interponiendo el agente encargado de la recolección de datos entre el llamador y el llamado en la función. A continuación se enumeran las opciones posibles que se han contemplado para la implementación del agente a este nivel de el sistema operativo Windows. Monitorización de la tabla de informaciones Cuando un proceso hace uso de una llamada a una función implementada en una DLL, los procesos no se limitan a saltar a la dirección de la función exportada. De echo aunque la dirección de la función exportada se mapea en el propio espacio de direcciones de el proceso, no se garantiza que las direcciones sean las mismas para todos los procesos, ni de que los desplazamientos para la función exportada se mantenga entre diferentes sistemas operativos. 261 Este echo, puede ser fácilmente observado comparando con un debugger que las direcciones de las funciones exportadas por el sistema para una misma función en los sistemas operativos Windows 2000 y Windows NT, son diferentes. Si diseñamos en ensamblador un programa que efectúe una llamada a ExitProcess asumiendo como ja su ubicación en memoria para Windows XP, veremos como la ejecución de dicho programa en un Windows 2000, u otro sistema operativo Microsoft, resulta en una excepción. Los primeros ataques informáticos en forma de virus y shellcodes (ataques de inyección de código), tomaban como jas las direcciones de memoria de las API que requerían, de tal manera que eran especícos para una versión de Windows, fallando su aplicación genérica al resto de versiones. En ocasiones, esta especicidad es tan grande que su aplicación para la misma versión del sistema operativo, pero en distintos idiomas, no es viable. Los primeros ataques informáticos en forma de virus y shellcodes (ataques de inyección de código), tomaban como jas las direcciones de memoria de las API que requerían, de tal manera que eran especícos para una versión de Windows, fallando su aplicación genérica al resto de versiones. En ocasiones, esta especicidad es tan grande que su aplicación para la misma versión del sistema operativo, pero en distintos idiomas, no es viable. Parece claro entonces que el proceso no puede asumir una posición ja para las funciones exportadas por las DLL. Lo que ocurre en realidad es que el proceso de usuario realiza una llamada a la API, de una forma indirecta a través de la tabla de importaciones (IAT)69 . Todos los programas win32 poseen formato PE (Portable Ejecutable), donde el .EXE se encuentra dividido en un serie de cabeceras y secciones. Una parte de la cabecera PE esta formada por la tabla de importaciones IAT, donde el programa expresa al cargador de Windows, la lista de dependencias con funciones de DLLs. El cargador del sistema operativo, realizará en el momento de la ejecución de dicho programa, un mapeo de las DLLs necesarias donde del espacio de direcciones del proceso, y una resolución dinámica de las funciones requeridas en la IAT. Se puede pensar en la IAT, como un largo conjunto de buzones, donde en cada uno existe una etiqueta que indica el nombre de la función y la DLL que la contiene. El cargador de Windows, se encargará en tiempo de carga, de introducir un papel en cada buzón indicando la dirección de memoria absoluta de dicha función. Posteriormente el proceso de usuario, cuando efectúa una llamada a una API como ExitProcess, tan solo realiza un salto indirecto sobre la IAT. De esta forma se garantiza una total compatibilidad entre diferentes versiones de Windows. La técnica de interposición basada en la modicación de la IAT, consiste en la modicación de la tabla de importaciones de todos los procesos existentes, y de los nuevos generados. Esto se puede hacer mediante el uso de ciertas APIs de Windows que permiten la escritura en la memoria de otros procesos. El único problema es que la función trampolín a la que se redireccionará cada API interpuesta, ha de residir en el espacio de direcciones de memoria del proceso remoto. La 69 Inport Address Table. 262 forma más sencilla de implementar esto es introduciendo todo el sistema de monitorización en una DLL, y mapeando posteriormente dicha DLL en el espacio de direcciones de memoria del proceso remoto al cual se pretende monitorizar. Esto se consigue mediante la introducción y ejecución de un pequeño trozo de código ejecutable en el proceso remoto, que se encargue de realizar una llamada a la API (LoadLibrary) que realice la carga de la DLL[218]. Existe un pequeño problema con la implementación de esta técnica de interposición. En ocasiones, el proceso tan solo llama a un pequeño conjunto de funciones de DLL, presentes en su IAT, y son estas DLLs las que internamente efectúan las llamadas a las DLLs del sistema. Para evitar que estas llamadas pasaran desapercibidas (ya que no usan la IAT del proceso, sino la IAT de la propia DLL que las contiene), hay que realizar recursivamente el proceso de modicación de la IAT para todas las DLL utilizadas por el proceso. Además, en ocasiones los procesos utilizan la carga y resolución dinámica de funciones de DLLs, utilizando para ello las API LoadLibrary() y GetProcAddress. Con el n de detectar esto último para realizar la modicación de la IAT de las nuevas API, es necesario interponer sendas API LoadLibrary y GetProcAddress, para llamar en su ejecución al proceso de modicación de IAT, antes de retornar el control al proceso que realizó la llamada. Existen numerosas herramientas que implementan esta técnica, y todos ellos adolecen un grave problema que sugiere la utilización de otro tipo de técnica para implementación de nuestro agente. Además, esta técnica para la interposición tan solo es efectiva cuando el proceso utiliza método estándar para la resolución de la API. En efecto todos los procesos tienen la garantía de utilizar este tipo de métodos, pero bajo los efectos de un ataque la situación cambia. En los ataques de inyección de código, como por ejemplo los buer overfLow, un pequeño trozo de código, llamado shellcode, es insertado y ejecutado dentro del proceso remoto atacado. Esta shellcode efectúa una serie de acciones sobre el sistema que resultarán en una vulneración de la seguridad del mismo. La shellcode requiere de la llamada a APIs y por tanto ha de resolverlas dinámicamente. Si bien es cierto que la shellcode podría utilizar la IAT para la resolución de la dirección de las APIs, buscando en memoria el inicio de la tabla, existen otros métodos mucho más efectivos para realizar dicha resolución que no toman la IAT como referencia[250]. Uno de ellos, por ejemplo, es la utilización del PEB (Program Execution Block) del proceso para obtener la base de la dirección en memoria de kernel32.dll a n de localizar su tabla de exportaciones para resolver todos sus métodos. Al no utilizar la shellcode la IAT en su proceso de resolución, no se vería afectada por el engaño de la modicación de la IAT, y sus llamadas pasarían totalmente desapercibidas a ojos del agente HIDS. El HIDS sería en este contexto totalmente incapaz de detectar ninguna modicación entre las APIs llamadas por un proceso sano y uno que se encontrara bajo ataque. En resumen, la interposición por modicación de IAT se muestra muy efectiva para el mode- 263 Figura 3.19: Ejemplo de modicación de memoria en el punto de inicio lado de procesos en situaciones normales, pero gravemente incapaz de modelar todos los comportamientos de ataque. Por ello se ha descartado este método para la implementación de nuestro agente. Envolviendo DLLs Otra técnica de interposición posible, consiste en la modicación en disco de todas las DLLs del sistema (capa win32) a n de modicar el inicio de todas sus funciones para incluir el código necesario para monitorizar su uso por parte del agente. Un forma sencilla de implementar esta técnica, es la creación de DLLs envoltorio con las mismas funciones exportadas que las originales. Cada función exportada sería simplemente una función trampolín hacia la función original de la DLL real. Esta técnica no resulta viable para su aplicación en nuestro HIDS ya que implicaría la modicación permanente en disco de importantes archivos de sistema, complicando de esta forma la distribución e instalación del agente en sistemas en producción. Modicando en memoria el punto de inicio de las API Win32 Otra aproximación posible es la modicación en memoria, en tiempo real, del inicio de todas las funciones relevantes exportadas por las DLLs de sistema, para incluir una llamada a una rutina del agente que realice la monitorización de la misma antes de devolver el control a la API original. Para simplicar el proceso, los bytes sobrescritos por el CALL introducido habrán de ser restituidos (ejecutables) antes de que el control sea retornado. De esta manera el sistema, queda igual una vez que se ha dejado de monitorizar las llamadas al API. 264 Este método es mas directo que la modicación de la IAT y no requiere ser realizado recursivamente por cada DLL, o la monitorización del uso de GetProcAddress. En efecto, al realizar la interposición en el inicio de la cada función exportada, ésta es aplicable a todas las otras DLL del proceso así como al proceso en si mismo. Dado que cada DLL es mapeada de forma independiente en el espacio de direcciones de memoria de cada proceso de usuario del sistema, la modicación de una de ellas no implica el cambio de la misma en el resto de los procesos (no se encuentra en memoria compartida). Por lo tanto el proceso de interposición habrá de realizarse para todos los procesos del sistema, existiendo la necesidad de monitorizar la ejecución de nuevos procesos (mediante la interposición de la API CreateProcess), a n de realizar el mismo proceso con ellos. Finalmente, las funciones trampolín que se interponen a la llamada a las API originales, han de residir en el mismo espacio de direcciones de memoria del proceso que efectúa la llamada. Para que esto se cumpla, dichas funciones han de ser introducidas en la memoria del propio proceso. Existe una librería, llamada Detours [168], provista por Microsoft Research que implementa este método de interposición. Detours automatiza el proceso de modicación del inicio de las APIs requeridas y la gestión de la inyección remota de la DLL. Las funciones trampolín residen por tanto en una DLL que es insertada en el proceso a monitorizar (o en todos si se desean monitorizar todos), para comunicar mediante un PIPE, toda la monitorización realizada. Interposición de llamadas al sistema en modo kernel Al contrario que el resto de los métodos de monitorización que eran implementados a nivel de usuario (ring-3), se presenta también la posibilidad de implementar la interposición a nivel de kernel. Como ya se ha comentado, las DLL del sistema terminan efectuando llamadas al kernel mediante la interrupción 2e, o la instrucción sysenter. El kernel posee un dispatcher que redirecciona la ejecución a la función correspondiente indicada en los registros del procesador. Para ello el dispatcher, utiliza la tabla de punteros a servicios (system service table) que contiene la ubicación en memoria de las distintas funciones de kernel. Modicando dicha tabla de punteros a servicio, es posible redireccionar la llamada a las mismas a nuestras funciones trampolín, que tras registrar su ejecución, redireccionarán el control a las originales. Las funciones trampolín habrán por tanto de residir a nivel de kernel ring-0, y el efecto de la interposición será global a todos los procesos. Existe una librería provista por la empresa BlindView, recientemente adquirida por Symantec, que implementa esta técnica para la monitorización genérica de llamadas al sistema. Su nombre es strace[38]. Strace esta compuesto por un driver (.SYS) que corre a nivel de kernel, conteniendo las fun- 265 Figura 3.20: Esquema de funcionamiento de la librería strace 266 ciones trampolín y realizando la modicación de la tabla de punteros a servicios, y un programa de usuario que se comunica con el driver de kernel mediante una tubería (named pipe). Efectividad de los diferentes métodos de interposición, para el modelado de procesos en el HIDS. Al igual que en el caso de GNU/Linux, la efectividad de un HIDS por modelado de syscalls en la plataforma Windows, depende de la capacidad del agente para monitorizar todas las syscalls generadas, incluso aquellas realizadas a bajo nivel por los ataques y el malware, y de la hipótesis que un ataque es una desviación visible de las secuencias normales de llamadas la sistema del proceso. Este último punto ya ha sido demostrado en otros estudios[375] para otras plataformas UNIX (Solaris) y también ha sido demostrado para GNU/Linux en apartados anteriores. En este apartado nos centraremos en su demostración práctica para la Windows 2000/XP. También estudiaremos la capacidad del agente desarrollado, explicado en detalle en el apartado anterior, para la detección de las syscalls generadas por los procesos y el malware. En el apartado de GNU/Linux nos centramos en el estudio de las llamadas al sistema para ataques de inyección de código. En Windows hemos reproducido los mismos experimentos, utilizando sencillos programas vulnerables que escuchan puertos de red, y creando exploits en Python que los atacan. Los resultados se muestran similares a los obtenidos con GNU/Linux, pero con algunas matizaciones importantes que pasaremos a relatar. Para la monitorización de los exploits hemos utilizado la librería strace y también Detours, con el n de determinar la diferencia entre las mismas, y seleccionar la más adecuada para su implementación en el agente. En términos generales Detours se muestra mas precisa a la hora de trazar el comportamiento del proceso bajo ataque, ya que strace se muestra incapaz de reejar ciertas acciones como la escritura de datos en un socket. Strace por otro lado, se muestra mucho más ecaz para la detección de llamadas al sistema efectuadas a bajo nivel por parte de ciertas shellcodes, para las cuales Detours no detecta nada. A pesar de que los procesos de usuario siempre utilizan la API de Windows para efectuar llamadas al sistema, las shellcodes por el contrario suelen muchas veces realizar las llamadas a bajo nivel ejecutando directamente la int2e o el procedimiento syscall. Detours además presenta gravísimos problemas de rendimiento al intentar monitorizar un gran conjunto de syscalls (1400 en nuestras pruebas) dejando el sistema prácticamente inutilizable. Además de demostrar su viabilidad para la detección de ataques de inyección de código, hemos querido determinar su capacidad para la detección de malware para lo cual se ha monitorizado la acción de un virus informático del tipo win32. Para las pruebas hemos monitorizado las llamadas al sistema generadas por un proceso note- 267 Figura 3.21: Monitorización de syscalls de un proceso infectado con el virus Satir.994 utilizando strace pad sin infectar, y las hemos comparado con el mismo proceso una vez infectado. Observamos que en la diferencia encontramos las acciones del virus, muchas de las cuales son traducidas en llamadas al sistema, que nuestro agente es capaz de monitorizar. Esta observación abre la puerta a la utilización de modelos para detección mediante patrones o anomalías. Diseño e implementación del agente El agente desarrollado para Windows 2000/XP implementa la técnica de interposición de llamadas al sistema mediante la modicación de la tabla de punteros a servicios (system service table), a nivel de kernel (ring-0). El agente esta compuesto por 2 componentes principales, uno que corre a nivel de kernel (ring-0) y otro a nivel de proceso de usuario (ring-3). El componente de kernel hace uso del driver provisto por la librería strace[38] de BlindView c . Dicho driver permite la interposición de syscalls en sus diversas categorías, posibilitando la selección de las mismas en base a ltros. La comunicación con el componente de nivel de usuario se realiza mediante una tubería, desde la cual el proceso de usuario recibe la información que procesará y enviará por socket al Head DFSU. El componente de nivel de usuario ofrece también una rica interfaz gráca al usuario donde éste podrá especicar el alcance de la monitorización del agente. La interfaz se divide en distintos tabulados donde podemos especicar el conjunto de procesos a los que aplicar la monitorización y el destino de la misma, chero o DFSU remoto. Por otra parte también es posible seleccionar la extensión de la monitorización, especicando por categorías las llamadas al sistema que serán monitorizadas. Las diferentes pruebas sobre los sistemas Windows 2000 y Windows XP sp2 arrojan resultados positivos, mostrando muy poca sobrecarga en el sistema. Sin embargo aún existe algún problema de compatibilidad no resuelto. En Windows XP con service pack 2 instalado, es necesario desactivar en registro la protección 268 Figura 3.22: Interfaz de usuario del agente, menús generales. Figura 3.23: Menú de selección de syscalls hookeadas 269 Figura 3.24: Simplicación de la arquitectura de Symbian OS de memoria con el n de que el agente pueda modicar la tabla de llamadas a servicios a nivel de kernel. 3.2.4. Recogida de información en sistemas Symbian OS. Para comenzar a explicar las diferentes formas en las que se puede capturar la interacción del usuario con las aplicaciones y de éstas con el sistema operativo conviene introducir los mecanismos internos y la arquitectura de funcionamiento de este tipo de terminales móviles. Centrando un poco más el tema, en la siguiente gura se hace un resumen de lo que sería la plataforma diseñada por los desarrolladores de este sistema operativo: Symbian OS es una arquitectura que toma las bondades de los sistemas monolínitico y los basados en microkernels, es decir, que integra funcionalidades de ambos. Se dispone de un hilo en ejecución con la prioridad más alta para todo el sistema que se denomina nanokernel. Éste hilo supervisor se encarga de tareas como la sincronización y la organización temporal entre los diferentes procesos que se tienen en ejecución, así mismo desempeña funciones de mantenimiento y acceso a bajo nivel, proporcionando una interacción que cumpla con los exigentes requisitos de las pilas de comunicación GSM/GPRS/UMTS, dado que es objetivo fundamental el cumplir los tiempos y latencias para poder funcionar correctamente con este tipo de redes. Por otra parte, por encima del nanokernel se tiene la parte denominada núcleo (kernel) 270 propiamente, que se ocupa de tareas más complejas: acceso a objetos más complejos (hilos de modo usuario, procesos, manipuladores de objetos del sistema, librerías cargadas dinámicamente, comunicación entre procesos, etc.). A su vez proporciona una sincronización para objetos más compleja que el nanokernel, si bien a diferencia del anterior, esta parte no puede alojar memoria dinámicamente. Dado que no ha sido diseñado el kernel para manipulación de memoria del terminal, esta parte se ha dejado por completo a cargo del modelo de memoria, implementado como servicio del kernel en vez de estar embebido dentro del código del mismo. Los semáforos, mutex, y elementos de sincronización que son proporcionados por el nanokernel, son utilizados por el kernel para poder crear hilos de ejecución de procesos sincronizados, para conseguir comunicar entre sí diferentes procesos y para manipular los diferentes arrays de manipuladores que integran este sistema operativo. El modelo de memoria extraído del núcleo en sí mismo, denominado ASIC, se encarga y encapsula de manipular si una cache (entendida como porción de memoria) va a estar alojada en espacio virtual o en espacio físico. Proporcionando una serie de accesos diferentes para la aplicación que lo requiera: Acceso directo (sin hacer uso de la MMU) Movimiento entre partes (parecido a como se realizaba en versiones anteriores EKA170 ) Acceso múltiple. Acceso realizado para el emulador de Symbian OS71 . El modelo de memoria proporciona servicios de manipulación de memoria a bajo nivel, como por ejemplo el mapeo por proceso de su espacio de direcciones, se encarga cuando se le pide del cambio de contexto adecuado en la sincronización y es parte fundamental para lograr la comunicación entre procesos del terminal. Así mismo es importante su función a la hora de creación de procesos haciendo uso del servidor de cheros del sistema72 70 Actualmente se habla mayoritariamente de EKA2, que es la arquitectura de diseño y desarrollo que se esta llevando a cabo por los desarrolladores de Symbian OS 71 Como se verá más adelante, la arquitectura ha sido desarrollada para dos soportes hardware diferentes. La primera es para los propios terminales móviles y la segunda es para facilitiar el desarrollo con pcs ordinarios, de forma que es posible trabajar con este sistema operativo de forma emulada en un ordenador convencional basado en IA-32 y sistema operativo Windows, GNU/Linux o MacOS. 72 Symbian OS confía en la denición de servicio para la implementación del kernel. De esta forma ha desarrollado servidores especializados, como en este caso el servidor de cheros, de forma que si hay que tocar algo de la memoria física de archivos, de donde habrá que copiar el código fuente de la aplicación para ponerla en ejecución (los cheros ejecutables tienen una forma de estructuración parecida al formato PE de Windows, se denominan E32, disponible en http://newlc.com/El-formato-de-los-cheros.html), se encargue de forma única este servidor. 271 Figura 3.25: Formato interno de los cheros ejecutables y librerías para Symbian OS Como se ha indicado anteriormente, este tipo de terminales requieren de funcionalidades especícas para poder trabajar con la red de GSM/GPRS/UMTS, por lo que disponen de dos procesadores arquitecturalmente hablando. Uno se hace cargo de mantener operativo el sistema operativo funcionando, mientras que el otro se encarga de realizar las operaciones que se requieran para las transaciones dentro de la red de comunicaciones correspondientes. Figura 3.26: Modelo simplicado de la arquitectura de procesadores de un terminal Symbian OS Ya entrando a nivel de software desarrollable se encuentran los drivers de dispositivo, su función es la de controlar los diferentes periféricos de los que dispone el sistema. Estos drivers proporcionan la interfaz requerida entre esos periféricos y el resto del sistema Symbian OS. Más adelante se volverá sobre este tema, con los drivers LDD y PDD. Así mismo más adelante se explicara junto con los drivers un subconjunto de los mismos, denominado Extensiones, que son aquellos drivers que se cargan nada más arrancar el mismo (bootstrap process). Estós últimos se emplean generalmente para inicializar los dispositivos pero han sido usados para otras funciones 272 menos agraciadas73 Otra pieza clave es la librería que hace de nexo entre el ejecutivo (núcleo o kernel) y los procesos o aplicaciones de zona de usuario. Esta librería se denomina EUSER.DLL y proporciona los siguientes servicios: Ejecución de métodos que enteramente se quedan en la zona de usuario. Como pueden ser la manipulacion de cadenas de texto74 . Acceso a las funciones del kernel que sean requeridas por un proceso. Estas operaciones son privilegiadas, es decir, que un proceso o aplicación no puede hacer uso de las mismas directamente. Acceso a funciones que le indiquen al kernel que debe modicar su propia memoria, como pueden ser las de manipulación de hilos, creación de procesos o carga de una librería. Para dar por concluida esta primera fase de aproximación al conocimiento de este sistema operativo se presenta a continuación una imagen indicativa de las diferentes capas que tiene el kernel: Figura 3.27: Capas del núcleo de Symbian OS Otra parte importante son las librerías cargadas dinámicamente (DLL), el núcleo crea un objeto de librería para cada DLL que se cargue explícitamente en un proceso de usuario, esto implica que los estos objetos son especícos y pertenecen exclusivamente al proceso para el que 73 El virus Cabir, o Caribe, y sus diferentes versiones, si bien no llegan a infectar el terminal propiamente. No llegan a cambiar el código fuente o el de ejecución de las aplicaciones. Se valen de este tipo de drivers para lanzar un proceso o aplicación durante el arranque del terminal. Este proceso es quien se encarga de escanear por Bluetooth (una tecnología de comunicación inalámbrica) y enviar una copia del propio virus. Ha sido la voz de alarma para las entidades y organizaciones antivirales de la necesidad de introducir productos para los terminales móviles Symbian OS. 74 En Symbian OS las cadenas de texto o strings de otros lenguajes se denen como Descriptores y se dispone de una serie de Macros que implementa la librería EUSER.DLL para trabajar con ellos convenientemente. 273 fueron creados hasta el punto de que si dos procesos comparten la misma librería, el núcleo realiza dos objetos para representarla diferentes. Llamadas al sistema en Symbian OS En Symbian las llamadas al sistema se denominan Executive Call 75 y son el mecanismo pro- porcionado por el núcleo al código de zona de usuario para dar acceso al mismo a sus servicios. Estas llamadas ejecutivas empiezan como una función en zona de usuario y después se sirven de una excepción76 como puerta de enlace para permitirles solicitar código de modo kernel. En la implementación hardware de los terminales móviles con Symbian OS, generalmente una interrupción se activa mediante una instrucción SWI y esta en la arquitectura ARM solo se dispone de una para pasar a modo privilegiado. Por este motivo se usa un repartidor en el nanokernel para decodicar un parámetro pasado desde zona de usuario (opcode) en la instrucción SWI y con él poder determinar la función a la que tiene que llamar el repartidor (dispatcher). Este mecanismo de llamadas da como resultado un bajo acoplamiento entre el kernel y los procesos de usuario, con lo que se pueden realizar cambios en la implementación o en el diseño de ambas partes sin afectar al resto del sistema operativo de forma sencilla. El ujo de ejecución de una executive call esta reejado en la gura: Figura 3.28: Llamada ejecutiva al kernel de Symbian OS Si se asume que se ha producido una llamada desde un hilo en ejecución en espacio de usuario 75 76 Llamada ejecutiva o llamada al ejecutivo, conocido también como el núcleo o el kernel. En otros sistemas operativos esto se conoce como la interrupción de solicitud. En el kernel de Linux se hace uso de la interrupción int80h y en MS-Dos/Windows de la int20h. El tratamiento de excepciones y de interrupciones funciona de maneja semejante en las arquitecturas ARM, PPC o IA-32/64. 274 como la siguiente, en la que se pide una porción de memoria compartida: Figura 3.29: Código fuente en el que se realiza la llamada para reservar una porción de memoria El fragmento de código anterior solicita la creación de una porción de memoria y almacena el manipulador que se le devuelve para poder referenciar a este espacio. Lo siguiente es encontrar la dirección base del espacio que se consigue mediante el método RChunk::Base(), un método que se encuentra denido dentro de la librería de usuario EUSER.DLL. El paso 2 se realiza dentro de la propia librería aparte de realizar una serie de funciones para realizar la función solicitada acaba con una interrupción: SWI EExecChunkBase, donde EExecChunkBase es el opcode necesario para el kernel. En el paso 3 ya interviene el dispatcher del nanokernel y dado que esto es una llamada rápida (más adelante se volverá sobre este tipo de llamadas) se busca en una tabla de parejas de entradas de 32 bits que referencian a la llamada que se ha de realizar. Finalmente tras procesar el paso 3 dentro del nanokernel se requiere hacer uso de otra parte del núcleo al margen del propio dispatcher quien se encargará de realizara las operaciones necesarias para la solicitud del proceso en zona de usuario (pasos 4 y 5). Denotar que las llamadas ejecutivas se realizan en el espacio y contexto del hilo que las solicita, lo que implica que no se ha salido del espacio de memoria del proceso en cuestión, con lo que no es posible machacar zonas de memoria de otros procesos haciendo uso de este mecanismo. Si bien es posible que una vez llegado a código de kernel privilegiado poder solicitar el acceso a memoria del sistema en general, aunque para ello se requiere realizar una modicación de la información contenida en ROM del terminal móvil, solución bastante compleja para realizar una infección vírica. Ahora se va a comentar las diferencias y la forma de funcionamiento de las llamadas ejecutivas rápidas y las lentas: Slow executive calls Estas llamadas se ejecutan con las interrupciones habilitadas y con el kernel desbloqueado, lo que implica que pueden ser interrumpidas y cambiadas de orden en la ejecución por motivos de sincronización o solicitudes más urgentes (preemptive system calls). Estas llamadas solicitan un bloqueo del sistema rápido antes de llamar al manipulador que requieran para realizar sus operaciones y posteriormente lo liberan para pasar a llamar al manipulador obtenido, después de esto solicitan al manipulador que haga la tarea que se requiere, pero entran dentro de la tónica del sistema apropiativo y sincronizable por lo que pueden pasar a segundo plano y tener que cambiar de contexto de mientras otra solicitud más importante es atendida. 275 Fast executive calls Las llamadas ejecutivas rápidas al contrario que las anteriores se ejecutan con las interrupciones deshabilitadas, por lo que deben de ser muy cortas y requerir muy poco tiempo en ejecutarse. Así mismo no hay muchas de este tipo de llamadas y suelen ser usadas para cosas muy puntuales que se realicen de forma rápida y efectiva. Las llamadas ejecutivas lentas pueden contener hasta 11 parámetros asociados, en cambio estas llamadas rápidas solo pueden tener asociado un parámetro de 32bits y sólo devuelven otro valor de 32bits. Seguridad de instrumentación binaria en Symbian OS La seguridad dentro del sistema corre a cargo dentro de lo que se denomina una Capability, que no es más que una autorización que indica si el dueño ha conado para poder acceder a los recursos protegidos por la cadena de texto asociada. Este token de autorización puede dar acceso a API's internas muy sensibles como a los drivers de dispositivos o a datos como la conguración del terminal.Los diseñadores han creado una serie de reglas entre lo que se permite hacer y lo que no dentro del sistema operativo: Cada proceso tiene un conjunto de tokens, capabilities, y éstas no cambian durante toda su vida Cuando se desarrolla un programa ejecutable, se tiene que crear un chero con extensión .MMP que es el denominado chero de proyecto. Adicionalmente se requiere actualmente de una línea extra que dena las capacidades que se le deberán otorgar a un determinado ejecutable. Tanto los ejecutables .EXE, como las librerías .DLL tienen sus características denidas de esa forma. Estas capacidades son leídas y escritas en disco durante el proceso de instalación y permanecerán inalterables desde ese momento, incluso durante la carga se almacenan en memoria en sitios diferentes y no accesibles desde el programa en ejecución. Se pueden consultar, pero no modicar. Un proceso no puede cargar una librería DLL que tenga un conjunto menor de capacidades que él mismo Una librería DLL no puede linkarse estáticamente con otra DLL que tenga un conjunto menor de capacidades denido. Otra parte interesante en el orden de la seguridad interna del sistema operativo es el tratamiento de la parte de Servidores/Clientes. Como se ha comentado, Symbian incorpora un particionado especializado de funciones y funcionalidades para tener un bajo acoplamiento dentro del código. Un servidor, por ejemplo de cheros o de sockets o de telefonía, siempre comprueba y pregunta a sus posibles clientes a ver si tienen las capacidades adecuadas para poder solicitarle la realización de una determinada tarea. 276 Drivers de dispositivo y Extensiones El papel de los drivers de dispositivo es dotar al código de zona usuario acceso a los recursos periféricos del hardware sin exponer la operación de acceso al mismo al código de usuario y volver al dispositivo inestable. Generalmente en todo sistema operativo restringe al modo de supervisión el acceso a los recursos hardware, con lo que el acceso desde el código usuario a un driver plantea la misma barrera que entre código de núcleo privilegiado y código en ejecución de las aplicaciones de usuario. Los drivers son cargados dinámicamente por el kernel y se alojan en el proceso del kernel después del arranque del sistema. La arquitectura de drivers en Symbian OS se distribuye en dos capas: lógica y física, como se indica en la gura: Figura 3.30: Arquitectura de los drivers de dispositivo simplicada Los drivers de dispositivo lógicos, LDD, contienen la funcionalidad de una serie de dispositivos y son los que se comunican con el código de usuario mediante una interfaz simple que dene una API concreta. Este tipo de drivers denen una serie de funcionalidades genéricas y se valen de los drivers físicos, PDD para realizar el acceso al hardware en la manera apropiada. Los PDD controlan por lo general un dispositivo periférico en particular y por norma sólo se comunican directamente con otro driver LDD o con una extensión. Las Extensiones del kernel, no dejan de ser drivers también, con la salvedad de que son cargados en el sistema en el momento del arranque del mismo y usualmente son muy especializados para poder inicializar los diferentes recursos convenientemente. 277 Debug en zona de núcleo (Kernel) La arquitectura de los terminales móviles actuales basados en Symbian (Symbian S60 3a generación), basada en EKA2 ha sido diseñada para admitir debugger remotos a nivel de kernel. Estos debuggeos del núcleo se pueden producir de las siguientes formas: Debuggers para Emulador. Solución aceptada e implementada en el presente proyecto para acceder a las trazas del sistema. La solución empleada para poder acceder a las trazas del sistema ha sido esta debido a la simplicidad de trabajar con emuladores y al hecho de poder tener acceso físico a los mismos, pudiendo modicarlos y adaptarlos convenientemente para la integración de los mismos en la infraestructura. La operación realizada se basa en cambiar la librería EUSER.DLL, a la que todas las aplicaciones hacen referencia en su funcionamiento para poder solicitar tareas avanzadas, por otra librería modicada que permitiera realizar la captura y envío de los datos necesarios. La práctica que se ha llevado a cabo se puede aplicar en los móviles comerciales mediante la actualización del software y modicación de este fragmento de código que reside en la ROM77 del dispositivo. Para el desarrollo de la intercepción de llamadas al sistema se ha hecho uso del proyecto HookLogger78 , que modicado ha dado pie a poder observar la forma de trabajo existente en la presente memoria. Figura 3.31: Selección de hilos en ejecución a interceptar 77 ROM, Read Only Memory. Memoria que contiene el kernel, los drivers y las librerías del sistema operativo, que no permite ser escrita o modicada salvo con el hardware apropiado. 78 Disponible en la dirección ocial http://developer.symbian.com/main/tools/devtools/code/index.jsp, sección de herramientas de desarrolladores de SymbianOS 278 Figura 3.32: Volcado de la memoria y de las peticiones que se realizan a la librería Figura 3.33: Detalles de un hilo en ejecución Debuggers de aplicaciones en tiempo real. Ideal para el desarrollo e implantación de aplicaciones. Los debuggers en tiempo real permiten que una aplicación que se encuentre en ejecución en un terminal móvil Symbian OS pueda ser monitorizada y controlada en base a excepciones (para poder introducir los breakpoints o puntos de ruptura) desde un PC remoto. La arquitectura de este tipo de sistemas es la que sigue: 279 Figura 3.34: Run-Mode Debugger Debuggers con opción de parada y congelación del sistema operativo. Se usan para el desarrollo de Drivers de Dispositivo o otro software relacionado con el desarrollo del núcleo 3.3. Cuestiones arquitectónicas Antes de entrar de pleno con DFSU es necesario que todos hablemos o al menos entendamos el mismo lenguaje, para ello comenzaremos con un repaso al estado del arte en los sistemas de detección de intrusiones. Tras la lectura de este capítulo el lector deberá comprender qué es un sistema de detección de intrusiones, cuales son sus principales variantes así como cuáles son las principales ventajas y desventajas de cada uno. 3.3.1. Riesgo tecnológico, un problema en alza. Irónicamente, al tiempo que las nuevas tecnologías se vuelven más complejas, al tiempo que se vuelven más rápidas, más accesibles, se vuelven también más vulnerables. Esta armación a priori contradictoria cobra sentido al desglosar los factores que componen el Riesgo tecnológico (RT): RT = N A∗IE∗CA ST Figura 3.35: Ecuación del riesgo tecnológico RT La variable RT (Riesgo Tecnológico) pretende dar un aproximación cuantitativa de la amenaza a la que se enfrentan nuestros sistemas informáticos. NA 280 La variable NA (Número de Ataques) representa el número de ataques que sufren nuestros sistemas, independientemente de si estos tienen éxito o no. IE Por supuesto la variable NA no tendría ningún fundamento sin IE (Indice de Éxito) de estos ataques. CA La variable CA (Consecuencias del Ataque) representa cuales son los daños (en términos económicos) del éxito de un hipotético ataque. ST La variable ST (Seguridad Teórica) representa cual es el grado de seguridad de nuestros sistemas, ¾actualizamos nuestro software? ¾usamos cifrado? ¾claves de seguras? etc... Si bien es cierto que nuestras medidas de seguridad teórica han mejorado notablemente, gracias sobre todo a la expansión de las técnicas criptográcas y a la seguridad perimetral, la delegación progresiva de responsabilidades hacia los sistemas informáticos hace que el papel de estos sea cada día más importante, aumentando inevitablemente las repercusiones de un posible ataque. Si el Riesgo Tecnológico dependiese exclusivamente de estos dos factores (CA y ST), es posible que hubiera podido controlarse gracias a las mejoras en Seguridad Teórica, lamentablemente la balanza ha sido brutalmente descompensada por una explosión sin precedentes en el número de ataques79 En todo sistema incipiente sea este: Social, Cultural, Económico o ½como no! Informático, se produce una evolución a través del uso. Al igual que los caminos de la España del siglo XV estaban infestados de rateros peligrosos, las autopistas de la información del siglo XXI están plagadas de malhechores no menos desdeñables. Los técnicos y legisladores del siglo XXI deben desarrollar técnicas capaces de limpiar Internet de la lacra que nos asola, sin embargo deben hacerlo empleando juego limpio, es decir mejorando la seguridad teórica y no restringiendo sus fantásticas capacidades y virtudes. 79 Una de las razones del aumento en el número de ataques está en los virus informáticos. Los worms de hoy incorporan rutinas no sólo para replicarse y propagarse sino también para explotar vulnerabilidades conocidas, de este modo muchos de los sistemas que antes pasaban desapercibidos por no ser de especial interés para un atacante humano son ahora los más afectados . 281 3.3.2. Introducción En la tarde del Miércoles 2 de noviembre de 1988 ordenadores de puntos vitales de los Estados Unidos, como la NASA, el Pentágono, el Instituto Tecnológico de Massachusetts, las Universidades de Berkeley, Stanford, Princeton, etcétera, de una costa a otra, de ARPANET a MILNET, fueron cayendo uno tras otro, víctimas del gusano de Robert Morris. Se habló entonces de millones de dólares en pérdidas y de un diez por ciento de Internet colapsado. Tal fue la repercusión de ese primer gran ataque que tan solo una semana después, con el gusano en cuestión aún en plena actividad, la Agencia de Proyectos de Investigación Avanzada del Departamento de Defensa [DARPA] de los EEUU decidió fundar, en colaboración con la Universidad Carnegie Mellon, el que sería el primer Centro de Respuesta ante Emergencias Informáticas [CERT]; centro que posteriormente iría extendiéndose a un gran número de países, entre ellos España [esCERT e IrisCERT]. Desde entonces hasta hoy los sistemas de seguridad informática han evolucionado enormemente y en muchas direcciones. Sin embargo, el hecho de que no exista una solución unicada, que contemple el problema de forma global, es un síntoma de que dicho problema dista aún de resolverse. Sin ir mas lejos, estos días Internet sigue convulsa tras ataques como el del gusano Blaster y sus sucesivas variantes, con unas pérdidas económicas aún por cuanticar. Tradicionalmente, la seguridad informática se ha fundamentado en los denominados mecanismos de control de acceso, de forma que el objetivo que se ha perseguido siempre ha sido el de poder identicar a los usuarios que acceden al sistema, para así poder concederle o restringirle el acceso a determinados recursos. Si suponemos que nuestro sistema es una nca, este control de acceso podría realizarse poniendo unos buenos barrotes en las ventanas, reforzando las cerraduras y teniendo un exquisito cuidado con quien recibe una copia de la llave para entrar. Además, sería una buena idea colocar en el perímetro de la nca una verja electricada, para de este modo extender el área de seguridad más allá incluso de la puerta de entrada. Lejos de ser una simple metáfora, está es una práctica que se sigue en el mundo de la informática casi al pie de la letra, esta es la idea con la que se diseñaron los rewall o cortafuegos. Sin embargo, no sólo evolucionan los mecanismos de defensa, también lo hacen las técnicas de ataque y lo hacen hasta tal punto, que hoy en día los mecanismos de seguridad perimetral (rewalls) son una medida necesaria pero claramente insuciente. Resumiendo: Una muralla cada vez más gruesa siempre ha recibido el saludo de un cañón cada vez más potente. Existe además una creencia generalizada (probablemente por llevar este tipo de paralelismos con la vida real demasiado lejos) de que los ataques deben llegar siempre desde el exterior, nada más lejos, gran parte de los ataques a lo que se enfrenta una red provienen precisamente desde su interior. Empleados descontentos u ordenadores portátiles infectados, suelen ser las principales fuentes. Salta a la vista que necesitamos un mecanismo automatizado para poder detectar a los intrusos que ya han conseguido vulnerar el perímetro de seguridad. Aquí es donde entran las 282 técnicas de detección de intrusiones. Figura 3.36: Seguridad Perimetral (Firewall) 3.3.3. Detección de intrusiones Un Sistema de Detección de Intrusos (IDS80 ) trata de detectar (y prevenir81 ) toda aquella actividad subversiva que se desarrolla en el perímetro de nuestro sistema o que ya está dentro de nuestra red. Una de las primeras referencias que podemos encontrar en el campo de la detección de intrusos es el, ya un clásico, artículo de Dorothy E. Denning An Intrusion Detection Model , de 1987 [EDENNING01]. Este artículo recoge desde un punto de vista conceptual gran parte de las estrategias de detección más utilizadas en el momento. En él se establece por primera vez una clasicación de los IDS que llega hasta nuestros días, por un lado el de uso indebido y por otro la Reconocimiento de patrones Detección de anomalías. A pesar del peso histórico de escte artículo, utilizaremos otra clasicación más acorde con los tiempos extraída de la obra Sistemas de Detección de Intrusiones por Diego González [DGONZALEZ01]. Este autor establece tres fases generales de funcionamiento para cualquier IDS, y los clasica según las técnicas empleadas en cada una de estas fases. Como puede verse en la gura 3.37, la actividad del IDS se divide en 3 pasos: 1. Recogida de información: Capturar la información que posteriormente analizaremos. 2. Análisis: Dónde procesamos esta información. 3. Respuesta: Una vez el sistema he determinado si la información recogida compone una amenaza o no deberemos tomar las medidas oportunas. 80 81 IDS, acrónimo de Intrusion Detection System Últimamente los IDSs están evolucionando hacia los IPS (Intrusion Prevention System) donde se trata de detectar la intrusión antes de que se produzca algún ataque. 283 Figura 3.37: Etapas en el proceso de detección Taxonomía en base al método de recogida de información Atendiendo a la fuente de la que los IDS's extraen la información, podemos establecer dos categorías. Por un lado los IDS's basados es host (HIDS82 ) y por otro los IDS's basados en red (NIDS83 ). IDS's Basados en Máquina (HIDS) Su funcionamiento en similar al de un antivirus en el sentido en que el IDS se ejecuta como proceso local a la máquina que se desea vigilar. Este proceso permanece habitualmente en estado dormido y en base a una serie de condiciones de activación despierta para chequear si el estado del sistema es seguro o no. Determinar el estado del sistema no es tarea fácil y su análisis debe afrontarse como si de una gran ecuación se tratara. Esta ecuación debe tratarse con el mayor de los cuidados pues el más ligero cambio en cualquiera de las variables puede signicar que el sistema a pasado de un estado seguro a uno inseguro o viceversa. 82 83 HIDS, acrónimo de Host based Intrusion Detection System NIDS, acrónimo de Network based Intrusion Detection System 284 A pesar de que todos los HIDS se ejecutan en la máquina a proteger, no todos ellos extraen sus variables de los mismos puntos. A continuación se describen vagamente los enfoques más comunes: Llamadas al Sistema: Los sistemas operativos ofrecen un conjunto de interrupciones que pueden ser llamadas por las aplicaciones de usuario para invocar un servicio proporcionado por éste. Cada uno de estos servicios se llama syscall syscall o llamada al sistema, un ejemplo de sería abrir un chero. Dependiendo de la complejidad del programa de usuario el número de syscalls puede variar entre unas pocas en programas muy sencillos hasta miles o decenas de miles en programas complejos. Al conjunto de syscalls que ejecuta un programa se le llama traza y nos da una idea bastante precisa de su comportamiento. Registros de Auditoría: El Sistema Operativo, así como muchas de las aplicaciones de usuario en ejecución sobre la máquina, mantienen una estricta contabilidad de todo lo que está sucediendo84 . Esta información tradicionalmente se exporta en el caso del sistema operativo a través de los dispositivos ubicados en /proc/85 y en el caso de los programas de usuario a través de cheros de log. Por su sencillez y facilidad de acceso no es de extrañar que esta fuese una de las fuentes de información más empleadas en los primeros IDS. Vericaciones de integridad: Dentro del área de conocimiento de la Detección de In- trusiones orientada a la Máquina, Gene Kim y Eugene Spaord introdujeron, (1994), en su artículo The Design and Implementation of Tripwire: A File System Integrity Checker [TRIPWIRE01], el concepto de Vericación de Integridad, también conocido como Detecci ón de Intrusiones orientada a Objetivos86 . En dicho artículo, los autores proponían un Sistema de Detección de Intrusiones que aplicaba técnicas criptográcas de cifrado irreversible empleando para ello funciones resumen, con unas propiedades muy características: • La entrada del chero debe poder se de tamaño indeterminado. • El resultado resumen debe ser de tamaño jo, como es lógico varios órdenes de magnitud más pequeño que la entrada. • Dado x, calcular H(x) es en términos computacionales barato. • H(x) es de un solo sentido, es decir no tiene función inversa. • H(x) no debe presentar colisiones. El objetivo perseguido por esta técnica es garantizar la integridad de aquellos recursos críticos del sistema a proteger. De esta forma, aparecía una nueva tipología de sistema de 84 Esta información se suele emplear para generar perles de rendimiento o para análisis forense en caso de que el sistema haya sido comprometido. 85 El empleo de dispositivos /proc es común en los sistemas Unix like, otros sistemas como por ejemplo Windows utilizan otros métodos. 86 Detección de Intrusiones orientada a Objetivos o Target-based Intrusion Detection. 285 detección que, si bien mantenía claramente su orientación a la máquina, dejaba de utilizar información proveniente de los registros de auditoría de sistemas operativos y servicios de aplicación, y pasaba a utilizar sus propios registros. /newpage Conclusiones HIDS A continuación se detallan las principales ventajas e inconvenientes de los HIDS: Puesto que se ejecutan en la máquina a proteger tienen acceso a un abanico de variables mucho más rico que el tráco de red (syscalls, auditoría de cheros etc...) Tienen además acceso al contenido de las conexiones cifradas por estar en uno de los extremos del tráco. Por otro lado, las labores de administración son mucho más costosas ya que deberá congurarse cada ordenador a proteger. Por muy bien que esté programado el HIDS, los fallos de seguridad existen, de manera que irónicamente el mecanismo de protección pudiera convertirse en la puerta de acceso para posibles ataques. Toda la carga del proceso de detección se lleva a cabo en la propia máquina por lo que el HIDS degrada el rendimiento de la máquina donde se instala. IDS's Basados en Red (NIDS) Este es el enfoque utilizado por la mayor parte de los IDS's modernos que emplean la información capturada a través de sniers87 en diferentes segmentos de la red del sistema para detectar posibles ataques. De este modo, un solo NIDS puede monitorizar el tráco de toda una subred, protegiendo así varias máquinas simultáneamente. A menudo una implementación real de un NIDS corporativo se compone no de uno, sino de varios NIDS distribuidos en las distintas subredes, cada uno de ellos funcionado por separado en su segmento de red. Así es precisamente como funciona Snort88 . Figura 3.38: Logotipo de Snort 87 Un packet snier es un programa de captura de las tramas de red .Generalmente se usa para gestionar la red con una nalidad docente, aunque también puede ser utilizado con nes maliciosos [WIKI03] 88 Snort es el estándar de facto de los NIDS. Snort (http://www.snort.org) está disponible bajo licencia GPL, gratuito y funciona bajo plataformas Windows y Unix like. 286 Es habitual que los NIDS sean máquinas dedicadas exclusivamente a la detección de intrusiones, lo que por regla general los hace menos vulnerables89 , además no es extraño llegar al extremo de no asignar IP al interfaz dedicado a la captura de paquetes, de este modo se evita que alguien pueda direccionar ataques contra él e incluso utilizar cables de solo recepción o network taps, evitando así que el equipo NIDS pueda ser 89 visto por un hipotético atacante. Esta armación a priori un tanto categórica se fundamenta en que en los sistemas muy especícos el número de servicios suele ser muy reducido, un número de servicios reducido reduce a su vez las posibles puertas de acceso a ese sistema. Esto lo hace más seguro. 287 A cada uno de los elementos de información que un IDS puede emplear para discernir si el tráco que está analizando es o no un ataque se le llama métrica. Podemos clasicar las métricas de red en dos subtipos [BYKOVA01]: Información de cabecera: El tráco de red va encapsulado dentro de las cabeceras del protocolo que se esté utilizando. Como puede verse en la Figura 5: Cabecera IP esta información se caracteriza por ser discreta90 y fácilmente extraíble ya que cada campo tiene una longitud ja91 y está siempre en el mismo sitio. Los siguientes son ejemplos de métricas extraídas de las cabeceras del protocolo: • Direcciones IP origen y destino: Las direcciones de la máquina origen y de la máquina destino son datos interesantes, tanto porque pueden ser empleados defensivamente en las medidas de control de acceso, como porque pueden llegar ser utilizadas ofensivamente en denegaciones de servicio rudimentarias contra nuestro sistema. Supongamos por ejemplo que uno de nuestros servidores recibe un mensaje ICMP de ping92 . Así pues, si el mensaje ha sido manipulado de forma que su dirección de origen ha sido sustituida por la de destino, cuando nuestro servidor reciba dicho mensaje, en lugar de responder al verdadero remitente se responderá a sí mismo indenidamente93 . • Puertos origen y destino: Los puertos de origen y destino, son un excelente indicativo de actividades sospechosas, tanto para detectar barridos de puertos, como para descubrir la presencia de servidores no autorizados en nuestra red (troyanos94 ). • Flags TCP: Uno de los campos de la cabecera TCP, el de ags, contiene una serie de bits (URG, ACK, RST, SYN y FIN), por supuesto necesarios para el buen funcionamiento del protocolo, pero que tradicionalmente se han modicado con otras intenciones. Por ejemplo, para solicitar la conexión a un servidor, se activa el bit SYN, mientras que el bit FIN hace justo lo contrario. Por sí solos no son especialmente signicativos, pero ¾no sería sospechoso que un mensaje llevase ambos bits activados? Tampoco hay que olvidar que uno de los mayores problemas conocidos sobre plataformas Windows se fundamentaba en el manejo de paquetes OOB (Out of Band), tramas con el bit URG activado [OOBATTACK01]. Carga útil:95 La información de cabecera es un añadido que los protocolos de comunica- ciones deben agregar a sus transmisiones para que estas lleguen a su destino, sin embargo 90 91 Hay un número nito de posibles valores Tal vez sería más apropiado explicar que la longitud del campo no siempre tiene por que se ja (casi siempre lo es) sino que puede precalcularse cuanto va a ocupar. Esto sucede con el campo opciones de la cabecera IP. 92 Un ping es un mensaje con el que el emisor trata de averiguar si el receptor está activo, de forma que si es así, éste devuelve un mensaje de echo. 93 94 Estos son los llamados ataques chargen Programa malicioso capaz de alojarse en computadoras y permitir el acceso a usuarios externos, a través de una red local o de Internet, con el n de recabar información y/o controlar remotamente la máquina huésped. 95 También llamada payload. 288 lo que realmente le interesa al otro extremo es el contenido de la transmisión, la carga útil. El problema del payload es que es generado en la capa de aplicación y cada aplicación tiene su propio formato a la hora de organizar los datos del envío. Esto unido a que no existe un modo able96 de determinar a que aplicación de usuario pertenece un determinado paquete, hacen que la extracción de información del payload sea muy costosa. Figura 3.39: Cabecera IP 96 Los puertos origen y destino podrían emplearse para identicar protocolos de aplicación conocidos. El pro- blema es que no es un dato able ya que estos puertos pueden cambiar según las conguraciones. 289 Conclusiones NIDS nientes: Al igual que los HIDS, losNIDs también tienen sus ventajas e inconve- Un solo NIDS bien situado puede cubrir las necesidades de un gran número de ordenadores El NIDS es transparente para los usuarios nales y siendo su administración centralizada, los esfuerzos de los administradores de red son mínimos. Pueden llegar a perder paquetes si el volumen de tráco en la red es muy elevado. Los NIDS en principio no tienen acceso al payload de las conexiones cifradas Un NIDS sabe si que ha tenido lugar un ataque, pero no sabe si ese ataque ha tenido éxito o no, ni tampoco cual ha sido su impacto. Taxonomía en base al método de análisis empleado Atendiendo a que técnicas emplea el IDS para determinar, si las variables de control recogidas representan o no un ataque, podemos distinguir principalmente dos corrientes. Por una lado los sistemas de detección de usos indebidos y por otro los sistemas de detección de anomalías. Reconocimiento de patrones de uso indebido Este método trata de modelar todo el conocimiento que los expertos de seguridad han adquirido a lo largo del tiempo, para de este modo construir una lista negra de todas las actividades que pueden constituir un ataque. Su utilidad es inmediata ya que el IDS sólo tiene que comparar el estado actual del sistema con todos y cada uno de los estados recogidos dentro de la lista negra, si coincide con alguno de ellos entonces es que se ha producido un ataque, de lo contrario el sistema está seguro. Una denición sin duda más elegante es la propuesta por Rebecca Bace y Peter Mell: Detection method that analyzes system activity, looking for events or sets of events that match a predened pattern of events that describe a known attack. Figura 3.40: Denición de patrones de uso indebido Salta a la vista que este sistema tiene un fallo de base y es que aunque seamos capaces de modelar todos y cada uno de los ataques existentes, algo por otra parte extraordinariamente difícil, a medida que el tiempo vaya pasando surgirán nuevos ataques y poco a poco la lista irá quedándose obsoleta. /newpage A pesar de sus claras limitaciones este sistema es muy popular, sobre todo por que cumple perfectamente con su misión y por ser muy sencillo de comprender. A día de hoy este es el método más empleado por los IDS modernos. A continuación se detallan sus variantes más conocidas: Reconocimiento estático de patrones: Esta técnica representa la forma más simple de detectar malos usos. Normalmente se basa en sistemas que buscan mediante un reconocimiento de patrones relativamente simple cadenas o subcadenas dentro de las distintas 290 entradas. Si encuentran una determinada cadena binaria, entonces es que se ha detectado un ataque. Basada en probabilidades condicionales: El reconocimiento estático de patrones de- tecta una intrusión cuando cuando encuentra una determinada rma (característica), pero esto no es del todo correcto, algunas rmas no reeje siempre un ataque. La aproximación basada en probabilidad condicional trata de determinar la probabilidad condicional de que una intrusión ocurra dada una cierta rma, para calcular esta probabilidad necesita datos de intrusiones anteriores, por ejemplo, de logs de auditoría, eventos etc... Basadas en análisis de transición de estados: Esta aproximación representa las intru- siones como una secuencia de transición de estados del sistema objetivo [PORRAS01]. Los estados sucesivos se conectan mediante arcos que representan los eventos necesarios para el cambio de estado. Cualquiera de los estados por separado no tiene por que constituir un ataque en sí mismo, sin embargo la transición de un estado a otro sí puede constituirlo. Detección basada en modelos: Esta técnica combina modelos usos indebidos con el razonamiento en base a evidencias. En este modelo, existe una base de datos con escenarios de intrusiones formados por una secuencia de acciones que reejan el comportamiento de una intrusión. En un momento dado un subconjunto de escenarios de ataque se considera como escenario parecido. El IDS trata entonces de argumentar o rebatir los escenarios dados en un chero de auditoría. El cálculo del razonamiento evidencial construido en el sistema permite actualizar la probabilidad de la ocurrencia de los escenarios de ataque en una lista de modelos activos. Figura 3.41: Esquema de funcionamiento; Modelo de usos indebidos 291 Conclusiones reconocimiento de patrones de uso indebido Los patrones de uso indebido son sencillos de implementar y de usar, tienen un índice de error muy bajo, pero están limitados por su escasa exibilidad ante nuevos ataques. A continuación se detallan sus principales ventajas e inconvenientes. Es un sistema sencillo y de probada solvencia. Al no requerir muchos cálculos los sistemas resultantes suelen tener un buen rendimiento. Están limitados en el sentido en que únicamente pueden detectar ataques conocidos de previamente. Detección de anomalías Como respuesta a las carencias del sistema anterior surge una nueva losofía de detección, fundamentándose ésta en una transgresora denición de ataque. Una intrusión es una anomalía. Conozco lo que es 'normal' en mi sistema, para poder detectar lo que no lo es (anomalías) Figura 3.42: Ataque según la losofía de detección de anomalías Tal y como puede verse en la Denición 2: Ataque según la losofía de detección de anomalías, la base del funcionamiento de estos sistemas se basa en la suposición de que el perl de actividades desarrollado durante una intrusión se desvía sensiblemente con respecto al perl de uso que un usuario normal hace del sistema [CHEUK01]. De modo que el proceso de detección pasa por ser capaz de modelar un perl del comportamiento normal del sistema para poder así identicar cualquier desviación excesiva de ese perl como anómala y por tanto subversiva. A la hora de determinar lo que es normal en el sistema, existen dos grandes aproximaciones [ROLAND01]. Por un lado están los sistemas capaces de aprender por sí mismos lo que es normal y lo que no, para ello emplean técnicas estadísticas97 sobre variables como por ejemplo el número de procesos en ejecución o el tráco de la red en un determinado instante y por otro los sistemas que en lugar de aprender por sí mismos emplean conocimiento experto codicado en forma de reglas estáticas. El primero de los problemas a los que deberá enfrentarse este modelo consiste en determinar cuales son las variables más relevantes a la hora de denir un comportamiento normal. En [HAROLD01] se proponer diferentes tipos de datos que pueden resultar útiles a la hora de realizar la selección: Variables de intensidad de actividad: a una actividad 97 98 El sistema mide los valores numéricos asociado a lo largo del pequeños intervalos de tiempo, de este modo obtiene de Estas técnicas pueden variar desde lo más sencillo (medias, desviaciones, varianzas) hasta técnicas extrema- damente sosticadas de aprendizaje automático (redes neuronales, redes bayesianas etc...) 98 Entendemos por actividad a cualquier proceso cuya ejecución pueda ser cuanticada numéricamente. Por ejemplo el número de usuarios en el sistema o el número de Kbytes/segundo en una transferencia. 292 un modo muy preciso cual ha sido la evolución de esa actividad a lo largo de intervalos de tiempo mayores.99 Variables Numéricas: Algunas veces no tiene sentido analizar la evolución cronológica de la variable, simplemente basta con conocer su valor100 . Categóricas: Aquellas cuyo resultado es una categoría individual, y miden la frecuencia relativa o la distribución de una actividad determinada con respecto a otras actividades o categorías101 [VILLALÓN01]. Registros de auditoría: Esta medida analiza la distribución de las actividades generadas en un pasado reciente basándose en los logs102 generados por las mismas; dicho análisis se realiza de forma ponderada, teniendo más peso las actividades más recientes, y es comparado con un perl de actividades `habituales' previamente almacenado, de forma que permite detectar si en un pasado reciente se han generado eventos inusuales[VILLALÓN01] A día de hoy este es sin duda uno de los campos en la detección de intrusiones con una línea de investigación más activa103 , no en vano existen cientos de aproximaciones104 , sin embargo, la gran mayoría de ellas chocan con los mismos problemas [NATO01]. En primer lugar el sistema deberá ser capaz de describir de un modo efectivo el comportamiento del sistema, algo de por sí muy complicado105 , a esta dicultad se le añade el problema de la comparación y es que dado un patrón de comportamiento almacenado y un patrón de comportamiento actual ¾cual es la desviación mínima que marca la diferencia entre normal y anómalo106 ?. Por si todo esto fuera poco, estos sistemas deben hacer frente a un problema más y es que dependiendo en la técnica de aprendizaje que emplee el sistema, un atacante con los conocimientos necesarios podría entrenar poco a poco el sistema con pequeñas variaciones de comportamiento no lo sucientemente grandes como para ser consideradas en sí mismas como una anomalía, pero si como para ir poco a poco cambiando el concepto de normalidad en el sistema hasta adecuarlo a sus propositos. 99 Las mediciones se hacen cada breves periodos de tiempo para que un pico de actividad al comienzo del periodo no pueda ser compensado con un descenso de actividad al nal del mismo. 100 101 Por ejemplo la variable número de procesos en ejecución. Un ejemplo podría ser la comparación entre el número de intentos de entrada al sistema entre el usuario A y el usuario B. 102 Un log es un registro de auditoría (generalmente un chero de texto) en el cual las aplicaciones vuelcan información de algún tipo. 103 104 Esto es la más estudiada, pero no por ello la más extendida en entornos productivos. El sólo hecho de que existan tantas técnicas debería ponernos sobre la pista de que algo no funciona bien ya que si al menos una funcionase correctamente no habría sitio para muchas más. Esto pone de maniesto una vez más el estado incipiente en el que se encuentran a día de hoy el conjunto de estas técnicas. 105 A pesar de que pueda parecer sencillo extraer las variables más relevantes incluso del sistema más sencillo puede resultar extraordinariamente complicado. 106 Existen técnicas matemáticas que tratan de solucionar este problemas calculando el umbral óptimo, sin embargo en la práctica el umbral suele ajustarse de un modo bastante ad-hoc 293 A pesar de los inconvenientes que presenta este método no debemos olvidarnos de sus ventajas y es que teóricamente sería capaz de detectar los denominados Zero days attacks 107 . Debemos por tanto dar un voto de conanza a un modelo aún en las primeras etapas de su desarrollo, pero que promete revolucionar el futuro de los sistemas de detección de intrusiones. Figura 3.43: Esquema de funcionamiento de un modelo de detección de anomalías 107 Ataques nuevos aún no contemplados en las bases de datos, para los que evidentemente no existe ninguna regla especíca. 294 Conclusiones detección de anomalías A pesar de los inconvenientes presentados este es uno de los modelos más prometedores y sin duda marcará el futuro de los sistemas de detección de intrusiones. A continuación se resumen sus principales ventajas e inconvenientes: Capacidad teórica de detectar ataques desconocidos por los expertos de seguridad. Aprendizaje automático, menor necesidad de intervención por parte del administrador de sistemas. Tradicionalmente tanto su rendimiento como su efectividad ha sido baja comparada con los sistemas basados en detección de usos indebidos. Dado que el sistema evoluciona con el tiempo y la experiencia, cabe la posibilidad de que un intruso pueda llegar a entrenarlo con el tiempo. Taxonomía en base a la respuesta Una vez detectado el ataque ha terminado gran parte de la labor del sistema de detección, pero no toda, aún queda por decidir cual debe ser la respuesta ante dicho ataque. Existen dos enfoques a la hora de tomar esta decisión: Respuesta Pasiva Este enfoque se caracteriza por una cesión de responsabilidad del sistema hacia el administrador, el sistema simplemente noticará la ocurrencia de un determinado evento y deberá ser el administrador quien tome las medidas oportunas para paliar en la medida de lo posible los efectos del recién detectado ataque ente los métodos de noticación más comunes se encuentran los siguientes: Ficheros de registro108 : Una de las alternativas más comunes y de mayor tradición con- siste en que el programa escriba109 en un chero predeterminado cualquier evento o noticación que desee comunicar al administrador, será tarea de éste el analizar periódicamente los cheros de registro en busca de información relevante. Correo Electrónico: Otra las alternativas más populares es el empleo del correo electró- nico, de modo que la aplicación envía en un correo a la cuenta del administrador todas aquellas incidencias que crea necesario reportar. SMS110 : Para noticaciones más importantes el sistema puede enviar un mensaje de texto al administrador del sistema, indicándole brevemente el tipo y la hora de la incidencia que se haya producido. 108 109 También llamados cheros de log Para referirse a la acción de escribir en un chero de registro suele emplearse una mala adaptación del verbo inglés to log : loguear 110 Acrónimo de Short Message Service, es un servicio disponible en los teléfonos móviles que permite el envión de mensajes cortos entre teléfonos móviles, jos y otros dispositivos de mano [WIKI01]. 295 En cualquiera de los métodos antes descritos se produce una diferencia de tiempo considerable entre la detección del ataque por parte del sistema y la consiguiente acción del administrador. Es precisamente este intervalo de tiempo el que hace incompatible el modelo de respuesta pasiva con lo que más adelante describiremos como IPS o sistema de prevención de intrusiones. Podríamos decir de un modo un tanto metafórico que un modelo de respuesta pasiva relega las funciones del sistema de detección a las de un simple observador, es decir, puede presenciar un crimen y llamar a la policía, pero nunca intervenir directamente a pesar de que una intervención temprana resultaría casi siempre más efectiva. Conclusiones respuesta pasiva A pesar de ser un modelo muy conservador resulta ser una solución extremadamente útil y la práctica totalidad de los sistemas de detección lo integran en sus soluciones, si no como alternativa principal sí como complemento a una respuesta activa ecaz. trusiones. A continuación se resumen sus principales ventajas e inconvenientes: El sistema no podrá equivocarse tomando una decisión equivocada por cuenta propia. Es más sencillo de instalar y congurar que un sistema de respuesta activa. El sistema no podrá acertar tomando una decisión acertada por cuenta propia. Requiere de una mayor intervención por parte del administrador de sistemas. Respuesta Activa Un sistema que implemente respuesta activa tiene la capacidad de res- ponder ante un ataque una vez detectado. Este enfoque que a priori parece el más lógico111 , debe con mucha prudencia, ya que a día de hoy no existe112 ningún sistema infalible113 . Deberá por tanto tenerse en cuenta antes de introducir este tipo de modelos en sistemas productivos el hecho de que en el caso de un falso positivo,el sistema estará respondiendo ante un estado legítimo. Cualquier administrador de red sabe, que si la seguridad es importante, aún lo es más el asegurar un buen servicio. A continuación se describen las respuestas activas más comunes clasicadas en base el origen de la captura de los datos: Respuestas para sistemas de tipo Máquina 111 112 113 Quien mejor para intentar paliar los efectos de un ataque que aquel que viendo como sucede. Podrá mejorarse la tasa de acierto pero probablemente no existirá nunca un sistema infalible. falso positivo, es decir falso negativo que es justo todo lo Cuando un sistema falla puede hacerlo de dos formas: Bien con un estado como subversivo cuando en realidad no lo es, o con un catalogar como ataque un estado que en realidad si que lo es. 296 catalogar un contrario, no Envío de señales: Si el sistema detecta que uno de los procesos en ejecución tiene un comportamiento sospechosos puede enviarle una señal114 para nalizarlo. Manipulación de los runlevels115 : Para evitar males mayores, una vez detectado el ataque, el sistema puede cambiar el runlevel, bien para apagar la máquina o para desactivar las funciones de red. De este modo y como medida cautelar, el sistema quedaría en modo de cuarentena hasta que el administrador del sistema decida cómo solucionar el problema. Sistemas de decepción116 : Una vez detectado el ataque, el sistema puede redireccionar el proceso sospechoso a un honeypot, de este modo el proceso o la sesión del usuario seguiría en ejecución pero en un contexto inocuo. El objetivo perseguido con esta técnica es ganar tiempo para decidir si realmente es una ataque o en caso de que se conrme que sí lo es, disponer del tiempo suciente para poder trazar la conexión e identicar al atacante. Respuestas para sistemas de tipo Red Interrupción de sesión: Suponiendo que el protocolo en el que se encuentre el ataque sea orientado a la conexión, sería posible que el sistema de detección cerrase esa conexión remotamente. En el caso de TCP esto se consigue inyectando117 un paquete con el ag RST activo. El éxito de esta técnica radica en inyectar el paquete antes de que el atacante, de lo contrario no tendrá efecto pues los números de secuencia TCP no coincidirán. Manipulación del Filtrado: Esta opción permite la modicación de las reglas de un rewall para así denegar el acceso118 a la IP del atacante durante un cierto tiempo. DoS119 y DDoS120 : Hay autores que consideran la opción de contraatacar frente a una agresión. Para ello coordinarían una o varias máquinas para lanzar una denegación de servicio al atacante. 114 115 En sistemas Unix like la señal que enviaría es la 9 (SIGKILL) denida en /usr/include/signal.h En entornos Unix like, existen diferentes runlevels (niveles de ejecución), estos son los encargados de denir que servicios están disponibles en el sistema. Para este caso en concreto son interesantes los runlevels 0 (parada del sistema) 1 (modo monousuario) 2 (modo multiusuario sin red) 116 117 También llamados honeypots (tarros de miel) Para inyectar un paquete dentro de una conexión de tipo TCP, necesitamos saber cuales son las IP origen y destino de los dos extremos y el número de secuencia del segmento inmediatamente anterior al que queremos inyectar. Toda esta información podemos conseguirla esnifando la conexión en curso. 118 119 En inglés se emplea el verbo to ban Un ataque de denegación del servicio, también llamado ataque DoS (Denial of Service), es un ataque a un sistema de ordenadores o red que causa una pérdida en el servicio a los usuarios. Normalmente provoca la pérdida de la conectividad de la red por el consumo del ancho de banda de la red de la víctima o sobrecarga de los recursos computacionales del sistema de la víctima. [WIKI02] 120 DDoS ( Distributed Denial of Service )es una ampliación del ataque DoS, se efectúa con la instalación de varios agentes remotos en muchas computadoras que pueden estar localizadas en diferentes puntos. [WIKI02] 297 Conclusiones respuesta activa La respuesta activa es el primer paso hacia la prevención de intrusiones (IPS121 ). A día de hoy pocos son los expertos en la materia que no vean en esta técnica a la alternativa dominante en un futuro no muy lejano. trusiones. A continuación se resumen sus principales ventajas e inconvenientes: El sistema podrá acertar tomando una decisión por cuenta propia. Requiere de una menor intervención por parte del administrador de sistemas. El sistema podría equivocarse tomando una decisión equivocada por cuenta propia. Dado que hay que integrar el sistema de detección con el resto del hardware de la red, la conguración suele ser más compleja. IPS Intrusion Prevention Systems Una de las últimas tendencias en el desarrollo de sistemas de detección de intrusiones son los IPS o sistemas de prevención de intrusiones. Estos sistemas son una evolución lógica hacia la hibridación entre los rewalls122 y los NIDS (véase Figura 3.44: IPS integrado en una red). Figura 3.44: IPS integrado en una red 121 122 IPS (Intrusion prevention systems) técnica que se explica más adelante. Conjunto de hardware y/o software montados sobre un sistema que controla el tráco entre dos redes aplicando una serie de reglas especicas. 298 ¾Por qué detectar a nivel de Firewall? El rewall es un elemento crítico en cualquier cualquier red. Nexo de unión con el mundo exterior. Punto medio por el que pasa todo el tráco. Modicación sencilla. Alta efectividad (bajos falsos positivos) En un sistema de estas características el tráco es analizando antes de entrar en la propia red, luego si detectamos un ataque, este no tiene por que llegar a su destino, basta con que el IPS ordene al rewall que haga un drop del paquete en cuestión, para que el ataque nunca llegue a su destino. Atendiendo a las características expuestas en [SANS01] un IPS debe: Deben analizar el tráco y responder en tiempo real para detener el ataque que se este realizando, ya que si la respuesta es muy lenta o tardía los host pueden haber sido comprometidos y la intrusión no haberse evitado. Debe tener un ratio muy bajo de falsos negativos y ser capaz de detectar un numero elevado de ataques que no solo buscan la intrusión sino también la evasión123 . Al tiempo que no deben provocar la denegación de servicio a usuarios legítimos. Deben detectar e informar de actividades, internas y externas, anómalas así como del mal uso de los recursos de los sistemas. Alertar al personal de seguridad y responder a los intentos de intrusión modicando el rewall o bloqueando el ataque el curso. Deben ser capaces de procesar todo el tráco que se produce en las redes de alta velocidad124 . 123 124 Es decir pasar el control del IPS, típicamente con campos de la cabecera ttl muy bajos. De lo contrario no serían de procesar todo el traco y sólo les quedaría dos alternativas descartar el paquete o dejar pasar el tráco sin analizarlo. Cualquiera de las dos alternativas es seguramente una mala idea. 299 3.3.4. Introducción a DFSU A lo largo del Capítulo 1 hemos pasado revista en mayor o menor medida a los distintos modelos que históricamente han sido empleados para tratar de detectar de un modo lo más efectivo posible, cualquier intrusión o intento de intrusión. En el segundo capítulo, emplearemos estos conocimientos para describir y clasicar DFSU tratando en la medida de los posible justicar nuestras decisiones. Tras la lectura de este capítulo el lector deberá comprender cuál la estructura básica de DFSU y ser capaz de describir comparativamente DFSU con respecto a las técnicas descritas en el Capítulo 1. ¾Por qué desarrollar otro IDS? A día de hoy existen en el mercado innidad de alternativas capaces de implementar la práctica totalidad de las técnicas de detección descritas a lo largo del primer capítulo, parece por tanto lógico hacerse las siguientes preguntas ¾tiene sentido crear otro IDS?, ¾aporta DFSU algo nuevo al panorama tecnológico actual o es una simple prueba de concepto? Para contestar a estas dos preguntas, lo mejor sería empezar por explicar lo qué no es DFSU. A pesar del contexto puramente académico en el que se localiza el presente trabajo, DFSU no es ni un desarrollo formal ni una prueba de concepto sino más bien todo lo contrario. DFSU pretende ser una alternativa real a los problemas125 de seguridad a los que el conjunto de nuestros sistemas de información deben hacer frente cada día, problemas que por otra parte ninguno de las innumerables alternativas existentes en el mercado ha sido capaz de erradicar. Con la esperanza de triunfar donde otros fallaron surge DFSU, un nuevo enfoque en los sistemas de detección de intrusiones. ¾Qué es DFSU? Si nos remontamos al comienzo de esta memoria, concretamente al Capítulo 1, capítulo en el que se describe el estado del arte de los sistemas de detección de intrusiones, veremos que éste se encuentra dividido en tres secciones principales. En cada una de estas secciones se describe una taxonomía o clasicación126 : Los IDS's pueden estar basados en host o basados en red, basados en anomalías o basados en reglas . Cada una de estas clasicaciones tiene sus ventajas e inconvenientes, mientras que los sistemas basados en reglas son poco exibles pero muy ables, los sistemas basados en anomalías son justo todo lo contrario, muy exibles pero poco ables. La inmensa mayoría127 de los sistemas existentes siguen muy de cerca esta clasicación, es decir, crean sistemas basados en máquina o en red, basados en anomalías o reglas, algunos empiezan ahora a incorporar respuesta activa y respuesta pasiva pero son los menos128 . Nosotros 125 126 127 Problemas por otra parte no menos reales Véase Figura 3.45 A excepción de DIDS (Distributed Intrusion Detection System) prototipo desarrollado por la universidad de California, no se continua desarrollando. 128 Algunos plugins de snort permiten recongurar iptables y snort inline por su puesto 300 creemos que este tipo de clasicaciones están obsoletas129 , puede que tuviese sentido hace años cuando la seguridad de la información era un problema virgen y tan gigantesco que tratar de abarcarlo todo a la vez era impracticable. Hoy cada uno de los campos de especialización en los que se dividió el problema para hacerlo más asequible, está lo sucientemente maduro como para retomarlo y emplearlo como base solida desde la que lanzar el ataque nal hacia la unicación. El futuro pasa por correlacionar el tráco sospechoso en un segmento de red con la actividad anómala en el ordenador que lo generó y esto es precisamente lo que es DFSU; Un framework capaz de analizar de un modo centralizado tanto la información de cualquier tipo de dispositivo físico (PC's, PDA's, teléfonos móviles) como máquina de sus comunicaciones (tráco de red). Figura 3.45: Taxonomía de los sistemas de detección de intrusiones 129 Al menos en la práctica, desde un punto de vista académico la clasicación seguirá siendo por supuesto válida. 301 DFSU, una visión arquitectónica Para lograr la integración tan deseada, DFSU se fundamenta en un modelo multicapa de agentes distribuidos. Cada uno de los agentes distribuidos será un punto de recogida de información heterogéneo que podrá estar instalado bien en una máquina, recogiendo la información que procesaría un HIDS o bien en un segmento de red recogiendo la información que procesaría un NIDS. Es importante recalcar que los agentes distribuidos a diferencia de los HIDS o NIDS no realizan ningún tipo de procesamiento sobre la captura sino que simplemente lo empaquetan y lo envían a través de la red hasta la infraestructura centralizada de procesado. Dado que el procesado no tiene lugar en el punto de captura, los agentes serán procesos ligeros que podrán instalarse en prácticamente cualquier dispositivo hardware130 sin una degradación perceptible en su rendimiento131 . Evidentemente esto tiene su contrapartida, la infraestructura centralizada a la que se reporta toda la información desde los agentes, deberá ser capaz de procesar grandes volúmenes de información132 . DFSU consigue este objetivo introduciendo una capa de procesamiento sobre la que el administrador podrá añadir o retirar unidades133 hasta ajustarlo a las necesidades de su entorno productivo. 130 A día de hoy tenemos programados agentes de este tipo no sólo para segmentos de red u ordenadores perso- nales, también para teléfonos móviles y PDAs 131 No degradando de un modo perceptible el rendimiento de la máquina sobre la que se ejecuta, solventamos uno de los grandes inconvenientes presentados por los HIDS. 132 El volumen de información dependerá lógicamente del número de agentes y de la cantidad de información que recojan. 133 Nos referimos por unidades a cualquier dispositivo capaz de procesar información, generalmente serán PCs 302 DFSU se fundamenta por tanto en una arquitectura cliente/servidor de 3 capas134 : la capa de captura, capa de distribución y capa de procesamiento. La idea fundamental de la losofía cliente/servidor es la distribución de las tareas que debe realizar el sistema. Cada capa se encarga de proveer ciertos servicios: Capa de captura: Constituida por el conjunto de los agentes distribuidos, su misión será recoger información heterogénea, empaquetarla y enviarla a la capa de distribución. Capa de distribución: Esta capa tiene la misión de centralizar tanto las entradas del sistema (fuentes de información e interfaces de administración) como las repuestas 135 tras la detección de un ataque. Capa de procesamiento: Una vez que la información llega hasta la capa de distribución, esta se encarga de redistribuirla entre los distintas unidades que componen la capa de procesamiento, estas en caso de detectar algún ataque le retornarán un aviso. Una arquitectura multicapa cliente/servidor como lo que aquí se presenta, conere al sistema las siguientes características: 1. Escalabilidad: Permite la adición de nuevos equipos en cualquiera de sus 3 niveles para acomodarse a los requerimientos dinámicos del sistema. 2. Portabilidad: El software continua en vigencia más tiempo que el hardware que lo soporta, es por ello que el software de DFSU se caracteriza por su portabilidad a través de distintos tipos de hardware136 y sistemas operativos. 3. Apertura: Todos los datos están almacenados en cheros de formato abierto137 manipulables desde de un simple editor de textos. 4. Flexibilidad: Una arquitectura de este tipo permite ajustar la topología del sistema a un gran número de entornos productivos. 3.3.5. Estructura básica de DFSU Hoy en día la reducción de costes es un factor muy a tener en cuenta por toda empresa que desee ser competitiva en el mercado, en este sentido, la adquisición de grandes máquinas de procesamiento comienza a no ser justicable ante soluciones más económicas como son los sistemas de procesamiento distribuido. En este capítulo se expondrán con nombre propio los elementos que componen el sistema distribuido de DFSU ya explicados durante el Capítulo 2 así como las topologías en que puede congurarse un sistema productivo. 134 135 136 Véase Figura 3.43[UINDEB01] Véase el apartado 3.3.3 Hasta la fecha ha sido probado satisfactoriamente en arquitectura de 32 y 64 bits y en LittleEndian y BigEn- dian 137 Formato XML Extensible Markup Language 303 Figura 3.46: Arquitectura de tres capas Elementos estructurales y deniciones preliminares Dentro de la estructura de DFSU se distinguen 3 elementos básicos: Masters, Heads y Tails, la función de estos es implementar cada una de las capas en las que se divide DFSU: 1. Capa de Captura → Masters 2. Capa de Distribución → Heads 3. Capa de Procesamiento → Tails Masters o agentes distribuidos Los Masters son agentes heterogéneos y distribuidos cuya función es capturar, etiquetar y encapsular en eventos la información que se desea analizar. Se encuentran dispersos a lo largo de la red138 . Además de enviar la información capturada a la unidad central (Head), estos agentes pueden ser capaces de recibir y procesar comandos enviados por él. Estos comandos pueden ser de conguración ya que DFSU se gestiona de un modo centralizado desde el Head o de respuesta activa, en caso de que el sistema esté funcionando en modo IPS. Dado que contamos con Masters especializados en diferentes campos (HIDS y NIDS), el sistema dispone de una visión global de todo el entorno, pudiendo incluso llegar a correlacionar eventos de máquina con eventos de red. Imaginemos por ejemplo una red en la que se dispone de un master de red (Master2) y de un master de host (Master1)139 , ambos reportando la información capturada a la infraestructura de DFSU. Supongamos ahora que el Master2 detecta 138 Normalmente los monitores de red suelen ubicarse en cada uno de los dominios de colisión de la red y los Monitores de host en cada una de las máquinas que se quiera auditar. 139 Véase Figura 3.47 304 una anomalía en el tráco de red de la Subnet1, DFSU podría correlacionar esa anomalía con el comportamiento de la aplicación que lo ha generado en el Host1, aprendiendo así cual es el comportamiento a nivel de syscalls que tiene un efecto pernicioso para el sistema a nivel de red. Fíjese el lector que DFSU desborda a los sistemas tradicionales ya que tiene acceso tanto a los efectos del problema140 como a las causas que lo originaron141 , pudiendo así analizar el problema desde los dos puntos de vista. Por si ésto fuera poco, DFSU puede llevar la respuesta activa hasta cotas nunca antes soñadas y es que teniendo acceso directo tanto a las causas como a los efectos puede intervenir sobre ambos. En el ejemplo propuesto, podría intervenir activamente y recongurar un Firewall para que no deje pasar más tráco desde el Host1 (actuando sobre los efectos) o podría cerrar la aplicación que esta creando problemas (actuando sobre las causas). Como puede verse un modelo de este tipo permite un campo de acción prácticamente ilimitado. Figura 3.47: Correlacionando HIDS y NIDS Masters implementados hasta la fecha A día de hoy DFSU cuenta con tres tipos de masters completamente funcionales. Estos masters son tanto para la monitorización del tráco de red como para la auditoría de máquinas. En el caso de los sistemas de red empleamos un versión modicada de snort y en el caso de las auditorías hemos desarrollado una aplicación nueva para la captura de syscalls como se explicará más adelante. Monitor de red Al comienzo del proyecto se planteó la opción de crear un monitor de red empleando para ello la librería libpcap142 , llegando incluso a desarrollar versiones funcionales de éste. Poco tiempo después nos dimos cuenta de que en realidad no tenía demasiado sentido reprogramar desde cero algo sobre lo que habían estado trabajando programadores muy cualicados durante mucho tiempo. Decidimos por tanto adaptar Snort a nuestras necesidades. Ésta elección tubo por dos motivos: 140 141 142 En este caso un ataque de red Un conjunto de syscalls determinado. Libpcap es una librería para la captura de datos desde zona usuario. 305 http://www.tcpdump.org . [LOPEZ01] 1. Snort es a día de hoy el estándar de facto en los sistemas de detección de intrusiones basados en red. 2. Snort está licenciado bajo GPL, gracias a esto podemos tomar su código modicarlo y redistribuirlo143 . Modicando Snort hemos conseguido no sólo las ventajas del mejor snier sino también un veredicto con el que entrenar nuestros plugins basados en inteligencia articial de un modo automático y no supervisado. Monitor de Host De todas las técnicas existentes a la hora de implementar un HIDS hemos elegido la auditoría de syscalls por considerarla la más difícil de burlar144 siendo a la vez la que puede suministrarnos una información más completa y detallada sobre la ejecución de los programas en la zona usuario. No descartamos sin embargo integrar en el futuro esta solución con otras ya existentes como por ejemplo Tripwire145 . Actualmente en desarrollo Existen a día de hoy varios proyectos del tecnológico de Deusto que emplean la infraestructura de DFSU y en los cuales se están implementando nuevos Masters, concretamente versiones para Windows Mobile lo que permitiría emplear DFSU en más del 50 % del mercado de PDA's [EROSKI01], también para Symbian lo que cubriría el 57 % del mercado de teléfonos de última generación146 [QUES01]. Finalmente existe también un proyecto de crear una versión para Windows. Head o unidad central El Head es el elemento principal de la arquitectura e implementa la capa de distribución. Su misión principal es la de recibir los eventos provenientes de los Masters y distribuirlos entre los Tails pudiendo antes hacer ligeras147 modicaciones sobre esta información e incluso añadir nuevos datos. Se encarga también de centralizar todas las labores administrativas ya que implementa las interfaces de usuario. La distribución de la información o balanceo depende de la política de forwarding con la que este congurado el sistema148 , el objetivo perseguido al balancear la información es dividir el número de eventos entre varias unidades de procesamiento (Tails), logrando de este modo aumentar el rendimiento y permitiendo una escalabilidad sin precedentes. 143 144 Por supuesto esto nos obliga a mantener la licencia original es decir GPL Recordemos que está implementada a nivel de Kernel y no de usuario que es desde donde llegan los posibles ataques. 145 146 147 Tripwire http://sourceforge.net/projects/tripwire También llamados SmartPhones Las modicaciones deben ser computacionalmente sencillas, ya que si sobrecargamos el head toda la infraes- tructura se resentirá notablemente. 148 Véase 3.3.7 306 Para simplicar las labores de administración, el Head centraliza además el conjunto de alertas generadas por los Tails y toma la iniciativa de la respuesta activa enviando ordenes de reconguración tanto a masters de red como a masters host. El Head es una pieza clave del sistema, si el Head falla el sistema al completo dejaría de funcionar, de ahí que en entornos reales existe la posibilidad de congurar Heads de respaldo los cuales en circunstancias normales estarían inactivos pero que si ocurriera un fallo grave o una labor de mantenimiento del sistema principal, podrían activarse y continuar con el trabajo. Tails o unidades de procesamiento Los Tails reciben y procesan tanto los eventos como los comandos que el Head les reenvía. Una vez han recibido esta información se pone en marcha la infraestructura de eventos; Un paquete de información es un evento de tipo red (nEvent) o de tipo host (hEvent) de modo que todos los plugins suscritos al evento en curso serán llamados para que desarrollen la labor para la que fueron creados. Si el plugin en cuestión es un ExpertPlugin149 , éste deberá establecer si el paquete es o no un ataque. En caso de que lo sea, la infraestructura generará un evento de tipo alerta (Alert) que será enviado de vuelta al Head. Éste llamará a los plugins suscritos a eventos de tipo alerta (OutputPlugins) y serán ellos quienes tomarán las medidas de respuesta oportuna. Podríamos decir que los Tails son en núcleo de proceso de DFSU, pues en ellos se llevan a cabo las labores de detección. Dado que la arquitectura permite escalar su capacidad simplemente añadiendo maquinas, sería posible reducir el gasto en hardware empleando muchos ordenadores lentos para igualar la prestaciones que daría uno más rápido o unir varios rápidos para manejar un volumen de datos muy grande. Conguraciones topológicas soportadas por DFSU Uno de los principales problemas a los que deben hacer frente los sistemas de detección de intrusiones es sin duda ser capaz de procesar un volumen de datos ingente y hacerlo además en un lapso lo sucientemente pequeño como para poder dar una respuesta en tiempo real. Se hace por tanto necesario, aumentar las capacidades de proceso de éstos sistemas. Existen al menos dos alternativas para llevar a cabo ésta tarea; Por un lado nos encontramos con la escalabilidad vertical. Esta consiste en denitiva en aumentar la potencia del hardware150 bien mejorando sus componentes151 , bien adquiriendo uno nuevo más potente. La otra alternativa es la escalabilidad horizontal que consiste en emplear de un modo combinado la potencia de equipos más pequeños, para lograr así un potencial de cálculo superior al que podrían desarrollar cada uno de ellos por separado. 149 150 151 Véase 3.3.7 Esto puede conseguirse mediante el uso de mainframes y demás ordenadores de gama alta. En inglés to upgrade 307 En las fases iniciales de este proyecto descartamos la escalabilidad vertical. La principal razón para tomar esta decisión, fue que ésta lleva asociada una inversión económica que no está al alcance de muchas pequeñas y medianas empresas, ni por supuesto al de usuarios domésticos. Decidimos por tanto apostar por un sistema de capas que permitiera ajustar de una manera exible y sencilla la capacidad de cómputo del sistema a cada escenario productivo. A continuación se describen las principales Estructura mono-capa Esta es la conguración topológica más sencilla de todas y consiste en arrancar todas las capas en la misma máquina. Es decir, tener en una sola máquina arrancados los Master y el Head con los plugins de detección activos. Este modelo está totalmente desaconsejado para un sistema productivo, sin embargo puede resultar muy socorrido en entornos académicos o de desarrollo en los que el rendimiento no es un factor a tener en muy cuenta. Estructura de dos capas Únicamente desglosamos dos capas, una de captura y una en la que fusionamos distribución y procesado. Activamos de este modo los plugins de detección en el Head prescindiendo de los Tails pero aprovechando la potencialidad que nos dan los Masters distribuidos. A la hora de montar este modelo, deberá tenerse en cuenta que la capacidad de procesamiento de DFSU estará limitada por la máquina en la que se monte el Head, debiendo en cualquier caso controlar el número de Masters distribuidos para no llegar a un escenario en el que el sistema se vea sobrepasado por una carga de información excesiva. En este tipo de conguración la escalabilidad en caso de sobrecarga está muy limitada, por eso creemos que está puede resultar útil para sistemas no críticos quedando claramente descartada para proteger redes de importancia crítica o que puedan generar un gran volumen de datos. Figura 3.48: Estructura de dos capas 308 Estructura de tres capas Esta es la conguración en donde DFSU explota plenamente el potencial de las tres capas152 . En este esquema los plugins de detección se localizan en los Tails siendo éstos quienes envían las alertas de vuelta hacia el Head para ser tratadas. Como puede en Figura 2: Estructura de tres capas el número de Tails es variable, pudiendo el administrador adaptar su número hasta adecuarlo a las necesidades de la red. Figura 3.49: Estructura de tres capas Se recomienda que la información que circula entre Heads, Tails y Masters vaya por una red separada, de este modo no degradaremos el rendimiento de la red que pretendemos monitorizar153 sobre la que está montada el sistema productivo de la empresa y además proteger al propio sistema de detección de potenciales ataques. 152 153 Véase Figura 3.43 De lo contrario un master de red el tráco de paquetes puesto que todo lo que circulo lo encapsula y reenvía al head. 309 Estructura con plugins distribuidos Los plugins de detección son los encargados del proceso de análisis de la información recogida y pueden basarse bien en reglas cuya ejecución es poco costosa y por lo tanto suponen una sobrecarga leve en el sistema o bien en redes con gran capacidad de análisis (Redes Bayesianas154 ) las cuales suponen una sobrecarga muy alta en la máquina donde están ejecutándose. Es en este segundo caso donde los plugins distribuidos ayudan a evitar la sobrecarga del Tail que aloja los expertos. Figura 3.50: Estructura con plugins distribuidos En caso de que dispongamos de un plugin muy pesado, podremos preparar una máquina, que deberá estar conectada al Tail, donde se ejecutará el experto evitando así la posible sobrecarga. 154 Modelo probabilístico que relaciona un conjunto de variables indicando explicitamente mediante un grafo dirigido inuencia causal. 310 Estructura con Heads jerárquicos Si bien es cierto que el balanceo de carga existente en el Head alivia la carga que soportan los Tails para que no se saturen, en sistemas con grandes volúmenes de información para analizar, es el Head quien podría llegar a saturarse. Para solucionar este posible aunque improbable problema, se puede establecer una jerarquía de Heads que funcionarían de la siguiente manera: 1. En un primer nivel, el head únicamente actuaría como balanceador distribuyendo los eventos recibidos, sin realizar ningún cálculo ni procesado, de forma homogénea entre los Heads de nivel 2. 2. En el segundo nivel, los Heads coordinados entre sí como si de uno solo se trataran, balancearían los eventos entre los Tails. Figura 3.51: Estructura de Heads jerárquicos Como puede verse en la Figura 3.51 podemos tener tantos Heads funcionando en paralelo como se desee. Conclusión Sin duda contar con una arquitectura multicapa es una de las mayores virtudes DFSU, gracias a ella podemos crear topologías tan diversas como las que se han presentado a lo largo de este capítulo y que coneren a DFSU una escalabilidad y exibilidad sin precedentes en este campo de estudio. 311 3.3.6. DFSU un programa polifacético DFSU puede verse desde varias perspectivas según quién y cómo vaya a utilizarlo. Es por ello que este apartado se desglosa en tres puntos; Perspectiva del usuario nal, perspectiva del administrador de sistemas y perspectiva del desarrollador. En cada apartado se explicará lo que cada usuario debería conocer para la correcta utilización de DFSU y la repercusión que la implantación tendría en cada uno de ellos. Tras la lectura de este apartado se deberán conocer las diferencias entre las tres perspectivas existentes. DFSU desde la perspectiva del usuario nal ¾Quién puede ser un usuario nal de DFSU? La respuesta a esta pregunta es fácil; cualquiera. Existen dos maneras a través de las cuales DFSU puede estar recopilando nuestra información: 1. A través de la Red: Se da este caso cuando se está conectado a una red donde agentes de DFSU están monitorizando el tráco que circula . La adquisición de datos por parte de los agentes es completamente transparente para estos usuarios. 2. A través de Host: En este caso el agente debe estar instalado en la máquina del usuario. Ésto genera un tráco añadido a la red que aún no siendo muy elevado, debe estar calculado por los administradores de la misma con el n de que no repercuta en la percepción que el usuario tiene de la calidad del servicio. Problemática en materia de seguridad a la que se enfrentan los usuarios nales Actualmente los usuarios que desean tener protegido su terminal, tanto PC's como PDA's y terminales móviles, utilizan una serie de herramientas como antivirus, rewalls, HIDS, etc., que repercuten de forma negativa en el rendimiento del sistema que utilizan. Además, deben soportar las constantes actualizaciones a las que se ven sometidas diariamente estas aplicaciones con el n de hacer frente a los nuevas herramientas de ataque. La utilización de estos sistemas, en donde el cálculo se realiza en el cliente, comienza a no estar justicada pues día a día se dispone de: Redes de mayor capacidad para el envío de la información y Arquitecturas con mayor potencia de cálculo para el procesado de la misma. ¾En qué medida DFSU puede resolver estos problemas? Al igual que en la tecnología web, donde los nuevos sistemas tienden a servidores que se encargan de la mayoría de los cálculos y el usuario únicamente necesita un cliente muy ligero para visualizar la información, DFSU propone agentes muy ligeros. Masters donde solamente se captura y se envía la información que se desea procesar a través de la red. Esto supone una 312 mejora palpable en el rendimiento de los ordenadores, mucho más en terminales móviles, y por tanto una transparencia casi total para el usuario cuando hablamos de auditoría de Hosts. La transparencia total se ve reejada en el ámbito de las Redes y la monitorización de su tráco, donde el usuario nal no necesita tener instalado en su terminal ningún tipo de agente. En este caso son los propios administradores, (ISP's155 y demás operadores de telecomunicaciones, bancos, multinacionales, etc.), quienes los instalan a lo largo de sus redes. 155 Internet Service Provider, (Proveedor de servicios de Internet) 313 DFSU desde la perspectiva del administrador Un administrador debe ser capaz de congurar la infraestructura del modo que desee. En esta sección se detallarán pues, los elementos congurables así como los diferentes modos de funcionamiento y se hará una descripción exhaustiva sobre el sistema de plugins y su correcta utilización. ¾Quién puede ser un administrador de DFSU? Ya que entre las tareas más importantes que debe llevar a cabo un administrador de DFSU tocan el ámbito de las redes y el sistema operativo GNU/Linux, lo más recomendable sería disponer de un profesional con un nivel alto de conocimientos en estos campos. Problemática a la que se enfrentan los administradores de sistemas Los administradores de sistemas han de lidiar diariamente con ataques dirigidos contra las redes que están administrando. Para ello instalan y mantienen sistemas de seguridad de diferentes tipos por lo que deben conocer un amplio número de conguraciones posibles por cada sistema instalado además de las interfaces y comandos que oferta cada uno de ellos. ¾En qué medida DFSU puede resolver estos problemas? DFSU trata de solucionar en la mayor medida posible estas complicaciones, unicando los diferentes sistemas de detección de intrusiones existentes y centralizando la conguración de todo el sistema desde la unidad central (Head) que proporciona una interfaz intuitiva y potente. Conjunto de tareas asociadas a un administrador de DFSU El administrador de sistemas se deberá encargar de congurar y poner a punto el sistema, así como de tomar las decisiones sobre: 1. Qué estructura es la más adecuada. 2. Cuántas y dónde se han de situar las sondas. 3. Los plugins que estarán cargados. 4. Las políticas de enrutado y de respuesta ante alertas. Las sondas se han de colocar en aquellos sitios de la red donde se quiera monitorizar la información que circula por ella y en aquellas máquinas en los que se quiera realizar una auditoría sobre su funcionamiento. 314 Lo más habitual es cargar los mismos plugins de detección en todos los Tails, pero si se dispone de una cantidad muy elevada de éstos, puede ser recomendable no cargarlos todos dejando únicamente los más actuales. De haber un plugin muy pesado, la mejor opción es que sea cargado en el sistema como distribuido. 315 DFSU desde la perspectiva del desarrollador DFSU es un proyecto vivo que debe seguir creciendo y adaptándose a las nuevas ideas y requerimientos. Actualmente existen desarrolladores que se encargan de estas tareas y aquellos programadores que deseen unirse al proyecto y aportar sus ideas y conocimientos, deben tener una base y experiencia con el n de que lo realizado sea robusto y able. ¾Quién puede ser un desarrollador de DFSU? La estructura principal de DFSU ha sido desarrollada en c++ bajo la plataforma GNU/Linux. Es por esto por lo que un desarrollador que quiera ayudar en la mejora y ampliación de la infraestructura interna, debe tener experiencia en los siguientes campos: 1. Diseño de aplicaciones con idiomas de programación orientados a objetos 2. Programación en c++ sobre el sistema operativo GNU/Linux 3. Programación en redes. Si se desea desarrollar un agente distribuido, basta con conocer el sistema para el que se quiera desarrollar el agente y tener conocimientos sobre programación en redes. Como último apunte mencionar que es preferible que los desarrolladores utilicen la mayor parte de código estándar posible. 316 3.3.7. Componentes de DFSU Arquitectura de plugins Los plugins son una parte fundamental de DFSU pues la captura de datos y el procesado existente en la infraestructura, está destinado ha hacerles llegar la información que necesitan debidamente formateada y de la forma más transparente posible. Todos los plugins a excepción de los propios del sistema, System Plugins , se compilan fuera de la infraestructura como librerías dinámicas. Ésto quiere decir, que se puede desarrollar un plugin y probarlo sin necesidad de compilar una y otra vez la infraestructura, ahorrando un tiempo considerable. Además da la posibilidad de cargar solamente aquellos plugins que deseemos en cada momento de forma dinámica, sin necesidad de modicar, recompilar o reiniciar la infraestructura. Otra de las ventajas de que los plugins sean independientes es que pueden estar licenciados bajo una licencia diferente a la que lleva la estructura de DFSU, esto es; la GPL. Aquellos desarrolladores que deseen colaborar añadiendo funcionalidades podrán escoger entre un gran abanico de posibilidades a la hora de licenciar sus plugins. Para desarrollar un plugin, basta con elegir la plantilla correspondiente según su función. Todo plugin hereda de la clase plugskel Figura 1: Estructura de herencia de los plugins a través de la propia al tipo, la cual aporta atributos particulares a cada plugin, como se muestra en la gura: Figura 3.52: Estructura de herencia de los plugins Existen pues tres funciones comunes a modo de api que deben implementarse ya que están preparadas para que la infraestructura se comunique y envíe información al plugin: 1. void callBack(Evento* evnt): Esta función se ejecutará cuando se de el evento a los que está suscrito el plugin. 2. doThis(string cmd): Si se quieren interpretar los comandos recibidos por consola se deberá implementar esta función. 317 3. onExit(): Esta función se ejecutará cuando se destruya el plugin y deberemos colocar en ella la liberación de la memoria reservada. Figura 3.53: Clase PlugSkel 318 Tipos de plugins Como se puede observar en la Figura 1: Estructura de herencia de los plugins existen cinco tipos de plugins; Utility Plugin, Expert Plugin, System Plugin, Output Plugin y Distributed Plugin. Cada plugin cumple una función determinada, por lo que hay que escoger adecuadamente la plantilla cuando se vaya a desarrollar un plugin: 1. Utility Plugin: Este tipo de plugins suele tener una preferencia alta pues su función debería ser la de transformar, ltrar o modicar de alguna manera la información referente a los eventos para otros. Entre estos plugins podemos encontrar al llamado conntrack del que más adelante se hablará en detalle. La plantilla de estos plugins se encuentra en src/uplugins/templateU . 2. Expert Plugin: Los expert plugins o plugins expertos tienen la misión de analizar los eventos recibidos aplicando algoritmos y técnicas de detección de anomalías, intrusiones y/o ataques. Figura 3.54: Clase ExpertSkel Todo experto hereda de la clase ExpertSkel Figura 3: Clase ExpertSkel y debe hacer uso de la función especial setVeredict que se encuentra sobrecargada posibilitando las siguientes opciones: a ) setVeredict(int veredicto): Esta función únicamente especica el tipo de ataque. b ) setVeredict(int veredicto, string descripción): Aquí se nos da la posibilidad de añadir una descripción en caso de que el veredicto para ataque sea positivo pudiendo dar más información sobre el ataque. 319 c ) setVeredict(int veredicto, string descripción, int tipoAtaque): Por último se puede indicar además del veredicto y de la descripción el tipo de ataque con las siguientes opciones: 1) INFORMATIVE: El evento recibido no es peligroso, pero se desea reportar su entrada en el sistema. 2) PONTENTIALLY_DANGEROUS: Indica que de por si el evento no es dañino y que probablemente depende de la evaluación de próximos eventos y/u otros parámetros para poder determinar la forma en que afectará su entrada en el sistema. 3) DANGEROUS: El evento recibido debe tratarse ya que es maligno para el sistema contra el que va dirigido. 4) EXTREMELLY_DANGEROUS: Indica que el evento es extremadamente peligroso para el sistema al que va dirigido. 5) TESTING: Es un identicar para pruebas en el sistema. Por otro lado los valores posibles para los veredictos están denidos en la cabecera de la clase ExpertSkel y pueden ser los siguientes: El evento recibido no es un ataque. a 0 NO: b 0 YES: c 0 NSNC156 : El evento recibido es un ataque. No se debe tener en cuenta el veredicto del plugin para este evento. La plantilla de estos plugins se encuentra en src/eplugins/templateE . 3. System Plugins: Los system plugins o plugins del sistema son imprescindibles, desempeñan funcionen críticas del sistema y se compilan junto con este no siendo posible descargarlos. Algunos ejemplos de las tareas que puede desarrollar un system plugin son por ejemplo la interpretación de los eventos de comandos, decidir sobre el enrutado de paquetes etc... La plantilla para la creación de estos plugins puede encontrarse en la ruta src/splugins/- tempalteS . 4. Output Plugins: Los Output plugins o plugins de salida, son plugins especializados en el tratamiento de alertas. Una de las características más destacadas de este tipo de plugins es que se ejecutan en un thread distinto al del resto de plugins, con esto pretendemos evitar que una operación de entrada salida como por ejemplo la escritura a una base de datos paralice la ejecución del resto de plugins. La plantilla para la creación de estos plugins puede encontrarse en la ruta tempalteO. 156 NSNC es el acrónimo de No Sabe No Contesta 320 src/splugins/- Plugins con nombre propio La mayor parte de los plugins con nombre propio son system plugins que desempeñan tareas fundamentales para DFSU, es por tanto necesario comprender cómo actúan para de este modo ser capaz de congurarlos adecuándolos a nuestras necesidades. Deln En la sección anterior hemos descrito a los Expert plugins como los encargados de determinar si un determinado evento de tipo red o de tipo host es o no un ataque, dado que en un sistema pueden convivir varios plugins expertos ¾que sucedería si varios expertos diesen respuestas contradictorias sobre un mismo evento? aquí es donde entra Deln. Deln debe su nombre a ser siempre el último plugin en ejecutarse, de este modo puede recoger los veredictos del resto de plugins expertos que se han ejecutado antes que él y decidir en base a su modo de funcionamiento que acción tomar, a continuación describiremos los modos de funcionamiento distintos modos de funcionamiento de Deln, resolviendo en cada caso el siguiente ejemplo: 1. OR_MODE: Cuando este modo está activo basta con que uno de los expertos arme que el evento en cuestión es un ataque para que delfín genere un evento de tipo alerta. Si este modo fuese el modo activo en el momento en que se da la situación descrita en el Ejemplo 2: , Deln generaría una única alerta con una descripción genérica. 2. FOREACH_MODE: En este caso, se generarán tantas alertas como plugins hayan armado que el evento es un ataque. En el ejemplo propuesto Deln generaría 3 alertas, cada una de ellas con la descripción establecida por cada uno de los plugins expertos. 3. NAIVE_BAYES_MODE: Este es el modo más sosticado de todos los implementados, su funcionamiento se basa en el empleo de una red Bayesiana de tipo Naïve, sin entrar demasiado en detalle en el funcionamiento de una red Naïve, esta se fundamenta en probabilidades condicionales, de cada uno de los expertos que han dado el veredicto con respecto a la variable ataque157 , por lo tanto ya no dependerá tanto del número de nodos que digan que es un ataque sino de la abilidad158 de estos. Se introduce de este modo un factor muy interesante que es el de puntuación de los expertos o scoring, aquellos con una probabilidad condicionada alta serán más ables y por lo tanto mejores que otros que expliquen peor la variable ataque. 157 Empleamos la variable ataque que nos viene del agente de red para entrenar Deln y obtener así unas probabilidades condicionales lo más realistas posibles, para el caso de los agentes de syscalls el entrenamiento debería hacerse manualemente ya que no contamos con una variable ataque asociada a cada una de las traza de syscalls analizadas. 158 Fiabilidad en el mundo de las redes Naïve podría describirse como una probabilidad condicionada alta de que dado el veredicto armativo de un experto el evento en cuestión 321 Ejemplos de conguración práctica la consola emplearemos el comando cmd Para congurar los modos antes explicados desde tal y como se detalla a continuación: En esta imagen pueden verse las opciones que nos da Deln a través del comando cmd. Figura 3.55: Deln opciones de conguración Podemos modicar el modo de funcionamiento mediante el comando mostrado en la gura sustituyendo el indicado por el que deseamos. Para conocer el modo en el que está funcionando Deln basta con ejecutar el comando de la gura. Figura 3.56: Deln cambiando el modo de funcionamiento 322 Figura 3.57: Deln mostrando el modo de funcionamiento actual Figura 3.58: Listado de modos de funcionamiento de Deln Este es el listado de modos con los que podemos congurar Deln. En esta imagen podemos ver la salida del plugin cmdOut mostrando en pantalla una alerta generada por Deln. Conntrack Una de las secciones más importantes de DFSU es Conntrack, este plugin159 se encarga de llevar un seguimiento a nivel de sesión, una sesión es en el caso de un monitor de red cada una de las conexiones160 sobre las que está capturando datos, una conexión de red se identica por una clave privada compuesta por la dirección IP origen + puerto origen + IP destino + puerto destino. En el caso de los monitores de host una sesión se identica por la máquina origen y el identicativo de proceso al que pertenecen las syscalls auditadas. Conntrack implementa un algoritmo LRU161 con las últimas X sesiones 162 ordenadas en base al número de eventos pertenecientes cada una de las sesiones y el timestamp del último evento perteneciente a dicha sesión. 159 160 Es un utility plugin, calcula datos para otros plugins Nos referimos a conexiones lógicas no físicas, de ahí que conntrack también funciona con protocolos no orientados a la conexión como UDP. 161 162 Least Frequently Used Dentro de esta sesión Conntrack permite además guardar información de estado asociada a esta sesión como por ejemplo el número de bytes transmitidos o el número de syscalls procesadas. Figura 3.59: Deln ejemplo de una alerta 323 En el siguiente apartado se explicará por qué esta información es tan importante para DFSU. eforwarder Su función radica en escoger a que Tail al que hay que enviar la información recogida desde el master, si conntrack es tan importante para DFSU es por que muchos expert plugins tienen estado163 y si enviásemos por ejemplo la traza de syscalls de un determinado host cada vez a un Tail distinto este sería incapaz de correlacionar la información de las primeras syscalls con la de las siguientes pues estas nunca le llegaron. La información de conntrack nos sirve para poder enviar la información de una misma sesión siempre al mismo tail. 163 statefull expert plugins 324 Figura 3.60: eForwarder opciones de conguración Figura 3.61: eForwarder listado de modos eForwarder al igual que Deln dispone de varios modos de funcionamiento, a continuación se describen brevemente: 1. MODE_ROUND_ROBIN: En este modo los eventos se envían de modo equitativo a los Tails conectados. Si hubiera 2 Tails conectados, el primer evento se enviará al primer Tail, el segundo al segundo Tail, el tercero al primer Tail otra vez, etc... Es el modo óptimo desde el punto de vista del balanceo de carga ya que la diferencia de eventos recibidos entre Tails será como máximo de uno. 2. MODE_BY_ORIGIN: Este modo envía todos los evento recibidos por un mismo master al mismo Tail. 3. MODE_BY_PROCESS: Este modo envía todas las syscalls generadas por un mismo proceso siempre al mismo Tail. 4. MODE_BY_USER: Este modo envía todas las syscalls generadas por un mismo usuario siempre al mismo Tail. 5. MODE_BROADCAST: Duplica la información recibida desde los Masters a todos y cada uno de los Tails suscritos. Ejemplos de conguración práctica la consola emplearemos el comando cmd Para congurar los modos antes explicados desde tal y como se detalla a continuación: Estos son los comandos con los que podemos comunicarnos con el plugin eForwarder. Estos son los modos de conguración posibles para eForwarder. Este es el modo que está funcionando actualmente. 325 Figura 3.62: eForwarer mostrando el modo de funcionamiento actual Figura 3.63: eForwarder cambiando el modo de funcionamiento Esta es la forma de cambiar el modo de funcionamiento de eForwarder. Stats Para controlar el rendimiento de la infraestructura DFSU cuenta con este System plugin, su labor es llevar una estadística de las variables más relevantes, por ejemplo el número de eventos recibidos y su tipo, el número de ataques, si se están produciendo drops etc...164 , en la imagen Figura 13: Stats, ejemplo de salida por pantalla podemos ver un ejemplo de la salida del comando cmd Stats. 164 Un drop consiste en descartar un paquete y tiene lugar cuando llega un evento para el que no hay sitio en las colas. 326 Figura 3.64: Stats, ejemplo de estadisticas de sistema. Servidor Web Integrado Uno de los mayores aciertos de DFSU fue integrar un servidor web dentro de la propia infraestructura, gracias a este servidor al que bautizamos WebOs DFSU cuenta con las siguientes ventajas: 1. Fácil diseño de interfaces: Al haber programado WebOs desde 0 pudimos adecuar su diseño perfectamente a nuestras necesidades, una de las ventajas que obtuvimos fue poder controlar cuando comienza y cuando acaba una petición web de manera que podemos recoger ordenes desde los CGI165 y así permitir que una interfaz escrita en HTML tenga acceso directo a una API166 en XML desde la que ejecutar comandos dentro de DFSU (carga de plugins, descarga etc...). Además al permitir programar en perl, un lenguaje que conocen muchos administradores de sistemas, permitimos que la gente pueda desarrollar sus propias interfaces grácas sin tener que recompilar DFSU y sin tener que meter una sola línea de C++. 2. Arquitectura C/S: Al ser una arquitectura cliente/servidor el administrador puede congurar la arquitectura de DFSU desde cualquier terminal conectado a la red. 3. Independencia de plataforma: La tecnología web es una tecnología estandarizada que permite a cualquier sistema que tenga programado un navegador compatible acceder a cualquier web. Algo que no puede decirse de las interfaces web convencionales. 165 166 Common Gateway Interface Application programming interface 327 3.3.8. DFSU primeros pasos ¾Cómo conseguir el código? DFSU es software libre y como todo programa de software libre tiene su sitio en sourceforge167 , concretamente en la siguiente url: http://dfsu.sourceforge.net Además puede visitar la web de DFSU en www.dfsu.net donde además de informarse sobre las últimos cambios puede unirse a las distintas listas de distribución: Usuarios: [email protected] Administradores: Developers: [email protected] [email protected] Licencia Como ya se ha mencionado con anterioridad DFSU se enmarca dentro del gran proyecto que es el software libre y como es lógico empleamos licencias libres. El código de DFSU está licenciado bajo GPL y la memoria que ahora está leyendo está licenciada bajo Creative Commons. DFSU sigue una política parecida a la del Kernel de Linux en materia de licencias y es que DFSU usa y apoya explícitamente licencias sin embargo no las forzamos, si un programador o empresa desea desarrollar plugins para DFSU, no sólo puede hacerlo sino que además puede elegir la licencia que más le convenza, lo que lógicamente incluye licencias privativas y/o de código cerrado. Estructura de directorios Lo primero que se debería conocer perfectamente es la estructura de directorios en que se compone el proyecto con el n de poder localizar y congurar lo más ecientemente posible la opciones necesarias. Los tres elementos de la infraestructura comparten una jerarquía de directorios muy similar con la que cualquier administrador de sistemas Unix like se sentirá muy familiarizado. En el directorio raíz de esta jerarquía se distinguen las carpetas src para los cheros fuente, doc para los cheros de documentación, etc para los cheros de conguración, lib para las librerías y bin para los binarios. A continuación expandiremos uno por uno los directorios expuestos anteriormente: Estructura de la raíz del proyecto dfsu: Esta es la rama principal de donde cuelgan la estructura de directorios del Head, Tail y Masters. 167 http://www.sourceforge.net 328 • dfsu/Head: Contiene todos los cheros fuentes de este elemento de la estructura. • dfsu/Tail: Contiene los mismos cheros y estructura que la carpeta anterior estando la diferencia en los datos de los cheros de conguración. • dfsu/Masters: Es la raíz de donde parten los Masters implementados. ◦ Masters/snortMaster ◦ Masters/syshooker 329 Estructura de directorios en el Head y en el Tail Head/src: Agrupa todos los cheros fuentes de la infraestructura proyecto. • src/includes: Contiene las cabeceras de los fuentes que se encuentran en src . • src/eplugins: Carpeta para almacenar los plugins expertos. • src/oplugins: Carpeta para guardar los plugins de respuesta. • src/splugins: Carpeta con los plugins del sistema. • src/uplugins: Carpeta que contiene los plugins de utilidad. • src/webos: Aquí se encuentran todos los cheros que conciernen al servidor web WebOs. ◦ src/webos/src: Aglutina todos los cheros fuente que forman el servidor web. ◦ src/webos/etc: Contiene el chero de conguración del servidor web webos.xml . ◦ src/webos/htdocs: Contiene los documentos que utiliza el servidor web para presentar la página inicial además de una estructura propia de directorios con todo lo necesario para la edición de la interfaz web. htdocs/cgi-bin: Carpeta que contiene los scripts ejecutables en perl. htdocs/xml: Contiene el chero hirearchy.xml donde se especica la jerar- quía que se visualizará en el menú que aparece en la izquierda en la interfaz web. htdocs/images: Carpeta donde se encuentran las imágenes que se muestran en la interfaz. htdocs/inc: Contiene los cheros que forman la cabecera, en pie de página y el menú a incluir en las páginas que se quieran desarrollar. htdocs/static: Contiene los cheros html jos que forman la página web que se muestra. htdocs/stylesheet: Ficheros .css que contienen los estilos a utilizar. htdocs/vars: Ficheros variables que se generan en cada sesión. ◦ src/webos/logs: Carpeta donde el servidor web deja los logs generados. Head/etc: Contiene los cheros de conguración más importantes slaveconf.xml y oa- conf.xml. Head/bin: Contiene los ejecutables, tanto del programa como el compilador de plugins que más adelante se detallará. Head/doc: Contiene la documentación al completo de DFSU. 330 Head/lib: Contiene la librería estática en la que se compilan todos los objetos que se encuentran en la carpeta Head/logs: src . Carpeta donde se guardan los logs del sistema. Head/sessions: Carpeta donde se guarda un xml con un resumen de la sesión con infor- mación proporcionada por los plugins del sistema, como el número de ataques detectado. 331 Estructura de directorios en el Master Syshooker Dado que este Master se compone, como ya se ha explicado, de dos aplicaciones existen dos directorios base para cada una de ellas: dfsu/syshooker: Es el nombre del directorio raíz, y de aquí parte la estructura de las dos aplicaciones. • syshooker/hookermaster: Este es el módulo que se encarga de capturar las syscalls del sistema para que las recoja la aplicación cliente. No tiene una estructura interna de directorios por el reducido número de cheros que lo componen. • syshooker/hookerclient: La aplicación cliente se encuentra a partir de este directorio. Además aquí podemos encontrar los cheros para compilar y ejecutar la aplicación. ◦ hookerclient/bin: En esta carpeta es donde se encuentra el archivo ejecutable. ◦ hookerclient/etc: Contiene el chero de conguración mastercong.xml , donde se han de congurar los parámetros para la conexión como más adelante veremos. ◦ hookerclient/lib: Contiene la librería estática donde compilan todos los objetos del programa. ◦ hookerclient/src: En esta carpeta se encuentran los cheros fuentes de la aplicación. src/includes: Contiene las cabeceras de los cheros fuentes arriba mencionados. Estructura de directorios en el Master Snort modicado Dado que la gran mayoría de esta aplicación es externa al proyecto DFSU, únicamente explicaremos dónde y que se encuentra en las modicaciones añadidas. snortMaster/src/dfsu: En esta carpeta es donde se encuentran los cheros fuentes de la aplicación. Compilación e Instalación de una instancia de DFSU Para realizar la instalación y la compilación de DFSU han de seguirse unos pasos y se necesitan ciertos paquetes de los que se depende los cuales vienen detallados en esta sección. Se ha intentado que el número de dependencias sea el menor posible para facilitar al máximo este proceso. 332 Compilación e Instalación Este apartado se encuentra dividido en tantas partes como de ellas se compone DFSU. Al principio de cada una de ellas se hará un repaso de los paquetes que se necesitan tener instalados para poder compilar el programa. Ya que DFSU está escrito en c++ y la compilación se lleva a cabo mediante el comando make, necesitaremos tener instalado una versión de g++-3.3 o superior así como una versión de automake. Compilación e instalación del Head y el Tail En el chero INSTALL que encontraremos en la raíz de la estructura de directorios se nos indican las dependencias de los paquetes necesarios para poder realizar una compilación satisfactoria. Los paquetes en cuestión son los siguientes: 1. LibXML2: http://xmlsoft.org/ 2. ReadLine: http://cnswww.cns.cwru.edu/chet/readline/rltop.html 3. Libncurses5-dev: 4. Perl: libxml-simple-perl Una vez instalados estos paquetes, bien en su forma binaria, bien desde las fuentes tenemos todo lo necesario para poder construir DFSU, a continuación se explica cómo: Abriremos una consola y nos posicionaremos en la raíz del árbol de directorios de DFSU, una vez ahí entraremos en la carpeta dfsu/Head , donde ejecutaremos el siguiente comando: $ make Una vez que el comando haya terminado, podremos entrar dentro de la carpeta y comprobar que existe el ejecutable dfsu/Head/bin dfsu/Head/bin/slave. Compilación e instalación del Snort Modicado Para compilar este agente debemos tener instalada la librería Libpcap. Una vez la tengamos instalada nos situaremos en la carpeta raíz snortMaster/ y ejecutar los siguientes comandos: 1. $ ./congure 2. $ make Finalmente para llevar a cabo la instalación se ejecutara el comando: 3. $ make install 333 echo trivialExpert 1 sh p++.sh ../src/eplugins/trivialexpert/ trivialexpert echo cmdOut 2 sh p++.sh ../src/oplugins/cmdout/ cmdout Cuadro 3.10: Fichero de compilación compileAll.sh Compilación e Instalación del Syshooker Para compilar el módulo del kernel Syshooker necesitará tener un kernel compilado a mano que puede conseguir en http://www.kernel.org. Una vez descargado y recompilado con las opciones básicas entre en la carpeta donde se encuentra el syshooker y ejecute las siguientes instrucciones: 1. $ make Tras la ejecución de este comando se construirá el módulo del kernel, chero .ko, el cual podrá insertar dentro del núcleo con el siguiente comando: 2. $ insmod syshooker.ko Compilación e Instalación de los Plugins Para la compilación de los plugins tenemos dos herramientas disponibles en la carpeta bin/ que se encuentra en la raíz de Head y del Tail. Estas herramientas son scripts de consola; el p++.sh y el compileAll.sh. Cuando se dispone de un número bajo de plugins lo mejor es editar el segundo chero que contiene lo siguiente: Vemos como este script básicamente lo único que utiliza es el p++.sh pues es el que se encarga realmente de compilar los plugins. En caso de no querer utilizar este chero lo único que necesitaremos hacer es copiar la linea marcada con un 1 o la linea marcada con el 2 y cambiar la ruta y el nombre del plugin que deseamos compilar. Una vez compilados, solamente necesitaremos incluirlos en el chero oaconf.xml para que sean cargados en el sistema. 3.3.9. DFSU conguración y puesta en marcha de una instancia Comprendiendo los cheros de conguración La mayoría de los elementos congurables en el sistema disponen de un chero en el cual se indica la conguración elegida. Éstos están en formato xml por ser el estándar de facto por excelencia para el intercambio de información y se encuentran validados mediante un DTD, por lo que es importante no modicar su estructura. 334 Hay que tener en cuenta, que si bien el Master y los plugins son aplicaciones cada una independiente de la otra, el programa que ejecutado en el Head y en el Tail es el mismo estando congurado de modo diferente. Ésto puede ser indicador de la gran importancia de conocer a fondo las funciones y posibilidades de cada chero. Ficheros del Head y de los Tails Son tres los cheros congurables en el Head y el Tail: slaveconf.xml , oaconf.xml y webos.xml. A continuación se explica su descripción interna y la ruta donde se encuentran: slaveconf.xml Es el chero de conguración maestro tanto para los Head como para los Tail. Todos los puntos comentados aquí sirven tanto para el Head como para el Tail, a no ser que se especique explícitamente lo contrario. <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE dfsu_slave SYSTEM "slaveconf.dtd"> <dfsu_slave> 1 <workAsHead value="no"/> 2 <name value="Tail1"/> 3 <verbose value="no"/> 4 <debug value="no"/> 5 <logPath value="etc/"/> 6 <webosPath2Cong value="src/webos/etc/webos.xml"/> 7 <oaPath2Cong value="etc/oaconf.xml"/> 8 <queuesSize value="500"/> 9 <tentacleTimeOut value="15"/> 10 <maxMasters value="15"/> 11 <maxTails value="15"/> 12 <headIp value="192.168.0.1"/> 13 <headBeaconPort value="4320"/> 14 <localBeaconPort value="4320"/> 15 <localTCPPort value="4320"/> </dfsu_slave> Cuadro 3.11: Fichero slaveconf.xml del Head y del Tail 335 workAsHead: La primera etiqueta es posiblemente la más importante de todas, ya que dene el comportamiento interno de la aplicación, variando de Head a Tail según pongamos yes o no respectivamente En el caso de escoger tiene como nombre name: yes las etiquetas 2, 12 y 13 carecen de sentido. El Head siempre Head . La etiqueta name se utilizará para identicar a los diferentes Tails que se conecten y la única restricción en este campo es que no puede tener el valor Head . En caso contrario no podrá conectarse En el caso de escoger no da igual lo que se ponga en la etiqueta 6 y 11. verbose: Muestra por la consola existente, más información sobre lo que está ocurriendo en la infraestructura. debug: Muestra información útil únicamente para desarrolladores del sistema. logPath: Ruta donde se guardarán los cheros de log. webosPath2Cong: Es la ruta donde se encuentra el chero de conguración del servidor web integrado WebOs, que más adelante se detallará. oaPath2Cong: Especica la rula a uno de los cheros de conguración más importantes. En él se almacena toda la información referente a los plugins que deben ser cargados en el sistema. queuesSize: Indica cual es el número máximo de eventos que puede haber dentro de una cola del sistema. Es importante no dar un valor reducido pues la infraestructura necesita un margen para poder funcionar correctamente. tentacleTimeOut: Es el tiempo que se esperará antes de desconectar desde la ultima recepción o envío satisfactorio al Head en el caso del Tail o de los Masters y Tails en el caso del Head. maxMasters: maxTails: headIp: Es el número máximo de masters que se pueden conectar. Es el número máximo de Tails que se pueden conectar. Cuando funcionamos como Tail, es esta la ip a la que nos intentaremos conectar cuando se arranque la aplicación. headBeaconPort: Operando como Tails, este será el puerto al que se envíe la información de control. localBeaconPort: Puerto por el que se escuchará la información de control. 336 <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE plugins SYSTEM "oaconf.dtd"> <plugins> 1 <plugin> 2 <loadOnBoot value="yes" /> 3 <name value="CmdOut" /> 4 <precedence value="1" /> 5 <absPath value="src/oplugins/cmdout/cmdout.so"/> 6 <subscriptionList> 7 <EID value="5"/> 8 <EID value="0"/></subscriptionList> 9 <path2cong value=""/> 10 <enabledOnBoot value="yes"/> </plugin> </plugins> Cuadro 3.12: Fichero oaconf.xml del head y del tail localTCPPort: Puerto por el que se esperarán conexiones entrantes provenientes del Head si funcionamos como Tail o de Masters si funcionamos como Head. oaconf.xml loadOnBoot: plugin: Especica si el plugin se cargará en memoria al inicio del programa. Los datos de carga de cada plugin vienen indicados dentro de esta etiqueta, por lo que en caso de querer añadir nuevos plugins bastará con repetir el bloque <plugin>, (como en el ejemplo), entre la etiqueta <plugins>. name: Es el nombre con el que aparecerá el plugin en los listados una vez se esté ejecutando la aplicación. precedence: Indica cual será el orden en el que se llamará a el plugin pero existen unos límites en el valor de la precedencia para asegurar que ciertos plugins del sistema se ejecutan los primeros y los últimos. Puede haber plugins con la misma precedencia. La máxima precedencia es 1, y la mínima 1000. absPath: Ruta absoluta hasta el chero compilado como librería. 337 <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE weboscong SYSTEM "weboscong.dtd"> <weboscong> 1 <ip>127.0.0.1</ip> 2 <index_page>index.pl</index_page> 3 <htdocs_dir>src/webos/htdocs/</htdocs_dir> 4 <max_requests>100 </max_requests> 5 <port>81 </port> 6 <user>www-data </user> 7 <perl_executable>/usr/bin/perl</perl_executable> 8 <logle>src/webos/logs/access.log </logle> 9 <cgi_pattern>.pl </cgi_pattern> 10 <hostname>titania </hostname> 11 <max_age>3</max_age> </weboscong> Cuadro 3.13: Fichero webos.xml del Head y del Tail subsCriptionList: Es el listado de eventos a los que se desea que se suscriba el plugin para que se le llame cuando se den. El listado de eventos y su valor lo podemos consultar en el chero: EID: src/includes/eid_table.h. Indica un evento al que se suscribirá el plugin. Para suscribir el plugin a más de un evento basta con repetir esta etiqueta cambiando el valor del atributo path2cong: valor . En caso de que el plugin tenga un chero de conguración propio será aquí donde indiquemos la ruta hasta su chero. enabledOnBoot: A pesar de estar cargado, un plugin puede estar deshabilitado por lo que no se le llamará cuando se de uno de los eventos a los que se ha suscrito. webos.xml ip: En el caso de existir varias interfaces, se le puede indicar al servidor por cual de ellas queremos que quede a la escucha. index_page: En caso de no indicarle en el navegador el chero al que queremos acceder, buscará el chero que pongamos aquí para mostrar su información. htdocs_dir: Es la ruta donde encontrará todos los documentos necesarios para la visua- lización correcta de las páginas. 338 1 make 8 2 rmmod syshooker 3 insmod syshooker.ko sysCallTable=322395980 Cuadro 3.14: Fichero reload.sh del Syshooker max_requests: Para evitar en lo posible una ataque de denegación de servicio, es posible indicar el número máximo de peticiones que se pueden atender simultáneamente. port: Puerto por el que quedará a la escucha el servidor web. perl_executable: logle: Ruta hasta el interprete de perl que deseamos utilizar. Ruta del chero donde se dejarán los mensajes de log. cgi_pattern: Es la extensión que tendrán los cheros que deseamos que sean ejecutados. hostname: Es el nombre de nuestra máquina. max_age: Para evitar que el servidor web se quede bloqueado debido a la ejecución de un script que consuma muchos recursos debido a bucles innitos podemos especicar el tiempo máximo de ejecución que tiene un script. Ficheros de los Masters Al igual que el Head y los Tails, los Masters disponen de sus propios cheros de conguración con los que les indicaremos los datos necesarios para su funcionamiento. Syshooker Este Master se compone de dos aplicaciones, un LKM que se encarga de capturar las syscalls generada por los procesos en ejecución, y un programa cliente que recibe esa información, la procesa y la transmite al Head. Existen pues dos cheros que deberemos congurar, 339 reload.sh y mastercong.xml . <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE dfsu_master SYSTEM "mastercong.dtd"> <dfsu_master> 1 <name value="Master1"/> 2 <tentacleTimeOut value="3"/> 3 <headIp value="172.26.0.2"/> 4 <headTCPPort value="4320"/> </dfsu_master> Cuadro 3.15: Fichero mastercong.xml del Syshooker Este primer chero no es más que un script para cargar el módulo que recoge las syscalls en el sistema operativo de la máquina. El parámetro que se debe modicar se encuentra en la línea tres, y es el número que aparece después de sysCallTable=. Para obtener dicho número deberemos ejecutar el comando: $ cat /boot/System.map |grep sys_call_table que retornará un valor similar al siguiente: C0484700 D sys_call_table Este valor es la dirección de memoria en hexadecimal donde el kernel ubica la tabla de syscalls, deberemos por tanto convertirla a decimal. El chero mastercong.cfg name: tiene las líneas de conguración que se explican a continuación: Es el nombre con el que se identicará al Master. tentacleTimeOut: Este valor indica cuanto tiempo pasará antes de desconectarse y volver a conectarse al Head desde la ultima recepción o el último envío de datos. headIp: Como su propio nombre indica, aquí se especica la dirección de Red de la máquina en la que se está ejecutando el Head. headTCPPort: Es el campo donde hay que poner el puerto de escucha del Head para que la conexión sea posible. Snort Modicado run.sh . Este Master dispone de dos cheros de conguración, dfsumcong.cfg y En el primer de ellos especicaremos los datos necesarios para que el Master pueda encontrar el Head y establecer la conexión: 340 1[SLAVE] 2 IP=127.0.0.1 3 PORT=4320 4 BUFFERSIZE=500 5 NAME=Master2 Cuadro 3.16: Fichero dfsumcon.cfg del Snort Modicado src/snort -i eth2 -l /tmp/ -c etc/snort.conf -j dfsumcong.cfg -A console Cuadro 3.17: Fichero run.sh del Snort Modicado Su funcionamiento es muy simple ya que únicamente hay que editar las lineas 2 y 3 e indicar la dirección de red y el puerto de la máquina que contiene el Head. En el segundo chero solamente lo modicaremos para especicar la interfaz por la que se monitorizará el tráco de red. Escogiendo la estructura óptima Es muy importante escoger bien la estructura que mejor se adapte a nuestras necesidades en pos de obtener el mínimo coste. En caso de no estar seguros sobre cual es la más adecuada, empezar por una estructura de tres capas con uno o dos Tails es lo más recomendable. Mediante los indicadores de sobrecarga del sistema visibles en la interfaz web determinaremos si necesitamos más capacidad de cálculo o no. En caso armativo el procedimiento a seguir para solucionar el problema será el de ir añadiendo Tails de forma progresiva hasta lograr un rendimiento adecuado. Congurando el Master, el Head y el Tail Una vez escogida la estructura que deseamos implementar en nuestra red, deberemos congurar el Head y los Tails correctamente. A continuación se explicarán con detalle todos los pasos que se han de llevar a cabo para poner en funcionamiento la estructura de DFSU. Ejemplo de conexión paso a paso Al igual que en la hostelería, qué mejor método para explicar cómo llevar a cabo una tarea que un ejemplo. Es por ello que en los siguientes pasos se creará una estructura completa, compuesta de los siguientes ingredientes: Un master de Host Un master de Red 341 Un Head Un Tail Para este ejemplo se han utilizado tres máquinas, siendo cada una de ellas uno de los elementos de la estructura, (Master, Head y Tail). Así pues en la primera máquina hemos colocado tanto el Master de Red como el de Host, en la segunda el Head y en la Tercera el Tail. 342 Editando los cheros de conguración Como ya aprendimos en la sección de conguración, los primeros cheros que hemos de editar son slaveconf.xml para el Head y el Tail, dfsumcong.cfg, run.sh para el Master de Snort modicado y mastercong.xml para el Master de Host. Lo primero que se debe saber, para poder entender las conguraciones elegidas en los cheros de ejemplo, son los datos de red que tienen las máquinas que albergan los diferentes elementos: Conguración de la máquina que contiene los Masters Dirección de Red: 192.168.0.1 Máscara de Subred: 255.255.255.0 Dirección de Red eth2: 192.27.0.15 Máscara de Subred eth2: 255.255.255.0 Conguración máquina que contiene el Head Direccion de Red: 192.168.0.2 Máscara de Subred: 255.255.255.0 Conguración de la máquina que contiene los Tails Dirección de Red: 192.168.0.3 Máscara de Subred: 255.255.255.0 En caso de existir alguna duda sobre los datos que se han congurado en los cheros, es recomendable volver a la sección Comprendiendo los cheros de conguración. Los campos más importantes que han sido modicados para poder realizar la conexión se encuentran en negrita y los campos que no tienen sentido según se funcione como Head o como Tail carecen de contenido. Conguración del Master 1. Fichero dfsumcong.cfg: Los parámetros más importantes que debemos indicar son la dirección de red y el puerto de la máquina en la que se encuentra escuchando el Head. 2. Fichero run.sh: En este chero hemos congurado el Snort modicado de manera que capture el tráco que llega por la interfaz 2. La conexión hacia el Head se está lanzando por la interfaz de red eth1. 343 [SLAVE] IP=127.0.0.1 PORT=4320 BUFFERSIZE=500 NAME=Master2 Cuadro 3.18: Ejemplo de conguración del chero dfsumcong.cfg del Snort Modicado src/snort -i eth2 -l /tmp/ -c etc/snort.conf -j dfsumcong.cfg -A console Cuadro 3.19: Ejemplo de conguración del chero run.sh en el Snort Modicado Conguración del chero mastercong.xml como Master1 Vemos que este master se identicará y se intentará conectar a la ip y puertos que hemos congurado en la máquina donde se está ejecutando el Head. <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE dfsu_master SYSTEM "mastercong.dtd"> <dfsu_master> <name value="Master1"/> <tentacleTimeOut value="3"/> <headIp value="192.168.0.2"/> <headTCPPort value="4320"/> </dfsu_master> Cuadro 3.20: Ejemplo de conguración del chero mastercong.xml en el Syshooker Conguración del chero slaveconf.xml del Head En el Head, lo más importante a denir en su chero de conguración es el primer campo, donde se especica que funcionará como tal, y los campos de los puertos. A pesar de que en el ejemplo los puertos BeaconPort y TCPPort son iguales, no es obligatorio que sea de ésta manera. Conguración del chero slaveconf.xml del Tail Además del primer campo que dene su funcionamiento como Tail, es muy importante el campo del nombre y los campos de conexión. Existe una restricción en los nombres que se asignan a los Tails y por el cual el Head puede prohibir la conexión: El Head no dejará conectarse a un Tail si ya existe una conexión con otro que tenga el mismo nombre congurado o si por nombre lleva la palabra Head. En este punto ya tenemos correctamente congurados todos los elementos del sistema para que la conexión sea posible. Los cheros de conguración de los plugins aún no los hemos con- 344 <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE dfsu_slave SYSTEM "slaveconf.dtd"> <dfsu_slave> <workAsHead value="yes"/> <name value=""/> <verbose value="no"/> <debug value="no"/> <logPath value="logs/"/> <webosPath2Cong value="src/webos/etc/webos.xml"/> <oaPath2Cong value="etc/oaconf.xml"/> <queuesSize value="500"/> <tentacleTimeOut value="15"/> <maxMasters value="15"/> <maxTails value="15"/> <headIp value=""/> <headBeaconPort value=""/> <localBeaconPort value="4320"/> <localTCPPort value="4320"/> </dfsu_slave> Cuadro 3.21: Ejemplo de conguración del archivo slaveconf.xml en el Head 345 <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE dfsu_slave SYSTEM "slaveconf.dtd"> <dfsu_slave> <workAsHead value="no"/> <name value="Tail_1"/> <verbose value="no"/> <debug value="no"/> <logPath value="logs/"/> <webosPath2Cong value=""/> <oaPath2Cong value="etc/oaconf.xml"/> <queuesSize value="500"/> <tentacleTimeOut value="15"/> <maxMasters value="15"/> <maxTails value="15"/> <headIp value="192.168.0.2"/> <headBeaconPort value="4320"/> <localBeaconPort value="8000"/> <localTCPPort value="8000"/> </dfsu_slave> Cuadro 3.22: Ejemplo de conguración del chero slaveconf.xml en el Tail 346 gurado pues lo primero es asegurarnos de que la estructura está operativa. Más adelante veremos como congurar y detectar un ataque de manera detallada. Lanzando las aplicaciones Lanzando el Head La Pasemos ahora a lanzar las aplicaciones una a una: Figura 3.65 muestra el resultado que deberemos obtener una vez que hayamos lanzado las aplicaciones en el siguiente orden: 1. Lanzamos el Head: Para esto utilizamos el comando $ sh run.sh en la carpeta Head/ . 2. Lanzamos los Masters: En la máquina donde hemos colocado los Masters ejecutamos sin importar cual de ellos se lance primero los siguientes comandos: a ) snortMaster/: $ sh run.sh b ) syshooker/: $ sh run.sh 3. Lanzamos el Tail: En la máquina donde tenemos el Tail, en el directorio raiz ejecutamos el comando $ sh run.sh. Figura 3.65: Head con un tail y dos masters conectados 347 Head/ Figura 3.66: Plugins cargados en el Head Figura 3.67: Plugins cargados en el Tail Comprobando que todo funciona bien Lo primero que comprobaremos es que la carga de los plugins cmdOut y TrivialExpert ha sido realizada en el Head y en el Tail respectivamente. Para ésto ejecutaremos el comando ls -all en las dos aplicaciones: Aquí vemos como efectivamente en el Head el plugin cargado es el cmdOut y cómo el TrivialExpert se encuentra descargado. No debe confundirnos el hecho de que el valor de ENABLED sea YES pues sólo se tiene en cuenta una vez que el plugin se encuentra cargado. En el Tail deberá aparecernos los contrario a lo que hemos visto en la imagen Figura 3.66: Plugins cargados en el Head, encontrándose cargado el TrivialExpert y el cmdOut descargado. 348 Figura 3.68: Visualización de las alertas en el Head Si ésto es correcto, entonces en la terminal de consola donde hemos ejecutado el Head deberían estar apareciendo alertas como las de la siguiente gura: Resumiendo Hasta ahora hemos congurado y conectado dos Masters, un Head, un Tail y se han generado alertas por los eventos recibidos desde los Masters. Por si queda alguna duda se dará ahora una breve explicación de lo que ha pasado en el sistema, empezando por recordar algunos aspectos del funcionamiento de cada elemento de la estructura: 1. En el momento en el que los Masters se conectan al Head, éstos empiezan a enviarle datos que están capturando. 2. Por defecto en el chero oaconf.xml del Head viene activo el plugin cmdOut que se encarga de mostrar las alertas que llegan desde los Tails. 3. Por otra parte en el Tail el plugin TrivialExpert, que está activo de forma predeterminada, trata a todo evento recibido como si fuese maligno. Por lo tanto, en el momento en el que hemos conectado los Tails y los Masters al Head se han empezado a generar alertas. 349 3.3.10. DFSU descripción de las interfaces Habitualmente se utilizan dos tipos de interfaces, las grácas y los interpretes de comando. Por lo general las interfaces grácas son más intuitivas y visuales pero carecen de la potencia que proporciona un interprete de comandos. Para no perder ninguna de las ventajas que cada interfaz aporta decidimos implementar en DFSU los dos tipos. La interfaz gráca, que es opcional, es proporcionada por el servidor web WebOs y el interprete de comandos se ejecuta de forma nativa cuando se arranca el sistema. En este capítulo se explicarán las posibilidades que nos brindan éstas interfaces y como llevar a cabo las tareas de mantenimiento y supervisión con su ayuda. Interfaz Web: Servidor web integrado WebOs El servidor WebOs solamente es posible activarla cuando se funciona en modo Head ya que es aquí donde se concentra toda la información mostrada. Presenta el siguiente aspecto: Figura 3.69: Pantalla principal servidor WebOs En la imagen Figura 1: Pantalla principal servidor WebOs se nos muestran de forma rápida los elementos conectados al Head en cada momento (Masters y Tails) junto con su nombre, de modo que podamos diferenciarlos. En los grácos inferiores se muestra la carga que están soportando el Head y los Tails que tiene conectado en la parte inferior mediante un gráco que varía en tamaño y color. 350 En el menú de la izquierda se nos ofrece la posibilidad de navegar por las opciones que incluyen tanto la documentación y manual de usuario como la información referente al proyecto. 351 Existe la posibilidad de hacer click sobre las burbujas del Head y los Tails con lo que se nos mostrara la siguiente información: Figura 3.70: Graco del sysload Desde esta pantalla se visualiza toda la información necesaria para poder administrar remotamente el Tail. Además de ver los plugins que aparecen en el chero oaconf.xml del Tail en cuestión, se sabrá el estado en el que se encuentran con la posibilidad de modicarlo activando/desactivando, cargando y descargando. Las estadísticas nos muestran el número y tipo de los paquetes recibidos y procesados por el Tail, además de la carga del sistema. En el caso de que un Tail esté sobrecargado siempre se puede desactivar el plugin más pesado hasta que se solucione el problema. Figura 3.71: Pantalla de información gráca sobre el Tail Por último se pueden modicar algunos de los parámetros del chero slaveconf.xml remota- 352 mente para que la próxima vez que se inicie el Tail se ejecute con la nueva conguración. Interfaz de comandos: La consola La consola se encuentra activa tanto en el Head como en los Tails y desde ella podemos ejecutar todos los comandos implementados en la interfaz gráca además de otros que se detallarán ahora. Cuando se arranca la aplicación se nos muestra la pantalla de bienvenida de inicio de la consola Figura 4: Pantalla y se nos da la posibilidad de empezar a ejecutar comandos. En este ejemplo se nos informa de que se han arrancado los plugins TrivialExpert y cmdOut, además de que estamos funcionando como Head y que el servidor Web esta funcionando en el puerto 81. Figura 3.72: Pantalla de inicio de la consola Como toda consola, disponemos del comando help que nos ayudará en la tarea de admi- nistración informándonos de cuales son nuestras posibilidades Figura 1: Panta de ayuda de la consola. Comandos sobre plugins: Al igual que en la interfaz web donde podemos ejecutar coman- dos para administrar los plugins locales y remotos, según donde hiciéramos click, sobre el Head (local) o sobre algún Tail (remoto), disponemos de los comandos sable para administración local y rload , runload , renable y load , unload , enable y dirdisable para control remoto. La sintaxis es común para cada uno de los grupos, local o remoto, siendo la siguiente : 1. Locales: <comando><nombre-plugin> 353 2. Remotos: <comando><nombre-Tail><nombre-plugin> Para conocer los plugins que hay en el sistema deberemos ejecutar el comando ls -all. Además de éstos, disponemos de la posibilidad de enviar órdenes directamente a los plugins utilizando el comando Su sintaxis es: cmd . cmd <nombre-plugin><orden-para-el-plugin> /newpage Comando para el servidor WebOs: Existe un comando dedicado a la gestión del servidor web: Figura 3.73: Comandos de consola para webOs webos <opción>: • status: Muestra el estado en el que se encuentra el servidor , en ejecución o detenido. • start: Inicia la ejecución del servidor web. • stop: Detiene la ejecución del servidor web. • restart: Detiene el servidor web si está en ejecución y vuelve a iniciarlo. Comandos sobre Tails: comando ls -tails , Podemos controlar que Tails tenemos conectados mediante el pudiendo además prohibir la conexión y listar quienes la tienen prohibida, expulsar y readmitir mediante los comandos ban , ls -banned , kick y unban respectivamente. El comando kickban ejecuta esas dos acciones consecutivamente. 354 Figura 3.74: Pantalla de ayuda de la consola Como se muestra en la imagen, la sintaxis es común para las órdenes ban , kick , unban y kickban : <comando><nombre-Tail> Siempre que ejecutemos el comando nombre Head , ls -banned veremos por lo menos una entrada con el pues como ya se ha comentado no se permite que ningún Tail se conecte con ese nombre. No es posible ejecutar con éxito el comando unban sobre ese nombre. Figura 3.75: Comandos de consola ls Comandos de información general: ls <opción>: Lista información útil que varía según el parámetro introducido • ls -sall: Muestra el listado de plugins de sistema. 355 • ls -uall: Muestra el listado de plugins de utilidad. • ls -oall: Muestra el listado de plugins de salida. • ls -eall: Muestra el listado de plugins expertos. • ls -all: Muestra un listado con todos los plugins que conoce el sistema. • ls -masters: Muestra un listado con los Master conectados. • ls -tails: Muestra un listado con los Tails conectados. • ls -banned: Muestra un listado con los Tails que han sido baneados del sistema. set [verbose|debug] [on|o ]: Con este comando podemos activar y desactivar el modo verbose y debug que nos mostrarán más información de lo que ocurre por la consola. mode: Muestra la información con la que está congurada el sistema Figura 1: Pantalla de consola comando Mode. Puede variar de la que contiene el chero slaveconf.xml si se ha modicado alguno de los parámetros mediante comandos. sys <comando shell>: Da la posibilidad de ejecutar un comando de una terminal como sobre la que se ha lanzado la propia aplicación. exit, quit: Finaliza la ejecución de la aplicación. También es posible nalizar mediante la combinación de teclas ctrl+c. 3.4. Análisis Una vez determinada la relación de parámetros de detección que deberán formar parte del análisis, y desarrollada la solución de recogida de información pertinente, dichos parámetros están listos para ser introducidos en la fase de Análisis. Como se enuncia en el capítulo 1, el objetivo primordial del presente estudio consiste en el desarrollo de un método de análisis basado en Detección de Anomalías que reporte su conocimiento a motores de Detección de Firmas, de modo que el tiempo de procesado y comprobación requerido sea el más óptimo posible para los terminales en los que se implante el sistema. A este respecto, y dado que las Redes Bayesianas han sido utilizadas en proyectos semejantes para Sistemas de Detección de Intrusiones basados en Host[95], se va a plantear y desarrollar un modelo que englobe, sustituya y mejore a las técnicas existentes [399, 305, 13, 215, 47, 207, 331, 244]. 3.4.1. Modelo General Operativo Como se desprende del enunciado de los objetivos operacionales descritos en el capítulo 1, la consecución del n último de la presente memoria pasa, en primer lugar, por la obtención de un Modelo de Representación de Conocimiento. Éste, tomando en consideración el conjunto de parámetros de detección enumerados en el apartados anteriores, hará uso de toda la potencia de 356 modelado e inferencia de las Redes Bayesianas. El objetivo principal es determinar la probabilidad con la que pertenece al modelo de comportamiento del sistema operativo en estudio. Para obtener la valoración nal del comportamiento correcto o anómalo de una determinada aplicación se va a hacer uso de las técnicas de Redes Bayesianas Dinámicas para evaluación de cadenas o secuencias de llamadas al sistema junto con un análisis ponderado de los parámetros asociados a cada llamada en particular haciendo uso del algoritmo Bayesian Merging [308]. El aprendizaje de estructura de la Red Bayesiana Dinámica como tal no es necesario, dado que está claramente jado en los papers revisados durante toda la memoria. Al n y al cabo el objetivo en esta parte es validar que la secuencia de syscalls, que se están produciendo, pertenece a un modelo aprendido de comportamiento correcto o no. Posteriormente ese experto, entendido como la parte que se encarga de dotar a la infraestructura de Inteligencia Articial, generará una regla procesable por la clase Cerebelum. Finalmente antes de acometerse una nueva investigación mediante Inteligencia Articial en la secuencia de llamadas, si se descubre una coincidencia dentro de las reglas inferidas y aprendidas por la infraestructura de una situación marcada anteriormente como anómala, será indicado directamente. De esta forma se consigue aglutinar la rapidez de los Sistemas de Detección de Intrusiones basados en rmas junto con la efectividad demostrada por los Sistemas de Detección de Anomalías. El administrador de la infraestructura podrá estudiar las reglas generadas por el motor de Inteligencia Articial y cambiarlas o ampliarlas acorde a su conocimiento experto, pudiendo incluso obligar a la parte de IA a aprender esa regla como válida dentro del modelo de conocimiento que tiene para una determinada aplicación. 3.4.2. Obtención de la Muestra Evidencial. Se han desarrollado una serie de entidades software que se ocupan de la recogida en el Sistema Operativo correspondiente de las llamadas al Sistema. Esta recogida se produce en la forma comentada anteriormente y esos datos son enviados a la infraestructura DFSU desarrollada para esta solución que se plantea. Una vez los paquetes llegan a la infraestructura son redirigidos internamente hacia las entidades denominadas tails. Los Tails serán los encargados de trabajar con el ujo de información entrante que llega desde los Masters. En ellos es donde se despliegan los expertos basados en IA o en reglas que se encargan de comprobar los ujos de información recibidos. La infraestructura como se ha comentado tiene diferentes modos de funcionamiento, entre ellos cabe destacar para la entrega de los mismos a los expertos los siguientes: Modo BroadCast: Toda la información que entre en el sistema se distribuye por todos los Tails. Imaginando que se tiene un conjunto de terminales móviles de diferentes sistemas operativos, la información que se obtenga será pasada en bloque a los diferentes Tails. Dentro de ellos 357 la información se repartirá acorde al tipo de evento al que estén suscritos estos expertos. El comportamiento de la infraestructura en este caso sirve para poder tener diferentes expertos repartidos por los tails que se encuentren disponibles, pero no es el más óptimo para la resolución de la problemática planteada. Hay modos de funcionamiento mucho más precisos para la forma de recogida de la información que se requiere. Se indica que este modo no es el más óptimo dado que puede darse el caso de que existan expertos suscritos a los Eventos de Host a los que llegaría la misma información y o bien se encargan ellos de discernirlos para generar los diferentes modelos de conocimiento mediante Redes Bayesianas Dinámicas o bien se procesarían los eventos recibidos varias veces. Modo Usuario, modo origen, modo proceso y máquina. Estos modos son los más adecuados a la funcionalidad deseada, dado que la infraestructura ha sido diseñada para balancear carga y distribuir el procesado de los eventos que se introduzcan al sistema. El bloque de información entra en el sistema y se va a distribuir acorde al modo de funcionamiento en el que se encuentre. De esta forma se va a conseguir que cada Tail pueda encargarse de lo acaecido en una máquina determinada, con un usuario concreto o de un origen absoluto (denotar que la infraestructura no tiene intención de quedarse exclusivamente en la Detección de Intrusiones basada en Host, si no que puede aceptar información de Red a la vez). Esta forma de funcionamiento ha permitido el desarrollo e integración con la infraestructura desarrollada en años anteriores por este equipo de investigación ESIDE-DEPIAN[42] encargada del tratamiento de los eventos acaecidos en la red. El funcionar de esta manera permitirá la correlación de eventos mediante clasicaciones bayesianas entre Host y Red como se detallará el Capítulo 4 de Conclusiones y Retos Futuros. Continuando con el proyecto que ilustra esta memoria, el funcionamiento en esta serie de modos hace posible que un sistema de análisis no se sobrecargue con la información de varios Host's. Los eventos llegarán acorde a su origen, al usuario que haya efectuado los mismos (o sus aplicaciones) incluso de diferentes sistemas operativos, o desde una máquina en concreto. Una vez obtenido el ujo de la forma deseada se discriminará basándose en la aplicación que haya realizado una u otra llamada, de forma que los expertos inteligentes puedan aprender de la forma correcta el modelo de comportamiento de la misma. Las evidencias de host mantienen en su interior información sobre los siguientes campos: Listing 3.23: Denición de la clase hEvent 2 #d e f i n e TOH_LINUX 0 #d e f i n e TOH_WINDOWS 1 #d e f i n e TOH_WINMOV 2 #d e f i n e TOH_SYMBIAN 3 typedef s t r u c t MHEventHeader_ { 358 uint8_t toh ; 7 uint32_t numArgs ; time_t etStamp ; }MHEventHeader ; 12 typedef c l a s s hEvent { MHEventHeader mheh ; 17 bool error ; char ∗ data ; int dataSize ; Argument ∗ a r g s ; public : 22 27 void i n i t ( char ∗ data , i n t dataSize_ ) ; bool isError () ; char ∗ getData ( ) ; int getDataSize () ; void setDataNull () ; int getNumArgumens ( ) ; Argument ∗ getArgument ( i n t numArg ) ; uint8_t getTypeOfHost ( ) ; time_t getArrivalTimeStamp ( ) ; char ∗ marshall ( int ∗ t S i z e ) ; hEvent ( char ∗ data , i n t dataSize_ ) ; 32 ~hEvent ( ) ; }; En la denición anterior se observa la información a la que van a tener acceso los diferentes plugins o expertos dentro de la infraestructura. Básicamente se divide por el tipo de sistema operativo sobre el que está puesto el interceptor de las llamadas (syscalls): Linux Windows Windows Mobile Symbian 359 Posteriormente se dene el número de argumentos. Esta parte es importante para poder dimensionar el experto basado en IA (Redes Bayesianas Dinámicas junto con Bayesian Merging) y empezar a crear el posible modelo que va a dar cabida a este tipo de información. Por cada argumento se deberá crear un objeto Bayesian Merging que se encargará del modelado de cada parámetro que acompañe a la llamada al sistema. Finalmente se tiene el timestamp, el momento temporal de la captura, para poder relacionar en la línea de tiempos cuándo se han producido las diferentes llamadas al sistema. Fuera de la parte de cabecera que ayuda y simplica a la creación y mantenimiento de los modelos se tiene el resto de parámetros de la clase Evento de Host, como pueden ser el valor de retorno, el valor del error producido y la sucesión de argumentos propiamente dicha. 3.4.3. Aprendizaje e Inferencia de Expertos Mendizale Una vez obtenidos los datos se procederá a realizar el estudio que permita adecuarse de la manera más plausible posible a los requerimientos especicados. La primera fase es el aprendizaje de los argumentos y su escalado para introducirse dentro del Modelo de Comportamiento general. Se va a partir de un ejemplo de captura de un terminal Windows Mobile 2005 y en base al mismo se va a desarrollar la forma en la que se manipula la información en el presente proyecto. En este ejemplo en cuestión se han interceptado las siguientes librerías: (1) API0119, número de veces llamada en la sesión: 890, número de argumentos: 11 (2) API0148, número de veces llamada en la sesión: 21, número de argumentos: 11 (3) API0177, número de veces llamada en la sesión: 0 (4) API079, número de veces llamada en la sesión: 7391, número de argumentos: 11 (5) API08, número de veces llamada en la sesión: 33, número de argumentos: 11 (6) API082, número de veces llamada en la sesión: 0 (7) API09, número de veces llamada en la sesión: 3, número de argumentos: 11 (8) API095, número de veces llamada en la sesión: 13, número de argumentos: 11 (9) API096, número de veces llamada en la sesión: 18, número de argumentos: 11 (10) API097, número de veces llamada en la sesión: 64, número de argumentos: 11 (11) API098, número de veces llamada en la sesión: 426, número de argumentos: 11 (12) API20116, número de veces llamada en la sesión: 0 (13) API20117, número de veces llamada en la sesión: 0 360 (14) API202, número de veces llamada en la sesión: 0 (15) API203, número de veces llamada en la sesión: 0 (16) API204, número de veces llamada en la sesión: 338, número de argumentos: 11 (17) API205, número de veces llamada en la sesión: 0 (18) API2063, número de veces llamada en la sesión: 0 (19) API209, número de veces llamada en la sesión: 0 El procesos implicados tienen los siguientes PID (Identicativo de Proceso)168 : 2d82b0aa: 1(1), 2(1), 10(7) 2dfe8262: 4(6920), 16(338) 4da96fd6: 4(6), 11(29) 4dc1d0f2: 1(7), 2(3), 4(225), 9(4) 6d696f6a: 1(114), 2(3), 4(2), 5(7), 8(2), 10(17), 11(94) 6da3cfb6: 1(8), 2(1), 10(7) 8dd76a22: 1(142), 2(4), 4(197), 5(5), 8(2), 9(14), 10(9), 11(121) 8dd76eea: 4(1) ad6ba0da: 1(39), 2(2), 5(5), 8(2), 10(9), 11(21) adde1b92: 11(11) cdb96c92: 1(129), 2(4), 5(8), 8(2), 10(4), 11(118) cdc13e46: 1(65), 2(3), 4(17), 5(8), 7(3), 8(5), 10(11), 11(32) dfaa4ca: 4(23) La primera escisión en el estudio es la unidad máquina:proceso. Esta unidad es para identicar de forma única el modelo correspondiente tanto para aprendizaje como para cálculos posteriores de validez. Esta unidad se reeja mediante la ip del host correspondiente y el PID del proceso a modelar. Tomando por ejemplo el primer PID (Identicador de Proceso) que se ha puesto en la lista y extrayendo de la captura un trozo de la misma tenemos la siguiente evolución: 168 Se indica el número interno de las librerías a las que llaman y entre paréntesis el número de veces que ha sucedido en la sesión 361 PID2d82b0aaAPI10(210cc:,0,2,f000fdb0,c894,f000fe3c,0,1,21904,8dd7c6b0,1) PID2d82b0aaAPI10(210b0:,0,2,f000fdb0,1eb8668,f000fe3c,0,1,2191c,8dd7c6b0,1) PID2d82b0aaAPI10(2f91174:,0,2,f000fdb0,8dd7cea4,f000fe3c,0,1,2f94dd0,c894,f000fc) PID2d82b0aaAPI10(2002fc90:,0,2,f000fdb0,0,f000fe3c,0,1,2fa265c,730074,720068) PID2d82b0aaAPI10(2fc10b0:,0,2,f000fdb0,8dd61744,1eb6610,0,1,2fc3028,c894,f000fe3c) PID2d82b0aaAPI10(2df101c:,0,2,f000fdb0,8da7c440,1e9d580,0,1,2df3634,c894,f000fe3c) PID2d82b0aaAPI10(2002fc8c:,0,2,f000fdb0,0,1e9d580,0,1,2fa265c,720062,77006f) PID2d82b0aaAPI1(2df16a0:,f000e0,2df16a0,2df17f8,2df17f8,1e9d6f0,1e9d71c,2df5608,1e9d71c,0,10) PID2d82b0aaAPI2(8dd33cbc:,f000dc,8dd33cbc,0,1e9d604,0,0,2df6468,8da7c440,f000fe3c,2df3660) Cuadro 3.23: Listado de llamadas al sistema por el PID 2d82b0aa Recordando, dentro del listado anterior se tiene primero el identicativo PID, la librería o función o llamada al sistema que realiza, los parámetros entre paréntesis y para nalizar se tiene el valor de retorno (un entero de 32 bits) y el valor del error indicado por el sistema (si es que se ha producido). Como se ha indicado anteriormente todas las llamadas llevan capturados 11 parámetros, no tiene por qué ser así en todos los sistemas operativos. Aprendizaje y semejanza de parámetros de las llamadas al sistema. Lo primero que debe realizarse es establecer dentro del modelo de parámetros es establecer el orden correcto y la posición adecuada de los parámetros, así como traducir si son punteros a cadenas de texto o arrays, para poder observar los valores convenientemente. El orden de parámetros se ja dinámicamente dado que en la creación conforme se van leyendo los parámetros se añaden al modelo general los modelos Bayesian Mergin que contendrán la información correspondiente para ese parámetro en concreto. Si se plantea una solución como por ejemplo en sistemas operativos GNU/Linux para realizar una escritura por pantalla, se le debe pasar a la llamada que se encarga del mismo un descriptor (puntero único que hace referencia a un chero del disco duro), el puntero a la cadena que se va a escribir y el tamaño de la cadena. Así mismo para este caso si tenemos el siguiente código en ensamblador (en nomenclatura AT&T para el ensamblador de GNU/Linux, GNU/Assembler). Listing 3.24: Ejemplo para obtener el Identicativo de la CPU en ensamblador sobre sistemas GNU/Linux en nomenclatura AT&T . s e c t i o n .data output : . a s c i i " E l ID d e l v e n d e d o r e s ' x x x x x x x x x x x x ' \ n " 5 .section .text . g l o b l _start _start : 362 nop 10 movl $0 , %eax cpuid movl $output , %edi movl %ebx , 23( % edi ) movl %edx , 27( % edi ) 15 movl %ecx , 31( % edi ) movl $4 , %eax movl $1 , %ebx movl $output , %ecx 20 movl $37 , %edx int $0x80 movl $1 , %eax movl $0 , %ebx 25 int $0x80 En el código de la gura superior se escribe por pantalla el modelo de la CPU que se tiene, haciendo uso de la instrucción de los procesadores compatibles IA-32: cpuid. Se tomarán los valores que devuelva esta llamada y se introducirán dentro de un buer de texto creado a tal efecto. Finalmente llega la parte que realmente interesaba mostrar, en la que se van introduciendo los valores para realizar la llamada al sistema de escritura. Se introduce en el registro EAX el valor de la llamada que se va a realizar, en este caso el valor entero de 32 bits 4. Igualmente se introduce en el registro EBX el valor del descriptor de chero donde se va a realizar la escritura, para esta ocasión el valor es 1 que indica que será escrito por la pantalla de usuario. Los dos últimos valores, si bien también indican literales de 32 bits, uno de ellos lleva asociada una cadena de texto dado que es un puntero a la misma. Estos valores son los que se tendrán que interceptar de forma correcta y así mismo representar en los modelos que corresponda: Número de Parámetro Valor de Dicho Parámetro Parámetro 2 Parámetro 3 Parámetro 4 1 El ID del vendedor es 'GenuineIntel'\n 37 Cuadro 3.24: Listado de parámetros para realizar una llamada write en GNU/Linux Acorde a la tabla anterior el modelo que se iría generando es el siguiente: 363 Figura 3.76: Aprendizaje de Parámetros de las llamadas al Sistema Como se puede ver en la gura anterior, los parámetros obligan al Experto Mendizale a crear nuevos objetivos Bayesian Merging conforme se van leyendo nuevos. El parámetro 1 crea el Objeto Modelo Bayesian Merging 1, el segundo el segundo modelo y así sucesivamente. De esta forma se tienen modelados los parámetro de esa syscall y de ese proceso que se esta analizando. Estos modelos se realizan por cada llamada al sistema que se produzca, de forma que todas las llamadas tendrán una representación para sus parámetros. Conforme vayan llegando nuevos parámetros para esa syscall y ese proceso seguirán el método de funcionamiento de las técnicas Bayesian Merging desarrolladas por este equipo en el proyecto ESIDE-DEPIAN[42]. Esta técnica innovadora en su momento para el análisis de los protocolos basados en texto se aplica de forma pionera también en estos Sistemas de Inteligencia Articial, de forma que con los parámetros se pueda precisar según la posición que ocupen (modelo de parámetro 1, modelo de parámetro 2...) si realmente pertenecen al modelo o no. Aparte se ha introducido una modicación importante, se parte siempre de un estado inicial y se cierra siempre en una posición nal, de forma que se pueda controlar más especícamente la progresión que puede soportar el parámetro correspondiente. Como se puede ver un parámetro queda cuanticado probabilísticamente como Cadena de Markov Oculta (HMM) indicando la probabilidad con la que se pasa de uno de sus caracteres (si es un buer) al siguiente y se actualiza esta información con el modo de aprendizaje activo. Los modelos autoaprenden cuando se le indica actualizando las tablas de probabilidades iniciales así como las tablas de transición entre estados. Así mismo el cómputo de semejanza global para los parámetros queda de la siguiente forma: Likelihood(param1) = p(Estado1 → Estado2) · p(Emision_Simbolo1) · p(Estado2 → Estado3)... Y siguiendo en la misma línea, la probabilidad de semejanza y de ajuste de los parámetros de esa llamada al sistema en concreto sería la siguiente. Likelihood_T OT AL = Likelihood(param1) · Likelihood(param2) · Likelihood(param3)... Hasta este punto se tiene una gramática que modeliza convenientemente las llamadas al 364 sistema, ésta permite que se sepa de antemano si hay alguna anomalía a nivel paramétrico en las secuencias de syscalls. Generalmente los sistemas de detección de Intrusiones no hacen uso de los parámetros pero resultan muy signicativos en el estudio efectuado de los posibles ataques, sobre todo para impedir sucesos como los detectados y creados con los ataques Mimicry. El veredicto completo de este subsistema se integrará en el apartado completo del Modelo Mendizale en el siguiente apartado. Aprendizaje de secuencia de syscalls. Muchos autores intentan jar una ventana para cada proceso en estudio y con ello poder reejar una anomalía en la secuencia de syscalls que se van produciendo. Esta técnica ha tratado siempre de ser modicada, mejorada y reestimada desde el documento que trató por primera vez este secuenciamiento[134]. A este respecto en este documento se recurre a otra técnica: Las Redes Bayesianas Dinámicas. No va a ser necesario estimar la ventana correspondiente para deslizarse sobre las secuencias de llamadas al sistema como se ha realizado tradicionalmente. Tomando el ejemplo anterior de un determinado proceso, se tenía la siguiente información del mismo: PID2d82b0aaAPI10(210cc:,0,2,f000fdb0,c894,f000fe3c,0,1,21904,8dd7c6b0,1) PID2d82b0aaAPI10(210b0:,0,2,f000fdb0,1eb8668,f000fe3c,0,1,2191c,8dd7c6b0,1) PID2d82b0aaAPI10(2f91174:,0,2,f000fdb0,8dd7cea4,f000fe3c,0,1,2f94dd0,c894,f000fc) PID2d82b0aaAPI10(2002fc90:,0,2,f000fdb0,0,f000fe3c,0,1,2fa265c,730074,720068) PID2d82b0aaAPI10(2fc10b0:,0,2,f000fdb0,8dd61744,1eb6610,0,1,2fc3028,c894,f000fe3c) PID2d82b0aaAPI10(2df101c:,0,2,f000fdb0,8da7c440,1e9d580,0,1,2df3634,c894,f000fe3c) PID2d82b0aaAPI10(2002fc8c:,0,2,f000fdb0,0,1e9d580,0,1,2fa265c,720062,77006f) PID2d82b0aaAPI1(2df16a0:,f000e0,2df16a0,2df17f8,2df17f8,1e9d6f0,1e9d71c,2df5608,1e9d71c,0,10) PID2d82b0aaAPI2(8dd33cbc:,f000dc,8dd33cbc,0,1e9d604,0,0,2df6468,8da7c440,f000fe3c,2df3660) Cuadro 3.25: Listado de llamadas al sistema por el PID 2d82b0aa (recordatorio) Si traducimos la evolución de este proceso de llamadas tendría el siguiente aspecto: Figura 3.77: Aprendizaje de Parámetros de las llamadas al Sistema Para poder ilustrar el resto del comportamiento se va a usar una cadena más larga, como podría ser: 10, 1, 2, 7, 15, 3, 10, 10, 10, 5, 15, 3, 10. Los trabajos tradicionales que se tienen realizarían su función mediante una ventana deslizante por las mismas teniendo problema de 365 establecer el tamaño de la misma. La gran diferencia del método desarrollado en el presente documento es que no requiere del conocimiento del número de la ventana deslizante de antemano. Las evidencias se introducen en el modelo bayesiano dinámico de dos en dos para realizar el aprendizaje paramétrico de las tablas de probabilidad internas, lo que no implicará más adelante tener que seguir con una ventana de dimensión dos. Una vez actualizado el sistema queda congurado de la siguiente forma: Figura 3.78: Aprendizaje de Parámetros de las llamadas al Sistema El modelo en modo aprendizaje ha actualizado las tablas de probabilidad internas conforme a los datos de secuencias que se han ido introduciendo. Estas secuencias se introducen en el modelo en una ventana deslizante de tamaño 2. Con esta evolución que parece sin memoria más que del estado anterior como si fuera una cadena de Markov tradicional se consigue que el 366 modelo represente la realidad completamente del proceso en cuestión. La forma que tiene esta red inicial DBN sigue las leyes de los HMM Autoregresivos, en los que las variables denominadas Likelihood Parámetro N ayudan signicativamente a establecer a veracidad de resultados del modelo. La red DBN presentada se compone de un nodo padre con tantos estados como número de librerías o de llamadas al sistema que se quiera modelar. Como hijo tiene el resultado de la operación anterior de semejanza paramétrica de los parámetros que acompañen a esa llamada. Y para completar la funcionalidad de DBN esto se repite enlazando tantas veces como sea necesario esta estructura, conectando los padres entre sí y los hijos correspondientemente. Esta forma de trabajo en DBN's se conoce como Unrollling. Realizado el aprendizaje y el jado de la estructura que contendrá el modelo debidamente, el siguiente paso es ajustar el número de etapas que va a tener el modelo a la hora de nalizar el aprendizaje. Para ello se ha desarrollado una fase en la que se determina este valor, haciendo uso de algoritmos EM y de la librería que subyace por debajo del sistema: PNL de Intel. Se comienza con una ventana de dos nodos y se pide que se prediga el posible valor que tendría acorde al modelo la syscall siguiente. Acorde a la secuencia planteada, se introducirían los valores de llamada al sistema 10 y 1 observando si el siguiente valor que se ofrece es el 2. Caso de acertar se desplazaría la ventana sobre los datos de aprendizaje para predecir (método Predict de la librería de Intel) el siguiente estado, en esta caso se introduce 1 y 2, para ver si es 7. Si con este tamaño de ventana se consiguen resultados apropiados este modelo sería congurado para un tamaño de 2. En cambio si se produce un fallo en el diagnostico predictivo de la siguiente etapa, en vez de introducir solo 2 valores de la secuencia se pasaría a introducir 3 valores y predecir el 4o . De esta manera se consigue establecer el tamaño necesario para la inferencia de forma adecuada y de manera automática. Finalmente cuando se tiene el modelo completamente aprendido y actualizado se procede a la puesta en ejecución y análisis del mismo, sobre el que se usan las metodologías de cálculo de Semejanza. Es decir, establecido el modelo se introducen las nuevas evidencias sobre el tamaño de ventana jado y se le indica al experto que reeje la probabilidad con la que esa secuencia pertenece al modelo aprendido previamente. Este resultado por debajo de un umbral congurable por el administrador será el índice sobre el que lanzarán las alertas correspondientes de Detección de Anomalía. 3.4.4. Proceso de Razonamiento en la Red Naive de Unicación de Conclusiones Por último, como se describe en el apartado anteriores, una vez obtenido el conjunto de conclusiones parciales acondicionadas, resultado de cada uno de los diferentes procesos de razonamiento de los Motores Inteligente Mendizale para tratamiento de llamadas al sistema, puede construirse una evidencia de alto nivel que presentar al motor de razonamiento correspondiente 367 al modelo de Red Naive de unicación de conclusiones parciales. De este modo, dicho modelo podrá efectuar, en un segundo nivel jerárquico, el mismo ciclo de inferencia y adaptación de sus homólogos especializados, con el objetivo de obtener una única conclusión global nal que represente el valor de probabilidad a posteriori de la maldad inherente a cada una de las evidencias recogidas en el sistema protegido, e introducidas al motor de análisis. Debe denotarse que actualmente los ataques no solo involucran a una parte en concreto, si no que generalmente llegan y se reproducen por la red, por lo que el sistema se integra con los expertos bayesianos que se tenían de proyectos anteriores, con la nalidad de unicar y pre-detectar los posibles ataques que se introduzcan. Por otro lado, es importante prestar especial atención al hecho de que, dada la especialización presente en los diferentes modelos de Red Bayesiana responsables de la representación de los diferentes tipos de parámetros, es posible la aparición de situaciones en la que un determinado modelo no se encuentre en disposición de inferir conclusión parcial alguna, por lo que el componente de inferencia del mencionado modelo de Red Naive debe contemplar dicha posibilidad en su objetivo de obtención de la conclusión global. Asimismo, dicha cuestión introduce idéntica consideración en el componente de adaptación. Así, una vez construida la evidencia denitiva, puede procederse a la presentación de la misma al método de propagación de evidencia de Pearl. De esta manera, se obtiene nalmente un valor continuo que representa la probabilidad de que una determinada evidencia sea maliciosa, subversiva y anómala. Así, nalmente, dicho valor de probabilidad puede ser utilizado para efectuar la priorización de las noticaciones de alarma que se envían al operador humano encargado de la administración y supervisión del sistema de detección. No obstante, una vez efectuada dicha noticación, es necesario que el mencionado valor de probabilidad sea introducido en el componente de adaptación, encargado de adaptar el conocimiento almacenado en el modelo de Red Naive a las variaciones de conocimiento introducidas por dicha evidencia, por lo que se precisa nuevamente de una etapa de acondicionamiento de la conclusión global. Así, en este caso, la función de acondicionamiento aplicada al presente modelo de Red Bayesiana, se dene como un valor umbral relativo169 . De esta manera, los innitos valores que puede adoptar la mencionada probabilidad, una vez acondicionada, quedan representados mediante los habituales dos posibles valores de normalidad y legitimidad, o anomalía y subversión. Por su parte, a continuación, el componente de adaptación no presenta ninguna diferencia con respecto a sus homólogos especializados, por lo que, una vez inferida la probabilidad a posteriori de una determinada evidencia, puede procederse a la aplicación de la variante secuencial del método de estimación de máxima verosimilitud utilizado anteriormente, con el objetivo de adaptar el conocimiento almacenado en el modelo de Red Bayesiana correspondiente a las variaciones de conocimiento introducidas por dicha evidencia. 169 El modelo de Red Naíve de unicación de conclusiones conlleva un proceso de inferencia de conclusiones basado en la selección del estado nal más probable de la variable que representa la categoría, en este caso la conclusión global. Por ello, el resultado nal obtenido por el componente de inferencia no es sino la probabilidad a posteriori del estado más probable. 368 Una vez efectuada esta operación, el motor de razonamiento queda nuevamente dispuesto para recibir la siguiente evidencia. Finalmente el sistema automáticamente entrega las causas en forma de regla al administrador correspondiente para que si lo desea sea introducida dentro del sistema. De esta forma se tiene controlado en el propio ujo de la infraestructura si se ha producido, de forma que se realice una captura temprana basada en aprendizajes anteriores. Esta captura indica al sistema no que es requerido que vuelva a procesar esos mismos datos dado que ya se sabe el resultado que han tenido con anterioridad. Queda a merced del administrador el hacer uso de esta funcionalidad y de los periodos que se requieren de aprendizaje, así como de los niveles de umbrales que desea en el sistema para indicar las posibles anomalías. Dependiendo de las necesidades concretas de algún proceso o host, se pueden jar umbrales diferentes para la reacción de la infraestructura. 3.5. Respuesta Los resultados obtenidos de la fase de análisis, se utilizan para tomar las decisiones que conducirán a una respuesta. El conjunto de acciones y mecanismos que se pueden efectuar en esta etapa es amplio. A continuación se describirán los requisitos y tipos de respuesta más comunes. Una de las consideraciones a tener en cuenta al diseñar un mecanismo de respuesta es el entorno operacional en el que se va a utilizar. Un sistema de detección que deba coordinar la información de múltiples agentes, distribuidos a lo largo de una red de producción, no tiene las mismas necesidades de alarma y noticación que un sistema no distribuido, instalado en un ordenador personal. El elemento monitorizado juega, también, un papel importante en el modelo de respuesta. Una de las razones por las que se proporcionan respuestas activas, como el bloqueo de las conexiones del atacante, paralización de los procesos sospechosos de ser ataques, se debe a la existencia de sistemas que proporcionan funciones o servicios críticos a los usuarios. Por otra parte, las alarmas y avisos proporcionados por un mecanismo de respuesta deberían presentar suciente información adicional para indicar las acciones a tomar en cada situación. Algunos productos de seguridad sólo indican el identicador del error mediante un simple mensaje, siendo más útil añadir el posible origen del problema y cómo solucionarlo. 3.5.1. Tipos de respuestas Las respuestas de un sistema de detección de intrusiones pueden ser de dos tipos: pasivas o activas. Se pueden dar ambos tipos de respuestas en un sistema de detección, por lo que no son excluyentes, más bien, son complementarias. Es posible que, en determinadas anomalías, sólo sea necesario registrar la actividad ocurrida para su posterior examen, mientras que en intrusiones a sistemas críticos haga falta una actuación más activa y urgente. Todo depende de las necesidades de cada caso[85]. 369 Respuestas pasivas Son aquellas respuestas que consisten en el envío de información al responsable correspondiente, dejando recaer en él la toma de decisiones. En los primeros detectores de intrusiones, todas las respuestas eran pasivas. Aunque la tecnología ha evolucionado mucho desde entonces, las respuestas pasivas siguen existiendo. Y es que, por muy anados que sean los mecanismos de respuesta automática, hay ocasiones en que un sistema no tiene la responsabilidad suciente para tomar una decisión. El mecanismo más común son las alarmas por pantalla, en los que un mensaje en una ventana indica al usuario que se ha cometido una posible intrusión, acompañando a veces el mensaje con información adicional, como la dirección del posible atacante, el protocolo usado, etc. El contenido de estas alarmas se puede congurar en muchas ocasiones. Otra forma de recibir respuestas pasivas es a través del correo electrónico o mensajes a un teléfono móvil ?SMS, WAP push, etc-. La ventaja del segundo caso sobre el primero, es que se puede recibir en cualquier lugar, cualidad muy apreciada entre administradores. No obstante, un correo electrónico puede contener más información, proporcionando un mensaje más extenso, y menos ambiguo, sobre la incidencia. El modelo presentado en este punto implementa el segundo tipo de respuesta, a continuación se muestran algunas pantallas de los mensajes enviados ante un ataque. Figura 3.79: Ejemplo de envío de alerta de ataque al telefono móvil (Respuesta pasiva). 370 Por otra parte, algunos sistemas de detección de intrusiones están integrados con mecanismos de gestión de redes. En estos casos se suele hacer uso de mensajes SNMP170 . La integración con este sistema de comunicación permite utilizar canales ya existentes para el envío de incidencias. No obstante, un uso excesivo por parte de detectores de intrusiones de estos canales, puede perjudicar a otros sistemas que también hagan uso de ellos. Respuestas activas Este tipo de respuestas implican alguna acción en particular, como el bloqueo de un proceso, el cierre inmediato de una cuenta, o la prohibición de ejecución de determinados comandos. Estas acciones que pueden ser de diversa naturaleza se pueden clasicar básicamente en tres categorías principales: Ejecución de acciones contra el intruso, Corrección del entorno y Recopilación de información que se resumen a continuación. La forma más directa de Ejecución de acciones contra el intruso consiste en identicar el origen del ataque e impedirle el acceso al sistema, por ejemplo, en el caso de un sistema de detección de intrusiones basado en red, la ejecución de acciones contra el usuario puede ser desactivar una conexión de red o bloquear la máquina comprometida-, acciones menos drásticas pueden ser, terminar la sesión TCP problemática o bloquear durante un intervalo de tiempo el origen de las intrusiones. En cuanto a los sistemas HIDS, las acciones a tomar contra el usuario pueden ser, por ejemplo impedimiento al proceso sospechoso de ejecutar más syscalls, eliminar los procesos sospechosos, o incluso impedir al usuario involucrado en el evento sospechoso ejecutar ningún programa más. Como su nombre indica la Corrección del entorno consiste en efectuar las acciones perti- nentes para restaurar el sistema y corregir los posibles problemas de seguridad existentes. En muchas ocasiones, esta respuesta activa suele ser la acción más acertada. Aquellos sistemas que cuentan con métodos de de auto-curación son capaces de identicar el problema y proporcionar los métodos adecuados para corregirlo. A menudo, este tipo de respuestas puede provocar cambios en el motor de análisis o en los sistemas expertos, generalmente aumentando su sensibilidad e incrementando el nivel de sospecha ante posibles intrusiones, o ante usuarios o procesos concretos. La Recopilación de más información se utiliza en ocasiones para cumplir los requisitos de información necesarios para poder tomar acciones legales contra posibles criminales. Normalmente se aplica en sistemas que proporcionan servicios críticos. Otra de las situaciones en las que se puede dar este tipo de respuesta, es en máquinas o redes que imitan comportamientos y servicios reales, para engañar a los intrusos. Tal es el caso de servidores trampa y honeypots por citar algunos. 170 Simple Network Management Protocol 371 Prevención Las respuestas activas, tienen varios problemas para con algunos tipos de ataque, en los cuales la acción de la respuesta activa queda eliminada o minimizada. Incapacidad de interactuar con ataque spoofeados171 , si un intruso lograse hacer pasar un proceso con un nombre (por ejemplo proceso apache apache ), la respuesta activa puede encontrar a el legítimo como un proceso sospechoso y tomas acciones para con él, como puede ser pararlo, o suspenderlo, cuando se trata de un proceso legítimo. Incapacidad de mantener Listas blancas de procesos, dado que los procesos son vulnerables a ataques de overow, por lo que en los sistemas de host es imposible mantener este tipo de listas. Imposibilidad de bloquear el evento que ha disparado la alerta. Este es el mayor problema del que adolecen los sistemas de respuesta activa, dado que hay ataques que únicamente ejecutan una acción que puede ser sensible de ser localizada172 . Figura 3.80: Problemática de la respuesta activa en sistemas NIDS Por lo tanto, la prevención añade una solución a los problemas de la respuesta activa, aparte de eliminar otro problema de la mísma que es dotar de la inteligencia necesaria al sistema de de repuesta activa como para que tome acciones correctas contra los atacantes, dado que en este tipo de sistemas [243, 342], sólamente atajan las syscalls173 , o los paquetes de red174 . 171 172 Ataques de suplantación Como pueden ser por ejemplo los ataques ICMP en red, o un buer overow sobre un argumento de una syscall. 173 174 En el caso de los sistemas HIDS (Sistemas de intrusión de host) como el que estamos tratando ahora mísmo en el caso de los sistemas NIDS (Sistema de detección de intrusiones basado en red). 372 3.5.2. Respuesta implementada en ESIDE-Mendizale. En el sistema de respuesta activa de ESIDE-Mendizale se encuentran implementados varios tipos de respuesta activa explicados en el punto anterior, por una parte un sistema de respuesta pasiva implementada dentro de la infraestrucutra del sistema, que permite realizar diferentes alertas. Por otra parte el sistema ofrece también la posibilidad de implementar respuesta activa, con diferentes puntos de vista en la aplicación de la mísma. Respuesta pasiva implementada en ESIDE-Mendizale La respuesta pasiva implementada en el presente proyecto, se encuentra soportada por el sistema de respueta que está explícitamente implementado para el presente proyecto. Esta respuesta pasiva, realiza un aviso, sobre el ataque o anomalía que se ha detectado. Este tipo de respuesta es la más implementada en los sistemas convencionales, tanto por su sencillez como por no tener que implementar una lógica de respuesta, la cuál se deja a manos de el agente humano o administrador de sistemas que tome la acción necesaria para el evento que se ha recogido. La respuesta pasiva se implementa en varias versiones, mediante un mensaje SMS, que permite informar al administrador de sistemas allí donde se encuentre, y tomar las acciones necesarias al momento. Otra de las opciones implementadas es generar la salida mediante XML, para un posíble data mining o procesado por parte de otros procesos este chero, que simplica y estandariza el acceso a datos. Respuesta activa implementada en ESIDE-Mendizale La respuesta activa implementada en ESIDE-Mendizale, se encuentra dividida en dos grandes partes: por una parte la respuesta activa implementada a nivel de proceso, y por otra parte la respuesta activa implementada a nivel de usuario o usuario efectivo. La respuesta activa a nivel de proceso, implica que una vez que se ha detectado que un proceso es anómalo 175 , dicho proceso no pueda ejecutar ninguna llamada al sistemas más, es decir, puede llamar a las librerías del sistema, pero éstas no pueden ejecutar ningúna llamada al kernel de dicho proceso. Este sistema, permite congelar los procesos para que una aprobación del administrador del sistema permita liberar dicho proceso. Este proceso se puede dar porque el sistema de recolección de datos inserta una función tranpolín entre las llamadas legítimas y las de nuestro sistema. Este sistema de recogida de datos posee absolutamente todo el control sobre dichas llamadas, incluso si se ejecutan, si no se ejecutan o no se responden hasta que el administrador de sistemas de un aviso de que el proceso puede seguir, en caso contrario puede matar dicho proceso. 175 Alguna de sus systems calls ha generado una anomalía en algún experto del sistema. 373 Otra opción barajada para la respuesta activa a nivel de proceso, se trata de suspender a nivel de kernel el proceso involucrado, cambiando el estado del proceso a suspendido, este sistema, al nal no ha sido utilizado por la necesidad de estudiar el planicador de procesos de cada sistema operativo, el cuál es conocido para GNU/Linux, pero no para el resto de sistema para los que se ha implementado el sistema. La otra opción dentro de la respuesta activa, es realizarla a nivel de usuario, es decir, que si algún proceso de algún usuario realiza una acción que es detectada como una anomalía todos los procesos de dicho usuario se mantienen bloqueados sin realizar ninguna syscall hasta que el administrador de sistemas da el visto bueno a dicha anomalía, o en su defecto hace que dichos procesos mueran. En cuanto a este tipo de respuesta activa, es en los sitemas GNU/Linux, existe una opción que se ha barajado, que es extender este tipo de acciones no sólamente a los usuarios, sino también a los usuarios efectivos176 , este tipo de usuario, existe en los sistemas GNU/Linux, por el bit SUID177 , que permite que el chero que contiene dicho bit activo se ejecute con los provilegios del creador. Por ejemplo el comando ping necesita acceder a dispositivos reales para ejecutar mediante raw sockets su cometido, que es mandar mensajes ICMP. Por lo tanto en un sistema sin SUID, ningún usuario, excepto el superusuario o root, podría ejecutar el comando ping y que enviase mensajes ICMP al exterior, dado que para acceder para escritura a dispositivos hace falta generalmente ser superusuario. Para solucionar este problema, existe el SUID, que permite ejecutar el programa ping con los privilegios de su creador, en su caso, root. De esta manera, se permite bloquear un usuario permanentemente en todos los niveles, incluso cuando es otro usuario cuando ejecuta sus cheros. Esta opción es justicada porque si un código vírico es ejecutado bajo un usuario, éste código vírico puede infectar todos los cheros en los que puede escribir dicho usurio. Por lo tanto, si un usuario queda infectado, todos sus cheros con el bit SUID también podrían quedar infectados y ser ejecutados por otros usurios, de ahí que se limite la utilización del EUID. Prevención implementada en ESIDE-Mendizale La prevención no ha sido implementada en ESIDE-Mendizale, dado que no era uno de los objetivos principales e implica grandes problemas técnicos en comparación con sistemas NIDS, de todas maneras, se va a realizar una pequeña aproximación a cómo se implementaría la prevención en sistemas HIDS, estudio que se llevó a cabo para descartar la implementación de la prevención. La prevención en este tipo de sistemas, implicaría realizar un estudio de cada una de las syscalls que se recolectan ántes de que se ejecuten. Esto requeríria ver si cada una de las syscalls se ajusta al modelo realizado según el apartado análisis, y si éste se ajusta, dejar que la syscall siga su camino. Este sistema, debería de ser lo sucientemente rápido como para que la ejecución de el pro176 177 También conocidos como EUID, o Eective User IDencation. Bit especial contemplado dentro de los bits de permisos del sistema GNU/Linux. 374 grama no se ralentize en exceso, dado que estamos haciendo que cada instrucción del programa pase una vercación. Esta necesidad, haría necesario que el modelo de vercación de cada instrucción se ejecutase en el kernel a modo de LKM178 , para evitar la lentitud ocasionada por la comunicadión de las zonas de usuario y de kernel. 3.6. Fortaleza Los sistemas de deteccion de intrusiones son, desde el primer momento en que son implantados, el blanco de los ataques de los intrusos[117], por ello, el sistema de deteccion de intrusiones debe de ser lo sucientemente able y seguro como para que este tipo de ataques no lleguen a buen puerto y den una falsa sensacin de seguridad. Dos de las partes de los sistemas de detección de intrusiones son particularmente sensibles a este tipo de ataques, en concreto la parte de recogida de información y de almacenamiento de los resultados obtenidos del proceso de análisis. De otra forma, la información de partida puede ser objeto de subversión y el sistema de detección estaría proporcionando una falsa sensación de seguridad. Este aspecto de la seguridad de la fortaleza que el sistema IDS implementado en ESIDEMendizale, ha sido desarrollado mejorando la seguridad, transparencia y escalabilidad del sistema. Por una parte, en cuanto a la transparencia de los sistemas, se ha realizado una ocultación de los procesos y los módulos involucrados en el sistema. Esta solución es dependiente de cada uno de los sistemas en los que se ha realizado el sistema de recolección de datos, y se ha utilizado el control que otorga el lugar en el que se encuentra emplazado el sistema de recolección de datos para esconder la existencia de los procesos y módulos involucrados en el sistema, sensibles a un atacante externo. Esto se realiza, haciendo que el atacante no pueda ver los procesos existentes, para ello se utilizan técnicas esencialmente víricas que sobreescriben las llamadas al sistema que iplementan la escritura y la lectura (Dependiendo del sistema sobre el que se implemente se modicará el funcionamiento de una o de otra). Estas llamadas se encuentran ya capturadas mediante funciones trampolín , que implementan la recolección de datos, por lo tanto para esconder la existencia de dichos procesos, se elimina del buer del resultado los nombres de los procesos y de los módulos implicados. Con este sistema, conseguimos que los atacantes sean incapaces de conocer si en ese sistema existe un sistema de auditoría, porque sencillamente, son incapaces de verlo. Por otro lado, el uso de una superestructura paralelizable, como la explicada anteriormente, permite evitar ataques de denegación de servicio basados en complejidad algorítmica. Según [25] estos ataques se basan en explotar vulnerabilidades algorítmicas de muchos de los algoritmos empleados en el software a atacar. La idea clave del ataque es que muchas de las estructuras de datos y algoritmos empleados habitualmente, tienen un buen comportamiento en los casos 178 Loadable Kernel Module 375 normales, pero pueden degenerar a casos críticos -en consumo de memoria o de CPU- ante situaciones patológicas. De esta forma, sí la superestructura se paraleliza para que se ejecute, de forma distribuida, cada una en un equipo este ataque pasa a ser inocuo porque se podrá sobrecargar uno o varios sistemas pero el resto siguen funcionando a pleno rendimiento. Añadido a lo anterior el uso de una superestructura orientada a la poda de expertos, ya comentado anteriormente, hace que se eviten ataques de denegación de servicio basados en complejidad algorítmica. Sí un experto se satura el propio modelo es capaz de "podar" esa rama, que lo esta ralentizando, hasta que su situación vuelva a la normalidad. Otra forma de dotar de fortaleza al sistema de detección es mediante la protección de la recogida de información en base a la ubicación de los elementos de etiquetado y análisis en una red privada virtual paralela a la infraestructura de comunicaciones a proteger. Un ejemplo de esto puede verse en la siguiente gura: Figura 3.81: Ejemplo de arquitectura del sistema, que asegura la fortaleza del sistema mediante VPNs. En esta gura se puede apreciar como los sistema de recolección de datos se comunican con el resto de agentes, es aquí donde la comunicación se puede hacer cifrada mediante una VPN -representadas por el candado-. Gracias a este cifrado que proporciona la VPN se consiguen tres de los cuatro pilares básicos de la seguridad de la informacion, a saber: Autenticación -el que envía la información es realmente quien dice ser-, Condencialidad - nadie en el punto intermedio entre el snier y el analizador es capaz de ver la información que se esta transmitiendo- y por último Integridad -los datos que se envían no sufren alteración ninguna en su camino-. De esta manera, se ha conseguido un sistema que presenta una gran fortaleza contra todo 376 tipo de agresiones, tanto de ataques de denegación como de servicio (mediante la distribución del cálculo y la posibilidad de poda de elementos sobrecargados), la transparencia de los agentes de recolección de datos que se autoocultan para no aparecer a los ojos de los atacantes, y la utilización de redes privadas virtuales (VPN) para la comunicación entre los diferentes elementos de la red. 3.7. Cuestiones Operacionales Este apartado, tal y como se ha descrito anteriormente trata sobre cuestiones como la escalabilidad, portabilidad, extensibilidad, así como otros aspectos como pueden ser la interoperabilidad entre los diferentes componentes o incluso entre diferentes sistemas de detección de intrusiones. Este tipo de cuestiones son de las más importantes para los usuarios de los sistemas de detección de intrusiones, la facilidad de mantenimiento, reto establecido en el punto, se supera ampliamente gracias a que el sistema genera sus salidas comparandolo con la normalidad lo que dota al modelo de la capacidad de auto-adaptación a la realidad cambiante de la red reduciendo al mínimo las labores administrativas, no como en otro tipo de sistemas expertos que necesitan de un operado les inserte el conocimiento. La portabilidad, entendida desde distintos sistemas operativos, máquinas y redes. Es decir, el ids debe ser capaz de ejecutarse en distintos sistemas operativos, en distintas arquitecturas y distintas redes, este punto queda ámpliamente superado por la infraestructura de ESIDE-Mendizale, dado que se ejecuta tanto en sistemas GNU/Linux como en Windows bajo la plataforma CygWin179 , y se adapta a todo tipo de conguraciones y de arquitecturas, gracias a su conguración en tres capas, dando como lugar un sistema totalmente adapatable a la conguración del entorno o a las necesidades del sistema a implantar. La cuestion de la extensibilidad, muy ligada a la esclabilidad, queda de nuevo solventada por la la estructura del sistema que permite conectar y desconectar nodos de computación (Tails) en caliente,y cargar y /o descargar dinámicamente plugins en los Tails y Heads. Cuestiones secundarias como el conocimiento requerido para su conguración y la interoperatibilidad con otros IDS no se han tenido en cuenta a la hora de desarrollar el sistema ESIDE-Mendizale. 3.8. Aspectos sociales Los aspectos sociales de un sistema de detección de intrusiones tiene dos vertientes bastante diferencias, una relativa a los usuarios del entorno que protege y otro relativa a las acciones a realizar contra los atacantes. 179 Cygwin se trata de la implementación del API de GNU/Linux bajo windows, se trata de una herraminetat libre disponible en : http://www.cygwin.com/ 377 En los aspectos relativos a los usuarios cabe hacerse preguntas del estilo a ¾Cómo afecta el ids a la comunidad de usuarios que protege?, ¾Realmente evitará la consecución de intrusiones?, ¾Los usuarios sentirán que sus datos se encuentran más protegidos?, ¾Verán los usuarios al sistema como el ?gran hermano? que todo lo observa?. La respuesta a todas estas preguntas dependen de que tipo de ids escoja la organización y que información/formación se les de a los usuarios. Por tanto, como dependen totalmente del tipo de organización, su respuesta queda totalmente fuera del ámbito de este proyecto y desde aquí solo se ha querido introducir estas cuestiones. Por otro lado, la implementación de un sistema de detección de intrusiones implica, en muchas ocasiones, el cumplimiento de una serie de requisitos impuestos por la ley. Cumplir con estas obligaciones permite perseguir a los culpables mediante procesos legales o judiciales. Los registros e informes proporcionados por el detector de intrusiones pueden constituir pruebas que ayuden a localizar y condenar a los responsables. Sin embargo estos registros e informes pueden incluir información considerada personal. Johnston establece, en su documento [286],que partes de la información usada por un IDS se pueden considerar personal y por tanto entran dentro de las leyes de privacidad. Por todo esto, aunque anteriormente se han presentado las respuestas activas/reactivas, en el modelo no se hace una utilización, agresiva, de esta capacidad tan solo se contempla la realización de un sistema de aviso de anomalías. 378 Capítulo 4 Conclusiones y líneas de investigación futuras Finalmente, una vez concluido el desarrollo de las diferentes tareas de investigación que componen el presente estudio, y a la vista de los resultados obtenidos durante la fase de desarrollo análisis de los resultados, es necesario determinar el grado de innovación con el que se alcanzan en ESIDE- Depian las hipótesis fundamentales, planteadas en el capítulo 1. Además, por otro lado, el desarrollo de las investigaciones conducentes a los objetivos marcados en la presente memoria sirve asimismo para señalar las futuras líneas de trabajo a través de las cuales buscar solución a ciertas cuestiones que aún permanecen por resolver y los nuevos retos que se plantean a raíz de los estudios realizados. De este modo, se exponen a continuación tanto las conclusiones obtenidas a lo largo de las diferentes partes que componen el presente trabajo de investigación, como las futuras líneas de investigación que son susceptibles de abordarse a corto plazo, con el objetivo de dar nuevos pasos en el desarrollo del área de conocimiento de la Detección de Intrusiones. 4.1. Conclusiones Se ha desarrollado una infraestructura con la vista puesta en el futuro y en las siguientes líneas de investigación. Esta infraestructura va a permitir alcanzar una integridad y unicidad, aparte de la homogeinización de los resultados. Así mismo se han mezclado y unido las líneas de investigación basadas en detección de rmas y detección de anomalías por medio de la infraestructura desarrollada: Heptopus. Se ha dedicado un gran esfuerzo en el desarrollo de la misma para optimizar la rapidez de respuesta y la distribución de carga computacional de forma que se permitan numerosas conguraciones e implantaciones acorde a los requisitos que sean requeridos. Así mismo se ha dedicado un gran esfuerzo de trabajo en el desarrollo de una metodología de trabajo para análisis de trazas de sistema que se espera dé resultados a corto plazo y se materialice en diferentes proyectos comerciales. Las técnicas de inteligencia articial desarrolladas componen un avance signicativo en el campo de detección de intrusiones automatizadas para entornos host. 379 El dinamismo y la automatización, así como la conclusión de reglas en base a los mismos hacen de este proyecto un conjunto único y una nueva visión de desarrollo para las técnicas actuales existentes en el campo hasta la fecha. No queda más que indicar que todos estos objetivos no hubieran sido cubiertos sin la existencia de una librería mantenida por la comunidad del software libre: PNL (subvencionada por Intel). Sobre la misma se ha desarrollado un sistema software de adaptación, para facilitar el trabajo con la librería anterior que ha llevado más de la mitad del tiempo de desarrollo del proyecto. Esta adaptación permite acometer las formas de trabajo con la librería de Intel de forma sencilla y automática, simplicando el uso de la misma y los requisitos de conocimiento necesarios para realizar las mismas operaciones directamente con ella. El equipo de investigación espera grandes resultados del trabajo de este periodo, conando en la acogida de la comunidad investigadora con entusiasmo a esta nueva visión de la seguridad en entornos de detección de intrusiones basados en red, en host e incluyendo los terminales móviles y sus comunicaciones. Si bien el proyecto originariamente se desarrollo en vías a solventar las problemáticas de este tipo de terminales, los dispositivos móviles, acorde a las hipótesis estas técnicas pueden usarse indistintamente tanto en terminales móviles como en unidades cableadas. En primer lugar, el objetivo operacional de desarrollo de un modelo de detección de intrusiones basado en anomalías para terminales móviles ha sido cubierto con creces. Dado que la metodología de trabajo necesaria para acometer este trabajo en terminales móviles era paralela a la desarrollada para sistemas informáticos cableados (mainframes, servidores, ordenadores de sobremesa, portátiles, etc), el proyecto se amplió, introduciendo interceptores para los diferentes sistemas operativos: Windows y Linux, así como para los sistemas operativos móviles: Symbian OS, Linux para terminales móviles (Nokia N770 y derivados) y Windows Mobile. El sistema, ampliado de miras ya, en las pruebas que se han realizado durante el desarrollo del software implementado en este periodo de trabajo ha dado resultados muy esperanzadores sobre el proyecto desarrollado. La infraestructura ha demostrado acoger las líneas de trabajo anteriores de forma válida y ha permitido la introducción de una distribución de carga necesaria y requerida para no saturar los sistemas de detección. Uno de los principales retos que se presentaron en la parte de retos era el modelado de perles de usuario no supervisados, con objetivo directo en la detección de ataques noveles (zday attacks). Este objetivo ha sido estudiado en base a las áreas actuales de investigación a nivel mundial y se ha conseguido mejorar las técnicas existentes para la tecnología actual. Este modelo basado en Redes Bayesianas puede arrojar una llamada preventiva, dado que al generar una regla se puede detectar prematuramente e incluso introducir este tipo de regla estáticas dentro de los terminales móviles, evitando la necesidad de enviar información sobre patrones ya conocidos como anómalos. Fruto de un aprendizaje prematuro y una creación de un modelo incompleto se pueden presentar tasas altas de falsos positivos, esta tasa se puede ajustar por medio de conocimiento 380 experto o volviendo a entrar en modo aprendizaje para los expertos basados en Redes Bayesianas. Es conveniente observar la tasa de alertas que se van generando para poder garantizar la abilidad del sistema, dado que puede tener un conocimiento incompleto sobre la aplicación en estudio. Toda la base de conocimiento del sistema puede ser estudiada dado que sigue un formato estandarizado en cheros XML que permiten creación, modicación o logeo de características dentro de la infraestructura y de los propios expertos bayesianos. Además esta parte se aplica incluyendo a las reglas de detección estática y los veredictos que entregan los expertos, pudiendo realizarse integraciones con otras aplicaciones. Esta escalabilidad posibilita a los futuros usuarios o administradores de esta infraestructura gestionarla en la forma que estimen más conveniente. Un objetivo fundamental es la simplicación del trabajo de las personas dedicadas al tratamiento integral de la seguridad en organizaciones especícas. El prototipo que se ha desarrollado si bien no esta en un estadio de madurez suciente como para realizar un producto comercial, no dista mucho de un proyecto de estas características. El objetivo futuro que se plantea por el equipo de investigación es la conclusión de productos comerciales que permitan a los futuros usuarios una forma sencilla de uso de la infraestructura. Además se les dota de medidas estudiadas y contrastadas para la detección temprana y corrección de las anomalías que acaezcan. 4.2. Líneas de investigación futuras Las líneas futuras en las que se esta trabajando actualmente para dar el prototipo por concluido es la medición de tasas de errores, tiempos de aprendizaje y jación de umbrales para poder dar una visión menos subjetiva a los usuarios de conguración de la plataforma. Si bien es ajustable en todos sus parámetros, conviene entregar una serie de datos y pruebas más extensa que la que se dispone actualmente. En plazo corto se dispondrá de estos datos para poder dar el prototipo por acabado. Otra línea de investigación es la integración completa con los sistemas de detección de red, para ello el despliegue de esta plataforma deberá realizarse del lado del operador de telefonía móvil. Este operador será quien pueda tener acceso a las comunicaciones de los terminales vía internet (llamadas de datos GSM/GPRS/UMTS) y podrá incorporan los sistemas desarrollados, tanto para análisis del tráco de red, como para análisis de llamadas al sistema. Esta integración homogénea y unicada de los datos corre a cargo de una parte fundamental de la plataforma, la red bayesiana naive de unicación de resultados. Esta red permitirá sacar futuras conclusiones sobre la concurrencia de que se produzca un ataque de red y se encuentren modicaciones en el comportamiento de las aplicaciones en estudio y viceversa. Este paso futuro es la integración fundamental, según la visión de la seguridad de este equipo de investigación, que deberá tenerse instaurada en todo entorno informatizado para dotarlo de la seguridad requerida. Líneas de investigación más rompedoras conllevan una modicación en la forma de trabajo de los terminales móviles, como son la instrumentación de software y aplicaciones instaladas de forma virtual. Este tipo de sistemas operativos virtualizados, llevados a terminales móviles, dotan 381 a los mismos de entornos seguros de aplicación y comportamiento estanco entre unas aplicaciones y otras, si bien será necesario instrumentalizar y comprobar el comportamiento anómalo que se produzcan incluso en el interior de este tipo de entornos. El desarrollo de sistemas que permitan la instrumentación codicada de métodos implicaría un fuerte incremento en el consumo de recursos del sistema, pero puede ser un paso adelante en la instalación de aplicaciones. Esta medida se viene aplicando de forma reducida dentro de los instaladores, vericando números de serie, funciones resumen criptográca (hash) o cheros de conguración de permisos. Esto puede ser sobrepasado con la instalación de un sistema de seguridad, mediante una instrumentalización binaria criptográca, en la que se realice la instalación controlada y la inclusión de los códigos necesarios en el sistema para que cuando se requiera una funcionalidad del mismo se verique que todo siga bajo la normalidad. Más puntos interesantes puede ser el estudio de ataques mimicry contra sistemas de detección criptográcos existentes, un proyecto aparte puede llegar a ser el realizar un proyecto fuera de las líneas de desarrollo habituales. Siguiendo la línea en la que un auditor de sistemas no desarrolla un trabajo adecuado si no ha estado desarrollando al otro lado de la barrera, se considera necesario dedicar un tiempo para desarrollar ataques e infecciones posibles contra los sistemas móviles y la seguridad que conllevan. Este tipo de desarrollo puede ayudar con conocimiento experto para los sistemas de detección de intrusiones como el que se ha realizado, introduciendo nuevas conclusiones en el mismo o nuevas tesituras a tener en cuenta. 382 Bibliografía [1] Wikipedia, http://es.wikipedia.org/wiki/Ficherobinario. [2] Wikipedia, http://es.wikipedia.org/wiki/Exploit. [3] R. e. neapolitan. probabilistic reasoning in expert systems: Theory and algorithms. Interscience, New York, Wiley- 1990. [4] The bayesian information criterion (bic). Disponible en département de mathématiques de Besançon. http://www-math.univ-fcomte.fr/mixmod/statdoc/node21.html, Septiembre 2005. [5] Databases and articial intelligence. articial intelligence segment. hill-climbing . ble en: http://www.cee.hw.ac.uk/ alison/, [6] Hypertext transfer protocol Disponi- 2005. http/1.1. 2005. Disponible en http://www.ietf.org/rfc/rfc2616.txt. [7] Internet control message protocol. darpa internet program. protocol specication. 2005. http://www.ietf.org/rfc/rfc768.txt. [8] Internet protocol. darpa internet program. protocol specication. 2005. Disponible en http://www.ietf.org/rfc/rfc791.txt. [9] Multiple imputation for missing data. http://support.sas.com/rnd/app/da/new/dami.html, Disponible en Octubre 2005. [10] Transport control protocol. darpa internet program. protocol specication. 2005. Disponible en http://www.ietf.org/rfc/rfc793.txt. [11] User datagram protocol. darpa internet program. protocol specication. 2005. Disponible en : http://www.ietf.org/rfc/rfc768.txt. [12] Raftery A. Bayesian model selection in social research. Methodology. Blackwells, Cambridge, MA, 1995. 383 In Marsden, P., editor, Sociological [13] N. Abouzakhar, A. Gani, and Abuitbel M. y King D Manson G. Bayesian learning networks approach to cybercrime detection. Liverpool, UK, Post Graduate Symposium, John Moore University, Junio 2003. [14] M. Schatz A.K. Ghosh, A. Schwartzbard. Using program behavior proles for intrusion detection. 3rd SANS Workshop on Intrusion Detection and Response, 1999. [15] J. Allen, A. Christie, Fithen W., McHugh J., Pickel J., and Stoner E. State of the practice of intrusion detection technologies. Institute, Technical Report, Carnegie Mellon University Software Engineering 2000. [16] Intersect Alliance. Guide to snare epilog for unix, snareapache and snaresquid. 2006. [17] P. Alípio, P. Carvalho, and J. Neves. Using clips to detect network intrusion. Lecture Notes in Computer Science, Vol. 2902/2003, Pag. 341-354, ISBN 0302-9743, SpringerVerlag, Diciembre 2003. [18] K. Anagnostakis, S. Antonatos, E. Markatos, and M. Polychronakis. E2xb: A domainspecic string matching algorithm for intrusion detection. International Information Security Conference, Proceeding of the 18th IFIP Mayo 2003. [19] D. Anderson, T. Frivold, A. Tamaru, and A. Valdés. Next generation intrusion detection expert system (nides), software users manual. tional, Computer Science Laboratory, SRI Interna- Mayo 1994. [20] J. Anderson. Computer security threat monitoring and surveillance. Washington, Pennsylvania, Technical Report, Fort Abril 1980. [21] J. P. Anderson. Computer security threat monitoring and surveillance. 1980. [22] Kamal Nigam Andrew McCallum. A comparison of event models for naive bayes text classication. School of Computer Science Carnegie Mellon University, 1998. [23] Alerta Antivirus. Centro de alerta temprana sobre virus y seguridad informática. Disponible en http://alerta-antivirus.red.es/portada/, 2006. [24] W. A. Arbaugh, W. L. Fithen, and J. McHugh. Windows of vulnerability: A case study analysis. IEEE Computer, December 2000. [25] J. Avión. Denegación de servicio a través de ataques de complejidad algorítmica. Disponible http://www.computeridea.net/Actualidad/Noticias/Seguridad/Vulnerabilidades/20030729002, 2005. [26] S. Axelsson. Intrusion detection systems: A survey and taxonomy. Technical report 99-15, Department of Computer Engineering, Chalmers University. Goteborg, Suecia, 384 2000. [27] S. Axelsson. Visualization for intrusion detection: Hooking the worm. Proceedings of the 8th European Symposium on Research in Computer Security, Vol. 2808 of Lecture Notes in Computer Science, Springer-Verlag, Noruega, Octubre 2003. [28] R. Bace and P. Mell. Intrusion detection systems. NIST Special Publication on Intrusion Detection Systems. Disponible en http://csrc.nist.gov/publications/nistpubs/, 2001. [29] Z. Baker and V. Prasanna. Automatic synthesis of ecient intrusion detection systems on fpgas. Proceedings of the International Conference on Field-Programmable Logic and its Applications, Bélgica, Septiembre 2004. [30] J. Balasubramaniyan, J. Omar, D. Isaco, G. Spaord, and D. Zamboni. An architecture for intrusion detection using autonomous agents. Technical Report 98/05, COAST Laboratory, Purdue University, West Lafayette, IN 47907-1398, USA, [31] P. Bania. Windows syscall shellcode. SecurityFocus, Junio 1998. 2005. [32] D. Barbará, N. Wu, and S. Jajodia. Detecting novel network intrusion using bayes estimators. First SIAM International Conference on Data Mining, 2001. [33] J. Barrus. A distributed autonomous-agent network-intrusion detection and response system. Proceedings of the 1998 Command and Control Research and Technology Symposium, Monterey, Canadá, Julio 1998. [34] E. Bauer, D. Koller, and Y. Singer. Udpate rules for parameter estimation in bayesian networks. Stanford University, AT&T Labs, 1996. [35] S. Beattie, S. Arnold, C. Cowan, P. Wagle, C. Wright, and A. Shostack. Timing the application of security patches for optimal uptime. Systems Administration Conference (LISA)., In Proceedings of the 2002. USENIX November 2002. [36] M. Bernaschi, E. Gabrielli, , and L. V. Mancini. Remus: a security-enhanced operating system. ACM Transactions on Information and System Security 5, 36 (Feb.), 2002. [37] Massimo Bernaschi, Emanuele Gabrielli, and Luigi V. Mancini. Operating system enhancements to prevent the misuse of system calls. Rome, Italy, IAC-CNR. Viale del Policlinico, 137. 00161 2000. [38] BlindView. Strace for windows. 2005. [39] Charles S. Bos. Markov chain monte carlo methods: Implementation and comparison. Tinbergen Institute & Vrije Universiteit Amsterdam. In Progress., Agosto 2004. [40] S. Bridges and R. Vaughn. Fuzzy data mining and genetic algorithms applied to intrusion detection. Proceedings of the 2000 National Information Systems Security Conference (NISSC), Baltimore, USA, Octubre 2000. 385 [41] S. Bridges and R. Vaughn. Intrusion detection via fuzzy data mining. 12th Annual Canadian Information Technology Security Symposium, Proceedings of the Junio 2000. [42] P. García Bringas and J.L. Val Román. Eside-depian: Entorno de seguridad inteligente para la detección y prevención de intrusiones de red basado en anomalías. Bizkaiko Foru Aldundia - Diputación Foral de Bizkaia, Berrikuntza eta Ekonomi Sustapen Saila Departamento de Innovación y Promoción Económica. Informe-Solicitud aprobado por el programa Bizkaitek, 2004. [43] H. K. Browne, W. A. Arbaugh, J. McHugh, and W. L. Fithen. A trend analysis of exploitations. In Proceedings of the 2001 IEEE Symposium on Security and Privacy, May 2001. [44] D. L. Bruening. Ecient, transparent, and comprehensive runtime code manipulation. Ph.D., M.I.T. http://www.cag.lcs.mit.edu/dynamorio/, 2004. [45] B. Buck and J. K. Hollingsworth. An api for runtime code patching. The International Journal of High Performance Computing Applications, 14(4):317 to 329., [46] W. Buntine. Learning classication trees. 2000. In Articial Intelligence Frontiers in Statistics: AI and statistics III. Chapman and Hall, New York, 1994. [47] D. Burroughs, L. Wilson, and G. Cybenko. Analysis of distributed intrusion detection systems using bayesian methods analysis of distributed intrusion detection systems using bayesian methods. Proceedings of the 21th International Performance Computing and Communications Conference, Abril 2002. [48] M. Bykova and S. Ostermann. Staistical analisys of malformed packets and their origins in the modern internet. University, School of Electrical Engineering and Computer Science, Ohio 2002. [49] Kruegel C. Network alertness, towards an adaptative collaborating intrusion detection system. 2002. [50] Krügel C. Network alertness, towards an adaptative, collaborating intrusion detection system. Dissertation for the degree of Doctor of Philosophy, University of Wien, Austria, 2002. [51] Siddhartha C. The gibbs sampling algorithm. http://www.quantlet.com/mdstat/scripts/csa/html/node28.html, Disponible en Septiembre 2005. [52] A. Ghosh C. Michael. Using nite automata to mine execution data for intrusion detection: A preliminary report. RAID 2000, LNCS 1907, pp.66-79, 386 2000. [53] CAIDA. Dynamic graphs of the nimda http://www.caida.org/dynamic/analysis/security/nimda/, worm. Disponible en 2001. [54] J. Cannady and J. Mahaey. The application of articial intelligence to misuse detection. Proceedings of the First Recent Advances in Intrusion Detection (RAID) Conference, 1998. [55] Shapiro M. W. Cantrill, B. M. and A. H. Leventhal. Dynamic instrumentation of production systems. 6th Symposium on Operating Systems Design and Implementation,pp. 15?28., 2004. [56] Jannette Cardoso and Heloisa Camargo. Fuzziness in Petri Nets, Physica-Verlag. 98. [57] E. Castillo, J.M. Gutiérrez, and A. Hadi. Sistemas expertos y modelos de redes probabilísticas. Monografías de la Academia de Ingeniería, ISBN 8460093956, 1998. [58] CERT Computer Emergency Response Team Coordination Center. Cert/cc overview incident and vulnerability trends. trends/, Disponible en http://www.cert.org/present/cert-overview- 2003. [59] CERT Computer Emergency Response Team Coordination Center. Cert/cc statistics 19882005. Disponible en http://www.cert.org/stats/certstats.html, 2005. [60] CERT Coordination Center. Computer emergency response team coordination center home page. http://www.cert.org/, 2006. Disponible en http://www.cert.org/. [61] Jesús Cerquides and Ramón López de Mantaras. Tractable bayesian learning of tree augmented naive bayes classiers. Instituto de Investigación en Inteligencia Articial, CSIC, 2003. [62] S. N. Chari and P.-C. Cheng. Bluebox: A policy-driven, host-based intrusion detection system. In Proceedings of the 2002 ISOC Symposium on Network and Distributed System Security (NDSS'02). San Diego, CA., 2002. [63] E. Charniak. Statistical languaje learning. MIT Press, Cambridge, Massachusetts, 1993. [64] S. Chavan, K. Shah, N. Dave, S. Mukherjee, A. Abraham, and S. Sanyal. Adaptative neuro-fuzzy intrusion detection systems. Proceedings of the 2004 International Conference on Information Technology: Coding and Computing (ITCC), Vol. 1, Pag. 70, 2004. [65] S. Chebrolu, A. Abraham, and J. Thomas. Feature deduction and ensemble design of intrusion detection systems. Elsevier Science, Computers and Security Journal, Vol. 24/4, Pag. 295-307, 2005. [66] P. Cheeseman and J. Stutz. Bayesian classication (autoclass): Theory and results. puters and Security Journal, Vol. 24/4, Pag. 295-307, Elsevier Science, 387 1995. Com- [67] Jie Cheng and Russell Greiner. Learning bayesian belief network classiers: Algorithms and systems. Canadian Imperial Bank of Commerce, Toronto, Ontario, Canada. Department of Computing Science, University of Alberta Edmonton, Alberta, Canada, [68] Fredrik Valeur Giovanny Vigna Christopher Kruegel, Darren Mutz. Anomalous System Call Arguments. [69] CISCO. Cisco intrusion 2000. On the Detection of Springer Berlin / Heidelberg, 2003. detection home http://www.cisco.com/warp/public/cc/pd/sqsw/sqidsz/, [70] CMU. Carnegie mellon university home page. page. Disponible en 2006. Disponible en http://www.cmu.edu/, 2006. [71] J. Conesa, M. Contero, and P. Company. Comportamiento de los algoritmos de optimización en la reconstrucción geométrica de sólidos. Universitat Jaume I, Univerisidad Politecnica de Cartagena. 2001. [72] Cordis. Community research and development information service home page. en http://www.cordis.lu/en/home.html, Disponible 2006. [73] Intel Corporation. Probabilistic network library: User guide and referente manual. Technology Laboratories, Intel Corporation, 2004. [74] Symantec Corporation. Ensuring your information is secure and available. http://www.symantec.com/, Systems Disponible en 2006. [75] E. Cox. The fuzzy systems handbook: A practitioner's guide to building, using, and maintaining fuzzy systems. AP Professional, Primera edició, ISBN 0121942708, Febrero 1994. [76] M. Crosbie and G. Saord. Applying genetic programming to intrusion detection. Working Notes for the AAAI Symposium on Genetic Programming, Pag. 1-8, MIT, Cambridge, USA, Diciembre 1995. [77] M. Crosbie and G. Spaord. Active defense of a computer system using autonomous agents. Technical Report 95-008, COAST Group, Department of Computer Sciences, Purdue University, West Lafayette, Indiana, USA, Febrero 1995. [78] T. Crothers. Implementing intrusion detection systems: A hands-on guide for securing the network. John Whiley and Sons, Incorporated. ISBN 0764549499, [79] CSI. Computer security institute home page. [80] CSO. Diciembre 2002. Disponible en http://www.gocsi.com/, Computer security ocer: The resource for security executives. http://www.csoonline.com/, 2006. Disponible en 2006. [81] T. W. Curry. Proling and tracing dynamic library usage via interposition. Summer 1994 Technical Conference, pages 267 to 278, Boston, MA., 388 1994. In USENIX [82] Goldberg D. The design of innovation: Lessons from and for competent genetic algorithms. Addison-Wesley, Primera edición, ISBN 1402070985, [83] González D. Receive-only utp http://www.dgonzalez.net/pub/roc/, [84] González D. and network D. Modelo taps. Disponible en 2003. Sistemas de deteccion de intrusiones. http://www.dgonzalez.net/pub/ids/, [85] Gonzalez cables Junio 2002. Version 1.01, Disponible en Julio 2003. de funcionamiento. 2005. Disponible en:http://www.dgonzalez.net/pub/ids/html/cap03.htm. [86] Heckerman D. A tutorial on learning with bayesian networks. Marzo 1995. [87] Lowd D. Naive bayes models for probability estimation. and Engineering. University of Washington, 2005. [88] Shannon C. Y Moore D. The spread of the witty worm. 2, N. 4, Department of Computer Science IEEE Security and Privacy, Vol Julio Y Agosto 2004. [89] Spaord E. Y Zamboni D. Intrusion detection using autonomous agents. tworks, 34(4):547-570, Computer Ne- Octubre 2000. [90] Upper D. Theory and algorithms for hidden markov models and generalized hidden markov models. Dissertation for the degree of Doctor of Philosophy, Mathematics Department, University of California, Berkeley, USA, Febrero 1997. [91] Weakliem D. A critique of the bayesian information criterion for model selection. University of Connecticut. Sociological Methods & Research, Vol. 27, No. 3, 359-397, [92] Zamboni D. Using internal sensor for computer intrusion detection. 1999. Center for Education and Research in Information Assurance and Security. Thesis submitted to the Faculty of Purdue University, [93] DARPA. 2001. Darpa intrusion http://www.ll.mit.edu/IST/ideval/, [94] DARPA. detection evaluation. en Julio 2001. Defense advanced research projects agency home page. http://www.darpa.mil/, Disponible Disponible en 2006. [95] GIOVANNI VIGNA CHRISTOPHER KRUEGEL DARREN MUTZ, FREDRIK VALEUR. Anomalous system call detection. nical University of Vienna, University of California, Santa Barbara - Tech- February. 389 [96] D. Dasgupta and F. González. An immunity-based technique to characterize intrusions in computer networks. Pag. 1081-1088, Transactions of the IEEE Evolutionary Computing, Vol. 6, No. 3, Junio 2002. [97] A.P. Dawid. Prequential data analysis. In M. Ghosh and P. K. Pathak, editors, Current Issues in Statistical Inference: Essays in Honor of D. Basu, IMS Lecture NotesMonographs Series 17, pages 113126. Institute of Mathematical Statistics, Hayward, California, 1992. [98] Red Iris: Red Española de Investigacion y Desarrollo. Servicio de seguridad iris-cert. http://www.rediris.es/cert/, 2006. Disponible en http://www.rediris.es/cert/. [99] Tatum Consultoría Comercial Y de Marketing. Informe de e-commerce (b2c). en http://www.tatum.es/, Disponible 2004. [100] H. Debar, M. Dacier, and A. Wespi. Towards a taxonomy of intrusion-detection systems. Computer Networks, Vol. 31, No. 8, Pag. 805-822, Abril 1999. [101] H. Debar, M. Dacier, and A. Wespi. A revised taxonomy for intrusion-detection systems. Annales des Télécommunications, Vol. 55, Pag. 361-378, 2000. [102] H. Debar, M. Huang, and D. Donahoo. Intrusion detection exchange format data model. Disponible en http://www.ietf.org/internet-drafts/draft-ietf-idwg-datamodel-03.txt, Ju- nio 2000. [103] Comision del Mercado de las Telecomunicaciones. Informe sobre el comercio electronico en españa a través de entidades de medios de pago (4âo trimestre 2004). http://www.cmt.es/cmt/centroinfo/publicaciones/index.htm, Disponible en 2005. [104] A. Dempster, N. Laird, and D. Rubin. Maximum likelihood from incomplete data via the em algorithm. Journal of the Royal Statistical Society, Series B, 39(1):138, [105] D. Denning. An intrusion detection model. 13, 2 (Feb.), 222-232, 1977. IEEE Transactions on Software Engineering 1987. [106] J.E. Dickerson and J.A. Dickerson. Fuzzy network proling for intrusion detection. Pro- ceedings of the NAFIPS 19th International Conference of the North American Fuzzy Information Processing Society, Pag. 301-206, Atlanta, USA, Julio 2000. [107] J.E. Dickerson, J. Juslin, O. Koukousoula, and J.A. Dickerson. Fuzzy intrusion detection. Proceedings of the IFSA World Congress and NAFIPS 20th International Conference of the North American Fuzzy Information Processing Society, Vol. 3, Pag. 1506-1510, Vancouver, Canada, Julio 2001. [108] Full Disclosure. An unmoderated mailing list for the discussion of security issues. Disponible en https://lists.grok.org.uk/mailman/listinfo/full-disclosure, 390 2006. [109] DoD. United states department http://www.defenselink.mil/, of defense home page. Disponible en 2006. [110] P. Dokas, L. Ertoz, V. Kumar, A. Lazarevic, J. Srivastava, and P. Tan. Data mining for network intrusion detection. Mining, Baltimore, USA, Proceedings of the NSF Workshop on Next Generation Data Noviembre 2002. [111] P. Domingos and M. Pazzani. On the optimality of the simple bayesian classier under zero-one loss. Machine Learning, 29:103-130, 1997. [112] J. Doyle, I. Kohane, W. Long, H. Shrobe, and P. Szolovits. Event recognition beyond signature and anomaly. Proceedings of the 2001 IEEE Workshop on Information Assurance and Security United States Military Academy, West Point, New York, USA, [113] M. Druzdzel and H. Simon. Causality in bayesian belief networks. Junio 2001. Proceedings of the 9th Conference on Uncertainty in Articial Intelligence, Pag. 3-11, Washington, Morgan Kaufmann, San Mateo, California, USA, 1993. [114] F.J. Díez. Local conditioning in bayesian networks. Articial Intelligence, 87:120, [115] F.J. Díez. Introducción al razonamiento aproximado. cial, Universidad de Educación a Distancia, 1996. Departamento de Inteligencia Arti- 1998. [116] Lundin E. Logging for intrusion and fraud detection. Thesis for the degree of Doctor of Philosophy, Department of Computer Engineering, Chalmers University, Göteborg, Suecia, 2004. [117] Lunding E. Logging for intrusion and fraud detection. Philosophy Department of Computer Engineering, Thesis for the degree of Doctor of 2004. [118] Spaord E. The internet worm: Crisis and aftermath. 32(6):678-687, Communications of the ACM, Junio 1989. [119] S. Eckmann. Translating snort rules to statl scenarios. Fourth International Symposium on Recent Advances in Intrusion Detection, University of California Davis, Lecture Notes in Computer Science 2212, Pag. 69-84, Octubre 2001. [120] S. Eckmann, G. Vigna, and R. Kemmerer. Statl: An attack languaje for state-based intrusion detection. Technical Report, Department of Computer Science, University of Califor- nia, Santa Barbara, USA, 2000. [121] A. Eiben and J. Smith. Introduction to evolutionary computing. Springer, Primera edición, ISBN 3540401849, Noviembre 2003. 391 [122] D. Endler. Intrusion detection. applying machine learning to solaris audit data. Proceedings of the 14th Annual Computer Security Applications Conference (ACSAC), Pag. 268, [123] esCERT. 1998. Equipo de seguridad para la coordinacipn de emergencias en redes te- lematicas. http://www.escert.org/index.php/web/es/index.html, 2006. Disponible en http://www.escert.org/index.php/web/es/index.html. [124] E. Eskin. Anomaly detection over noisy data using learned probability distributions. Proceedings of ICML 2000, Menlo Park, CA, 2000. AAAI Press., In 2000. [125] E. Eskin, W. N. Grundy, and Y. Singer. Protein family classication using sparse markov transducers. In Proceedings of the Eighth International Conference on Intelligent Systems for Molecular Biology, Menlo Park, CA. AAAI Press., 2000. [126] Eleazar Eskin, Wenke Lee, J. Salvatore, and Stolfo. Modeling system calls for instrusion detecction with dynamic window sizes. 2001. [127] The Common Criteria Evaluation and Validation Scheme. Common criteria for information technology security evaluation. Version 3.0, Junio 2005. [128] FBI. Federal bureau of investigation home page. [129] FBI/CSI. Disponible en http://www.fbi.gov, 2005 fbi/csi computer crime and security survey. http://www.gocsi.com/, 2006. Disponible en 2005. [130] P. Felgaer, P. Britos, J. Sucre, A. Servetto, R. García-Martínez, and G. Perichinsky. Optimización de redes bayesianas basado en técnicas de aprendizaje por inducción. 1995. [131] H. Feng, O. Kolesnikov, P. Fogla, and W. Lee. Anomaly detection using call stack information. In Proceedings of the 2003 IEEE Symposium on Security and Privacy., [132] Security Focus. Bugtraq mailing http://www.securityfocus.com/archive/1, [133] B. Fonseca. The ips list. 2003. Disponible en 2006. question. InfoWorld Magazine. http://www.infoworld.com/article/03/04/04/14ips1.html?security, Disponible en Abril 2003. [134] S. Forrest, S. A. Hofmeyr, A. Somayaji, and T. A. Longsta. A sense of self for unix processes. In Proceedings of the 1996 IEEE Symposium on Security and Privacy, pages , Los Alamitos, CA. IEEE Computer Society Press., 1996. [135] Friedman, Geiger, and Goldszmidt. Bayesian network classiers. AT&T Labs, University of California. 1997. [136] N. Friedman and M. Goldszmidt. Sequential update of bayesian network structure. versity of California, Computer Science Division. SRI International, 392 1995. Uni- [137] N. Friedman and Y. Singer. Ecient bayesian parameter estimation in large discrete domains. Computer Science Division University of California. AT&T Labs, [138] Fyodor. The art of port scanning. 1997. Disponible en http://www.insecure.org/nmap/, 1997. [139] Wolf D. G. Statement before the house committee on government reform, subcommittee on government eciency, nancial management and intergovernmental relations, and the subcommittee for technology and procurement policy. Act, Federal Information Security Reform 2002. [140] D.B. G. Hunt. Detours: Binary interception of win32 functions. Microsoft Research, 1999. [141] Debin Gao, Michael K. Reiter, and Dawn Song. Gray-box extraction of execution graphs for anomaly detection. nications security, Proceedings of the 11th ACM conference on Computer and commu- October 2004. [142] T. Garnkel and M. Rosenblum. A virtual machine introspection based architecture for intrusion detection. In Proceedings of the 2003 Network and Distributed System Security Symposium (NDSS), February, 2003. [143] A.E. Gelfand and A.F.M. Smith. Sampling-based approaches to calculating marginal densities. Journal of the American Statistical Association, 85: 398-409, 1990. [144] S. Geman and D. Geman. Stochastic relaxation, gibbs distributions and the bayesian restoration of images. 12: 609-628, IEEE Transactions on Pattern Analysis and Machine Intelligence, 1984. [145] Zhihai Wang Geof Webb, Janice Boughton. Not so naive bayesian classication. Monash University, Melbourne, Australia. [146] Wanken J. Ghosh, A. and F. Charron. Detecting anomalous and unknown intrusions against programs. In Proceedings of the Annual Computer Security Application Conference (ACSAC'98). Scottsdale, AZ. 259-267, 1998. [147] Golomb03. Intrusion detection methodologies demystied. ted Technical Whitepaper, Enterasys Networks Incorpora- Diciembre 2003. [148] Schwartzbard A. y Schatz M. Gosh A. Learning program behavior proles for intrusion detection. Proceedings of the rst USENIX Workshop on Intrusion Detection and Network Monitoring, Santa Clara, California, USA, Abril 1999. [149] Ledesma B. y Brotons F. Grediaga A., Ibarra F. Utilización de redes neuronales para la detección de intrusos. de Alicante, Departamento de Tecnología Informática y Computación, Universidad 2002. 393 [150] Abraham A. y Han S. Grocan C. Mepids: Multi-expression programming for intrusion detection system. International Work-Conference on the Interplay between Natural and Arti- cial Computation (IWINAC), Lecture Notes in Computer Science, LNCS 3562, SpringerVerlag, Pag. 163-172, España, 2005. [151] Oulu University Secure Programming Group. Glossary of vulnerability testing terminology. Disponible en http://www.ee.oulu./research/ouspg/sage/glossary/, 2004. [152] John Gulbrandsen. System call optimization with the sysenter instruction. [153] Kim J. H. Convince: A conversational inference consolidation engine. Computer Science, University of California, Los Angeles, codeguru, 2004. Tesis doctoral, Dept. 1983. [154] Kvarnstram H. A survey of commercial tools for intrusion detection. Technical Report TR99-8, Department of Computer Engineering, Chalmers University of Technology, Goteborg, Suecia, 1999. [155] Tijms H. Understanding probability: Chance rules in everyday life. Press, ISBN 0521540364, Cambrigde University Agosto 2004. [156] Zhang Z. Y Shen H. Online training of SVMs for real-time intrusion detection. Proceedings of the International Conference on Advanced Information Networking and Applications (AINA), Vol. 1, Pag. 568, 2004. [157] D. R. Simon H. J. Wang, C. Guo and A. Zugenmaier. Shield: Vulnerability-driven network lters for preventing known vulnerability exploits. SIGCOMM Conference, In Proceedings of the 2004 ACM August, 2004. [158] Mannila H. y Smyth P. Hand D. Principles of data mining. Cambridge, Massachusetts, USA, MIT Press, ISBN 026208290X, 2001. [159] R. Hastings and B. Joyce. Purify: Fast detection of memory leaks and access errors. Procedings of the Winter USENIX Technical Conference, San Francisco, CA., In January 1992. [160] Maccabe A. y Servilla M. Heady R., Luger G. The architecture of a network level intrusion detection system. Mexico, USA, Technical Report, Department of Computer Science, University of New Agosto 1990. [161] Levitt K. N. Mukherjee B. Wood J. y Wolber D. Heberlein L.T., Dias G.V. A network security monitor. Pag. 296-304, Proceeding of the IEEE Symposium on Research in Security and Privacy, Mayo 1990. 394 [162] Keromytis A. y Stolfo S. Heller K., Svore K. One class support vector machines for detecting anomalous windows registry accesses. Proceedings of the ICDM Workshop on Data Mining for Computer Security (SMSEC), Melbourne, Florida, USA, Noviembre 2003. [163] Honavar V. Miller L. y Wang Y. Helmer G., Wong J. Lightweight agents for intrusion detection. Elsevier Journal of Systems and Software, No. 67, Pag. 109-122, 2003. [164] S. Y. Ho. Intrusion detection systems for today and tomorrow. SANS Institute. Information Security Reading Room, 2001. [165] Meier M. y König H. Holz T. High-ecient intrusion detection infraestructure. ture. DFN-Arbeitstagung über Kommunikationsnetze, 217-232, Infrastruc- 2003. [166] R.A. Howard and J. Matheson. Readings on the principles and applications of decision analysis. Strategic Decisions Group, Menlo Park, 1981. [167] Liao Y. y Vemuri R. Hu W. Robust support vector machines for anomaly detection in computer security. Proceedings of the 2003 International Conference on Machine Learning and Applications (ICMLA), Los Angeles, California, USA, Junio 2003. [168] G. Hunt and D. Brubacher. Detours: Binary interception of win32 functions. Windows NT Symposium, USENIX 1999. [169] IETF. Internet engineering task force home page. Disponible en http://www.ietf.org/, 2006. [170] Kemmerer R. y Porras P. Ilgun K. State transition analysis: A rule-based intrusion detection approach. IEEE Transactions on Software Engineering, Vol. 21, No. 3, Pag. 181-199, 1995. [171] Enterasys Networks Incorporated. Enterasys dragon intrusion defense. http://www.enterasys.com/products/ids/, Disponible en 2006. [172] Forrester Incorporated. Forrester research: Technology research and advice home page. Disponible en http://www.forrester.com/, 2006. [173] Gartner Incorporated. Gartner group: It research and analysis home page. http://www.gartner.com/, 2006. [174] Tripwire Incorporated. Tripwire change auditing solutions home page. http://www.tripwire.com/, Disponible en Disponible en 2006. [175] INOUE, Hiroaki Akihisa Ikeno, Masaki Kondo, Junji Sakai, and Masato Edahiro. Virtus: A new processor virtualization architecture for security-oriented next-generation mobile terminals. System Devices Research Laboratories, NEC Corporation, 1120, Shimokuzawa, Sagamihara, Kanagawa, 229-1198 Japan. - NEC Informatec Systems, Ltd. 3-2-1, Sakado, Takatsu-ku, Kawasaki, Kanagawa, 213-0012 Japan, 395 July, 2006. [176] Ulrich Ultes-Nitsche. Inseon Yoo. Adaptative detection of worm/viruses in rewalls. partament of Informatics, University of Fribourg, Switzerland, De- 2002. [177] SANS Institute. SANS glossary of terms used in security and intrusion detection. Disponible en http://www.sans.org/resources/glossary.php, 2005. [178] Red Iris. Red española de investigación y desarrollo. Disponible en http://www.rediris.es/, 2006. [179] IWS. Top 20 countries with the highest number of internet users. http://www.internetworldstats.com/top20.htm, [180] IWS. World internet users and http://www.internetworldstats.com/stats.htm, [181] IWS. Internet world stats home page. Disponible en 2005. population stats. Disponible en 2005. Disponible en http://www.internetworldstats.com/, 2006. [182] Giron F. J. Regresión logística y análisis discriminante robustos: un enfoque bayesiano. Universidad de Málaga, 2005. [183] Luo J. Integrating fuzzy logic with data mining methods for intrusion detection. Report, Mississippi State University, Technical 1999. [184] McHugh J. The 1998 licoln laboratory ids evaluation: A critique. Proceedings of the 3th International Workshop on Recent Advances in Intrusion Detection, Vol. 1907 of Lecture Notes in Computer Science, Springer-Verlag, Tolouse, Francia, Octubre 2000. [185] Pearl J. Reverend bayes on inference engines: A distributed hierarchical approach. ceedings of the AAAI National Conference on AI, Pag. 133-136, Pittsburgh, PA, Pro- Agosto 1982. [186] Pearl J. Fusion, propagation and structuring in belief networks. 29:241 288, Articial Intelligence, 1986. [187] Pearl J. Probabilistic reasoning in intelligent systems: Networks of plausible inference. Morgan Kaufmann, ISBN 1558604790, Septiembre 1988. [188] Pearl J. From conditional oughts to qualitative decision theory. Proceedings of the 9th Con- ference on Uncertainty in Articial Intelligence, Pag. 12-20, Washington, Morgan Kaufmann, San Mateo, California, USA, 1993. [189] Pearl J. Causal diagrams for empirical research. Biometrika, 82:669-710, 1995. [190] Robins J. A new approach to causal inference in mortality studies with sustained exposure results. mathematical modelling. 7:1393-1512, 396 1986. [191] Schenier B. Y Kelsey J. Secure audit logs to support computer forensics. ACM Transactions on Information and System Security, 2(2), Mayo 1999. [192] B. Ravichandran J. B. D. Cabrera and R. K. Mehra. Statistical trac modeling for network intrusion detection. In Proceedings of the Eighth International Symposium on Modeling, Analysis, and Simulation of Computer and Telecommunications Systems, pages 466-473, San Francisco, CA. IEEE Computer Society., August, 2000. [193] B. Karp J. Newsome and D. Song. Ploygraph: Automatically generating signatures for polymorphic worms. In Proceedings of the IEEE Symposium on Security and Privacy, May, 2005. [194] S. Jha J. T. Gin and B. P. Miller. Detecting manipulated remote call streams. Security Symposium., USENIX August 2002. [195] S. Jha J. T. Gin and B. P. Miller. Ecient context-sensitive intrusion detection. Annual Network and Distributed System Security Symposium., 11th February 2004. [196] Karygiannis T. y Marks D. Jansen W., Mell P. Mobile agents in intrusion detection and response. Proceedings of the 12th Annual Canadian Information Technology Security Symposium, Ottawa, Canadá, 2000. [197] S. L. Lauritzen Jensen F. V. and K. G. Olesen. Bayesian updating in causal probabilistic networks by local computations. Computational Statistics Quarterly 4, 269282, 1990. [198] Scott M. Lewandowski Robert K. Cunningham Jesse C. Rabek, Roger I. Khazan. Detection of injected, dynamically generated, and obfuscated malicious code. of Technology, Lincoln Laboratory, 244 Wood Street, Lexington., Massachusetts Institute October 2003. [199] Lundy Lewis Joao B. D. Cabrera and Raman K. Mehra. Detection and classication of intrusions and faults using sequences of system calls. Scientic Systems Company, 500 West Cummings Park, Suite 3000. Woburn MA 01801 USA, December, 2001. [200] M. B. Jones. Interposition agents: Transparently interposing user code at the system interface. In Proceedings of the Symposium on Operating Systems Principles, pages 80 to 93, Asheville, NC., 1993. [201] Chongkyung Kil Yan Zhai Chris Bookholt Jun Xu, Peng Ning. Automatic diagnosis and response to memory corruption vulnerabilities. Cyber Defense Laboratory. Department of Computer Science. North Carolina, State University, [202] Gubbels K. Hands in the honeypot. November, 2005. SANS Institute Information Security Reading Room. GIAC Security Essentials Certication (GSEC), Practical Assignment, Version 1.4b, 397 2002. [203] Ilgun K. Ustat: A real-time intrusion detection system for unix. Proceedings of the IEEE Symposium on Research on Security and Privacy, Oakland, USA, [204] Jackson K. Intrusion detection system product survey. Mayo 1993. Technical Report LA-UR-99-3883. Distributed Knowledge Systems Team, Computer Research and Applications Group, Los Alamos National Laboratory, New Mexico, Junio 1999. [205] Julisch K. Using root cause analysis to handle intrusion detection alarms. IBM Zurich Research Laboratory. Dissertation for the degree of Doctor of Philosophy, University of Dortmund, Alemania, 2003. [206] Murphy K. An introduction to graphical models. Corporation, TechnicalReport, Intel Research, Intel Mayo 2001. [207] Valdés A. Y Skiner K. Probabilistic alert correlation. Proceedings of the 4th International Symposium on Recent Advances in Intrusion Detection, Pag. 54-68, 2001. [208] Staniford-Chen S. y Tung B. Kahn C., Porras P. A common intrusion detection framework. Journal of Computer Security, Julio 1998. [209] Tierney L. Kass, R. and J. Kadane. Asymptotics in bayesian computation. In Bernardo, J., DeGroot, M., Lindley, D., and Smith, A., editors, Bayesian Statistics 3, pages 261-278. Oxford University Press, 1988. [210] H. A. Kim and B. Karp. Autograph: Toward automated, distributed worm signature detection. In Proceedings of the 13th Usenix Security Symposium, August, 2004. [211] Nguyen H. y Park J. Kim D. Genetic algorithm to improve svm based network intrusion detection system. Proceedings of the 19th International Conference on Advanced Information Networking and Applications (AINA), Vol. 2, Pag. 155-158, 2005. [212] Samuel T. King and Peter M. Chen. Backtracking intrusions. Engineering and Computer Science. University of Michigan, Department of Electrical February, 2005. [213] Ruschitzka M. y Levitt K. Ko C. Execution monitoring of security-critical programs in distributed systems: A specication-based approach. posium on Security and Privacy, Oakland, USA, Proceedings of the 1997 IEEE Sym- 1997. [214] C. Kreibich and J. Crowcroft. Honeycomb - creating intrusion detection signatures using honeypots. In Proceedings of the Second Workshop on Hot Topics in Networks (HotNets-II), November, 2003. [215] Robertson W. y Valeur F. Krügel C., Mutz D. Bayesian event classication for intrusion detection. Vegas, Proceedings of the 19th Annual Computer Security Applications Conference, Las Diciembre 2003. 398 [216] Vigna G. y Kemmerer R. Krügel C., Valeur F. Stateful intrusion detection for high-speed networks. Proceedings of the IEEE Symposium on Security and Privacy, IEEE Press, Pag. 285-293, Oakland, USA, Mayo 2002. [217] G. Krügel. C, Vigna. Anomaly detection of web-based attacks. University of California, Santa Barbara, Reliable Software Group, 2003. [218] R. Kuster. Three ways to inject your code into another process. 2003. [219] Me L. Gassata, a genetic algorithm as an alternative tool for security audit trails analysis. First International Workshop on the Recent Advances in Intrusion Detection, Louvain-laNeuve, Belgica, Septiembre 1998. [220] Skoudis E. Y Zeltser L. Malware: Fighting malicious code. ISBN 0131014056, Prentice Hall, Primera Edición, Noviembre 2003. [221] Spitzner L. Honeypots: Tracking hackers. Addison-Wesley Professional, ISBN 0321108957, 2002. [222] Kaspersky Lab. Premier protection against viruses, hackers and spam. http://www.kaspersky.com/, Disponible en 2006. [223] L. C. Lam and T. Chiueh. Automatic extraction of highly accurate application-specic sandboxing policy. In Seventh International Symposium on Recent Advances in Intrusion Detection, Sophia Antipolis, French Riviera, France., September 2004. [224] Lap-Chung Lam, Wei Li, and Tzi cker Chiueh. Accurate and automated system call policybased intrusion prevention. 2006 International Conference on Dependable Systems and Ne- tworks (DSN 2006), 25-28 June 2006, Philadelphia, Pennsylvania,USA, Proceedings .IEEE Computer Society, 2006. [225] J. Larus and E. Schnarr. Eel: Machine-independent executable editing. In Proceedings of the ACM SIGPLAN '95 Conference on Programming Language Design and Implementation, La Jolla, CA., June 1995. [226] Dawson R. Lavori P.W. and Shera D. A multiple imputation strategy for clinical trials with truncation of patient data. Statistics in Medicine, 14, 19131925, 1995. [227] Kumar V. Ozgur A. y Srivastava J. Lazarevic A., Ertoz L. A comparative study of anomaly detection schemes in network intrusion detection. Mining, SIAM International Conference on Data Mayo 2003. [228] Chan P. Eskin E. Fan W. Miller M. Hershkop S. y Zhang J. Lee W., Stolfo S. Real time data mining-based intrusion detection. Proceedings of the second DARPA Information Survivability Conference and Exposition, 2001. 399 [229] Stolfo S. y Mok K. Lee W. A data mining framework for building intrusion detection models. Proceedings of the IEEE Symposium on Security and Privacy, Pag. 120-132, 1999. [230] Tseng S. y Lin S. Lin Y. An intrusion detection model based upon intrusion detection markup languaje (idml). Department of Computer and Information Science, National Chiao Tung University, Taiwan, Agosto 2001. [231] U. Lindqvist and P. Porras. Detecting computer and network misuse with the production based expert system toolset (p-best). Oakland, CA. 146-161., In IEEE Symposium on Security and Privacy. 1999. [232] Fried D. Korba J. y Das K. Lippmann R., Haines J. The 1999 darpa o-line intrusion detection evaluation. Computer Networks, Vol. 34(4):579-595, Elsevier Science, Octubre 2000. [233] Zhen Liu and Susan M. Bridges. Dynamic learning of automata from the call stack log for anomaly detection. University, Department of Computer Science and Engineering. Mississippi State April, 2005. [234] Cohn R. Muth R. Patil H. Klauser A. Lowney G. Wallace S. Reddi V. J. Luk, C. and K. Hazelwoo. Pin: Building customized program analysis tools with dynamic instrumentation. ACM SIGPLAN Conference on Programming Language Design and Implementation (PLDI), Chicago, IL, USA, pp. 190?200., 2005. [235] T. F. Lunt. Detecting intruders in computer systems. In Proceedings of the Sixth Annual Symposium and Technical Displays on Physical and Electronic Security,, 1993. [236] Teresa F. Lunt and R. Jagannathan. A prototipe real-time intrusion-detection expert system. IEEE Symposium on Security and Privacy,, 1988. [237] Gilham F. Jagannathan R. Newumann P. y Jalali C. Lunt T., Tamaru A. Ides: A progress report. Proceedings of the 6th Annual Computer Security Applications Conference, [238] Llorens M. Redes recongurables. modelizacion y vericacion. 1990. Tesis Doctoral, Depar- tamento de Sistemas Informaticos y Computacion, Universidad Politecnica de Valencia, 2003. [239] Olmsted Scott M. On representing and solving decision problems. Ph.D. thesis, Stanford University, Department of Engineering-Economic Systems, Stanford, CA, [240] Ranum M. Coverage in intrusion detection systems. Incorporated Technical Publication, Technical Publication. NFR Security Junio 2001. [241] Ranum M. Experiences benchmarking intrusion detection systems. porated Technical Publication, Diciembre 1983. Diciembre 2001. 400 NFR Security Incor- [242] Roesch M. Snort: Lightweight intrusion detection for networks. 13th Systems Administration Conference, Pag. 229-238, Proceedings of LISA'99: Noviembre 1999. [243] Roesch M. Next-generation intrusion prevention: The pre-attack period. 2005. Disponible en http://searchsecurity.techtarget.com/tip/1289483sid14gci112130700.html. [244] Ye N. Y Xu M. Probabilistic networks with undirected links for anomaly detection. Works- hop on Information Assurance and Security, Proceedings of the IEEE, Pag. 175-179, 2000. [245] N. Fakotakis G. Kokkinakis M. Maragoudakis, E. Kavallieratou. How conditional independence assumption aects handwritten character segmentation. and Computer Engineering, University of Patras, Greece, Department of Electrical 2000. [246] Carla Marceau. Characterizing the behavior of a program using multiple-length n-grams. Odyssey Research Associates. Ithaca, NY 14850, February, 2001. [247] Jose Ignacio Sánchez Martín. Técnicas de modelado de llamadas al sistema como aproximación a la detección de intrusiones en sistemas gnu/linux, microsoft windows 2000/xp y microsoft windows mobile. 2006. [248] Wes Masri and Andy Podgurski. Using dynamic information ow analysis to detect attacks against applications. Computer Science Department. American University of Beirut. Beirut, Lebanon 1107 2020 - Electrical Engineering and Computer Science Department. Case Western Reserve University. Cleveland, OH 44106, May, 2005. [249] Lippmann R. Haines J. y Zissman M. Mell P., Hu V. An overview of issues in testing intrusion detection systems. Technical report, National Institute of Standards and Technology, Massachusetts Institute of Techonology Lincoln Laboratory, USA, [250] M. Miller. Understanding windows shellcode. nologin, Junio 2003. 2003. [251] MIT. Massachusetts institute of technology home page. Disponible en http://www.mit.edu/, 2006. [252] Trevor Jim Richard Schlichting Mohan Rajagopalan, Matti Hiltunen. Authenticated system calls. Department of Computer Science, The University of Arizona. AT and T Labs- Research, 180 Park Avenue, July, 2006. [253] Savage S. Shannon C. Staniford-Chen S. y Weaver N. Moore D., Paxson V. The spread of the sapphire/slammer worm. IEEE Security and Privacy, Vol 1, N. 4, Julio-Agosto 2003. [254] Shannon C y Brown J. Moore D. Code-red: A case study on the spread and victims of an internet worm. Internet Measurement Workshop (IMW), 401 2002. [255] Heberlein T. y Levitt K. Mukherjee B. Network intrusion detection. 8(3):26-41, IEEE Network, Junio 2004. [256] Sung A. y Abraham A. Mukkamala S. Intrusion detection using an ensemble of intelligent paradigms. Science, Journal of Network and Computer Applications, No. 28, Pag. 167-182, Elsevier 2005. [257] N. Nethercote and J. Seward. Valgrind: A program supervision framework. In 3rd Workshop on Runtime Verication, 2003. [258] P. G. Neumann and P. A. Porras. Experience with emerald to date. Usenix Workshop on Intrusion Detection, In Proceedings of the 1999. [259] James Newsome and Dawn Song. Dynamic taint analysis for automatic detection, analysis, and signature generation of exploits on commodity software. In Proceedings of the 12th Annual Network and Distributed System Security Symposium (NDSS), [260] NIST. 2005. National institute of standards and technology home page. http://www.nist.gov/, Disponible en 2006. [261] Novell. Linux audit-subsystem design documentation for kernel 2.6. 2004. [262] NSA. National security agency home page. Disponible en http://www.nsa.gov/, [263] University of California. Lawrence livermore national laboratory home page. en http://www.llnl.gov/, 2006. Disponible 2006. [264] University of California Davis. University of california davis home page. http://www.ucdavis.edu/, Disponible en 2006. [265] CSO. Computer Security Ocer. http://www.csoonline.com, 2005 e-crime watch survey. Disponible en 2005. [266] Lauritzen S. y Jensen F. Olesen K. ahugin: A system creating adaptive causal probabilistic networks. Dubois et al. Eds, Pag. 223-229, 1992. [267] United Nations. United Nations Conference on Trade and Development. E-commerce and development report 2002. 2002. [268] United Nations. United Nations Conference on Trade and Development. E-commerce and development report 2004. 2004. [269] A. One. Smashing the stack for fun and prot. Phrack, 7(49):14, [270] William Osser. Auditing in the solaris8 operating environment. 402 1996. Sun BluePrints, 2002. [271] Inella P. The evolution of intrusion detection systems. http://www.securityfocus.com/infocus/1514, 2001. Security Focus. Disponible en 2001. [272] Proctor P. Computer misuse detection system (cmds) concepts. International Corporation (SAIC), Technical Paper, Science Applications 1996. [273] Wellman M. P. Fundamental concepts of qualitative probabilistic networks. Intelligence, 44:257 303, 1990. [274] Wellman M. P. Graphical inference in qualitative probabilistic networks. 701, Articial Networks, 20:687 1990. [275] Winston P. Articial intelligence. ción, ISBN 0201533774, Addison Wesley, Reading, Massachusetts, Tercera Edi- Enero 1992. [276] K. Fraser S. Hand T. Harris A. Ho R. Neugebauer I. Pratt P. Barham, B. Dragovic and A. Wareld. Xen and the art of virtualization. Operating Systems Principles, In Proceedings of the 2003 Symposium on October, 2003. [277] V. Paxson. Bro: A system for detecting network intruders in real-time. 7th USENIX Security Symposium. San Antonio, TX, In Proceedings of 1998. [278] Shachter R. D. Peot M.A. Fusion and propagation with multiple observations in belief networks. Articial Intelligence, 48:299318, 1991. [279] J. Picciotto. The desing of an eective auditing subsystem. Bedford, Massachusetts, The MITRE Corporation, 1978. [280] Elo J. y Venter H. Pillai M. An approach to implement a network intrusion detection system using genetic algorithms. Proceedings of the 2004 annual research conference of the South African institute of computer scientists and information technologists on IT research in developing countries, ACM International Conference Proceedings Series, Vol. 75, 2004. [281] Uday Joshi Prem Uppuluri and Arnab Ray. Preventing race condition attacks on lesystems. Dept. of Computer Science University of Missouri at Kansas City, MO, 641 10 - Dept. of Computer Science State University of New York Stony Brook, NY, 11790, [282] The Honeynet Project. Know your enemy: Trend analysis. http://honeynet.org/papers/kye.html, 2005. Disponible en 2004. [283] The Honeynet Project. To learn tools, tactics and motives involved in computer and network attacks, and share the lessons learned. 2006. 403 Disponible en http://project.honeynet.org/, [284] Jeerson Provost. Naive bayes vs rule-learning in classication of email. Computer Sciences, University of Texas, Austin, Departmen of 1999. [285] Xueyao Li Qingbo yin, Rubo Zhang. An new intrusion detection method based on linear prediction. 2002 Symposium on Applications and the Internet, 2002. [286] Johnston. S. R. The impact of privacy and data protection legislation on the sharing of intrusion detection information. In Proceedings of the 4th International Symposium on Recent Advances in Intrusión Detection, Lecture Notes in Computer Science, [287] Shachter R. Probabilistic inference and inuence diagrams. Pag. 589-604, [288] Shirey R. 2212, 2001. Operations Research, No. 36, 1988. Internet security glossary. Internet RFC 2828. The Internet Society, Ne- twork Working Group, GTE/BBN Technologies. Disponible en http://www.ietf.org/rfc/ /rfc2828.txt, Mayo 2000. [289] J. Gagnon R. K. Mukkamala and S. Jajodia. Integrating data mining techniques with intrusion detection. In V. Atluri and J. Hale, editors, Research Advances in Database and Information Systems Security, pages 33-46. Kluwer Publishers, 2000. [290] L. R. Rabiner. A tutorial on hidden markov models and selected applications in speech recognition. Proceedings of the IEEE, 77(2)., 1989. [291] L. R. Rabiner and B. H. Juang. An introduction to hidden markov models. Magazine, pages 4 to 16, Jannuary., IEEE ASSP 1986. [292] RaiSe. Lkm rootkits en linux x86 v2.6. enye-sec, 2005. [293] Jan Vitek Rajeev Gopalakrishna, Eugene H. Spaord. Ecient intrusion detection using automaton inlining. Center for Education and Research in Information Assurance and Security. Department of Computer Sciences. Purdue University, May, 2005. [294] Stolarchuk M. Sienkiewicz M. Lambeth A. y Wall E. Ranum M., Landeld K. Implementing a generalized tool for network monitoring. Conference, San Diego, California, USA, Proceedings of the 11th Systems Administration Octubre 1997. [295] Red.es. Entidad pública empresarial red.es. Disponible en http://red.es/, 2006. [296] Cordis. Community Research and Development Information Service. Information society technologies. Disponible en http://www.cordis.lu/fp6/ist.htm, 2006. [297] NATO Research and Technology Organisation. Intrusion detection: Generics and state-ofthe-art. Technical Report 49, 2002. 404 [298] John Muray Reuter. Inside Windows CE. Microsoft Press, 1998. [299] Culbert C. Donell B. Ly B. Ortiz C. Giarrantano J. y López F. Riley G., Savely R. Clips: A tool for building expert systems. Disponible en http://www.ghg.net/clips/CLIPS.html, 2005. [300] Little R.J.A. and Rubin D.B. Statistical analysis with missing data. York, J. Wiley & Sons, New 1987. [301] D.B. Rubin. Multiple imputation for nonresponse in surveys. Sons, Inc., New York: John Wiley & 1987. [302] Koller D. y Kanazawa K. Russellm S., Binder J. Local learning in probabilistic networks with hidden variables. In Proceedings of the Fourteenth International Joint Conference on Articial Intelligence, Montreal, QU, pages 1146-1152. Morgan Kaufmann, San Mateo, CA, 1995. [303] Gould S. The structure of evolutionary theory. 0674006135, Belknap Press, Primera edición, ISBN Marzo 2002. [304] Kumar S. Classication and detection of computer intrusions. degree of Doctor of Philosophy, Purdue University, USA, Thesis submitted for the Agosto 1995. [305] Scott S. A bayesian paradigm for designing intrusion detection systems. Computational Statistics and Data Analysis, Elsevier Science, Vol. 45, Issue. 1, Pag. 69-83, [306] Smaha S. Haystack: An intrusion detection system. Febrero 2004. Proceedings of the 4th Aerospace Computer Security Applications Conference, Orlando, FL, Diciembre 1988. [307] Smaha S. Y Snapp S. Method and system for detecting intrusion into and misuse of a data processing system. US 555742, US Patent Oce, Septiembre 1996. [308] Stolcke A. Y Omohundro S. Inducing probabilistic grammars by bayesian model merging. Proceedings of the 1994 International Conference on Grammatical Inference, Pag. 999, 1994. [309] S. Forrest S. A. Hofmeyr and A. Somayaji. Intrusion detecction using sequences of system calls. Journal of Computer Security, 6:151 to 180., 1998. [310] L. Allen R. Cherukuri S. Forrest, A.S. Perelson. Self-nonself discrimination in a computer. IEEE Symposium on Security and Privacy, 1994. [311] S.W. Boyd S. Sidiroglou, M.E. Locasto and A.D. Keromytis. Building a reactive immune system for software services. pages 149 - 161, In Proceedings of USENIX Annual Technical Conference, April, 2005. 405 [312] G. Varghese S. Singh, C.Estan and S. Savage. Automated worm ngerprinting. In Procee- dings of the 6th ACM/USENIX Symposium on Operating System Design and Implementation (OSDI), December, 2004. [313] Pablo Garaizar Sagarminaga. Linux 2.6 kernel hacking. hackAndalus, 2004. [314] Barbery F. Salido M.A. Stochastic local search for distributed constraint satisfaction problems. Universidad de Alicante, Universidad de Valencia, [315] Querty Sandman. Pe infection under w32. 29a ezine, 2003. 1996. [316] J.L. Schafer. Analysis of incomplete multivariate data. New York: Chapman and Hall, 1997. [317] Hanna M. Y Whitehurst R. Sebring M., Shellhouse E. Expert systems in intrusion detection, a case study. Baltimore, USA, Proceedings of the 11th National Computer Security Conference, 1988. [318] Abdallah Abbey Sebyala, Temitope Olukemi, and Dr. Lionel Sacks. Active platform security through intrusion detection using naïve bayesian network for anomaly detection. Departament of Electronic and Electrical Engineering, University Colleage London, Torrington Place, England, UK., 2002. [319] R. Sekar, M. Bendre, P. Bollineni, and D. Dhurjati. A fast automaton-based method for detecting anomalous program behaviors. 144 to 155., IEEE Symposium on Security and Privacy, pages 2001. [320] Pierce L. Y Matzner S. Sinclair C. An application of machine learning to network intrusion. Proccedings of the 15th Annual Computer Security Applications Conference (ACSAC), Pag. 371, 1999. [321] A. Smirnov and T. Chiueh. Dira: Automatic detection, identication, and repair of controlhijacking attacks. In Proceedings of The 12th Annual Network and Distributed System Security Symposium (NDSS '05), February, 2005. [322] Dias G. Goan T. Heberlein T. Ho C. Levitt K. Mukherjee B. Smaha S. Grance T. Teal D. Y Mansur D. Snapp S., Brentano J. DIDS (distributed intrusion detection system) - motivation, architecture, and an early prototype. Security Conference, Washington, DC, Proceedings of the 14th National Computer Octubre 1991. [323] Snort. Snort: The facto standard for intrusion Detection/Prevention home page. en http://www.snort.org/, Disponible 2006. [324] Panda Software. Protection against viruses, spyware, hackers, spam and other internet threats. Disponible en http://www.pandasoftware.com/, 406 2006. [325] Hofmeyr S. Y Forrest S. Somayaji A. Principles of a computer immune system. Proceedings of the 1997 Meeting on New Security Paradigms, Pag. 75-82, Langdale, UK, Septiembre 1997. [326] Glymour C. Y Scheines R. Spirtes P. Causation, prediction and search. MIT Press, Adaptative Computation and Machine Learning, Segunda Edición, ISBN 0262194406, [327] SRI. Stanford research institute home page. Disponible en http://ww.sri.com/, 2000. 2006. [328] A. Srivastava and A. Eustace. Atom - a system for building customized program analysis tools. In Proceesings of the Symposium on Programming Language Design and Implemen- tation, pages 196 to 205, Orlando, FL., 1994. [329] R. Stallman. The free software foundation home page. Disponible en http://www.fsf.org/, 2006. [330] Cheung R. Crawford R. Dilger M. Frank J. Hoagland J. Levitt K. Wee C. Yip R. Y Zerkle D. Staniford-Chen S., Chen S. GrIDS - a graph-based intrusion detection system for large networks. Proceedings of the 19th National Information Systems Security Conference, 1996. [331] Hoagland J. Y Mc Alerney J. Staniford-Chen S. Practical automated detection of stealthy portscans. Proceedings of the 7th ACM Conference on Computer and Communications Security, Atenas, Grecia, 2000. [332] Paxson V. Y Weaver N. Staniford-Chen S., Moore D. The top speed of ash worms. Proceedings of the ACM Workshop on Rapid Malcode (WORM), 2004. [333] European Statistical Data Support. Internet usage by individuals and enterprises 2004. Disponible en http://www.europa.eu.int/comm/eurostat/, 2005. [334] Internet Security Systems. The evolution of intrusion detection technology. White Paper, Agosto 2001. [335] Internet Security Systems. http://www.iss.net/, Real secure server sensor home page. Disponible en 2006. [336] Goeldenitz T. Ids today and tomorrow. Room, ISS Technical SANS Institute Information Security Reading Enero 2002. [337] Holland T. Understanding ips and ids: Using ips and ids together for defense in depth. SANS Institute Information Security Reading Room, [338] Kohonen T. Self-organizing maps. Febrero 2004. Springer-Verlag, Berlin, 407 1997. [339] Lane T. Machine learning techniques for the computer security domain of anomaly detection. Thesis submitted for the degree of Doctor of Philosophy, Purdue University, USA, Agosto 2000. [340] Toth T. Improving intrusion detection systems. Dissertation submitted for the degree of Doctor of Philosophy, University of Vienna, Austria, 2003. [341] Wickham T. Intrusion detection is dead. long live to intrusion prevention! Information Security GIAC Certication Practical, version GSEC 1.4b, Abril 2003. [342] Wickman T. Intrusion detection is dead. long live to intrusion prevention! Information Security GIAC Certication Practical, SANS Institute SANS Institute 2003. [343] C.E. Brodley T. Lane. Sequence matching and learning in anomaly detection for computer security. AAAI Workshop: AI Approaches to Fraud Detection and Risk Management, pp.4949, 1997. [344] C.E. Brodley T. Lane. Temporal sequence learning and data reduction for anomaly detection. ACM Trans. Information and System Security, vol. 2, no. 3, pp. 295-331, 1999. [345] D. Lee A. Wolman W. Wong H. Levy T. Romer, G. Voelker and B. Bershad. Instrumentation and optimization of win32/intel executables using etch. Workshop, Seattle, WA., In USENIX Windows NT 1997. [346] K. Tan and R. Maxion. Why 6?? dening the operational limits of stide, an anomaly based intrusion detector. Oakland, CA. 188-202, In Proceedings of the IEEE Symposium on Security and Privacy. 2002. [347] K. Tan and R. Maxion. Determining the operational limits of an anomaly-based intrusion detector. IEEE Journal on selected areas in communications, 21(1):96?110., Jan. 2003. [348] K. Tan, J. Mchugh, and K. Killourhy. Hiding intrusions: From the abnormal to the normal and beyond. In Proceedings of Information Hiding, pages 117, 2002. [349] Steinbach M. Y Kumar V. Tan P. Introduction to data mining. Edición, ISBN 0321321367, Addison Wesley, Primera Mayo 2005. [350] M.A. Tanner and W.H. Wong. The calculation of posterior distributions by data augmentation. Journal of the American Statistical Association, 82: 528-549, 1987. [351] CERT/In Indian Computer Emergency Response Team. Ids - intrusion detection system. CERT/In Security Guideline CISG-2003-06, 2003. [352] Security Telecommunications and Information Systems Security Committee. National information systems security glossary. 2000. 408 [353] Chen K. Y Lu S. Teng H. Adaptative real-time anomaly detection using inductively generated sequential patterns. Proceedings of the 1990 IEEE Symposium on Research in Security and Privacy, Oakland, USA, Mayo 1990. [354] D. Thain and M. Livny. Multiple bypass: Interposition agents for distributed computing. Journal of Cluster Computing, 4(1):39 to 47., March 2001. [355] B Thiesson. Accelerated quantication of bayesian networks with incomplete data. In Proceedings of First International Conference on Knowledge Discovery and Data Mining, Montreal, QU, pages 306-311. Morgan Kaufmann, [356] T.Hurman. Exploring windows ce shellcode. [357] Open Source Tripwire. 1995. Pentest, 2005. Open source tripwire home page. http://sourceforge.net/projects/tripwire/, Disponible en 2006. [358] Lindqvist U. On the fundamentals of analysis and detection of computer misuse. Thesis for the degree of Doctor of Philosophy, Chalmers University of Technology. Göteborg, Suecia, 1999. [359] International Telecommunication Union. Internet indicators: Hosts, users and number of pcs. Disponible en http://www.itu.int/ITU-D/ict/statistics/, [360] Stanford University. Stanford encyclopedia of philosophy. 2005. Consulta del término "Bayes' Theorem". Disponible en http://plato.stanford.edu/entries/bayes-theorem/, [361] Stanford University. Stanford encyclopedia of philosophy. Consulta del término "Boolean Algebra". Disponible en http://plato.stanford.edu/entries/boolalg-math/, [362] USAF. United states air force home page. 2006. 2006. Disponible en http://www.af.mil/, 2006. [363] USSS. United states secret service home page. Disponible en http://www.secretservice.gov/, 2006. [364] Mahoney M. V. and Chan P.K. Learning rules for anomaly detection of hostile network trac. 2001. [365] Vapnik V. The nature of statistical learning theory. Springer-Verlag, ISBN 0387945598, 1995. [366] Amit Vasudevan and Ramesh Yerraballi. Spike: Engineering malware analysis tools using unobtrusive binary-instrumentation. Department of Computer Science and Engineering. University of Texas at Arlington, Box 19015, 416 Yates St., 300 Nedderman Hall, Arlington, TX 76019-0015, USA. Box 19015, 416 Yates St., 300 Nedderman Hall, Arlington, TX 76019-0015, USA., January, 2006. 409 [367] Eckman S. Y Kemmerer R. Vigna G. The STAT tool suite. IEEE Press, Hilton Head, South Carolina, Proceedings of DISCEX 2000, Enero 2000. [368] Li W. Using genetic algorithm for network intrusion detection. Proceedings of the United States Department of Energy Cyber Security Group 2004 Training Conference, Kansas City, USA, Mayo 2004. [369] K. Mok W. Lee, S.J. Stolfo. A data mining framework for building intrusion detection models. IEEE Symposium on Security and Privacy, 1999. [370] S. Stolfo W. Lee and K. Mok. Adaptive intrusion detection: A data mining approach. Articial Intelligence Review, December, 2000. [371] D. Wagner and D. Dean. Intrusion detection via static analysis. In Proceedings of the IEEE Symposium on Security and Privacy. IEEE Press, Oakland, CA., 2001. [372] D. Wagner and P. Soto. Mimicry attacks on host-based intrusion detection systems. In Proceedings of the 9th ACM Conference on Computer and Communications Security. Washington DC. 255-264, 2002. [373] Wagner T. Y Wolstenholme P. Wagner F., Schmuki R. Modelling software with nite state machines: A practical approach. Auerbach Publications, ISBN 0849380863, Mayo 2006. [374] Forrest S. Warrender, C. and B. Pearlmutter. Detecting intrusions using system calls: Alternative data models. In Proceedings of the IEEE Symposium on Security and Privacy., 1999. [375] Stephanie Forrest Warrender, Christina and Barak Pearlmutter. Detecting intrusions using system calls: Alternative data models. IEEE Synposium on security and privacy, 1999. [376] Mahoney M. y Chan P. Phad: Packet header anomaly detection for identifying hostile network trac. Florida Tech. Techical Report, Abril 2001. [377] Gómez J. y Dasgupta D. Evolving fuzzy classiers for intrusion detection. Proceedings of the 2002 IEEE Workshop on Information Assurance, United States Military Academy, West Point, Ney York, USA, Junio 2001. [378] Hou H. y Dozier G. Immunity-based intrusion detection system design, vulnerability analysis, and genertia's genetic arms race. Proceedings of the 2005 ACM Symposium on Applied Computing, Pag. 952-956, Santa Fe, New Mexico, USA, 2005. [379] Lundin E. y Jonsson E. Setting the scene for intrusion detection. Technical Report 04- 05. Department of Computer Engineering, Chalmers University of Technology. Göteborg, Suecia, Agosto 2004. 410 [380] Kantzavelou I. y Katsikas S. An attack detection system for secure computer systems outline of the solution. Proceedings of the IFIP TC11 13th International Conference on Information Security, Copenhagen, Dinamarca, Mayo 1997. [381] Porras P. y Kemmerer R. Penetration state transition analysis - a rule-based intrusion detection approach. Eighth Annual Computer Security Applications Conference, Pag. 220- 229, IEEE Computer Society Press, Diciembre 1992. [382] Ryan J. y Lin M. Intrusion detection with neural networks. Advances in Neural Information Processing Systems, No. 10, MIT Press, Cambridge, Massachusetts, USA, [383] Garvey T. y Lunt T. Model based intrusion detection. Computer Security Conference, Pag. 372-385, 1998. Proceedings of the 14th National Octubre 1991. [384] Porras P. y Neumann P. Emerald: Event monitoring enabling responses to anomalous live disturbances. Proceddings of the 20th NIST-NCSC National Information Systems Security Conference, Pag. 353-365, 1997. [385] Ptacek T. y Newsham T. Insertion, evasion and denial of service: Eluding intrusion detection. Technical Report, Secure Networks Incorporated, Enero 1998. [386] Russell S. y Norvig P. Articial intelligence: A modern approach. Hall, ISBN 0137903952, Second Edition, Prentice Diciembre 2002. [387] Giarratano J. y Riley G. Expert systems: Principles and programming. Cuarta Edicion, ISBN 0534384471, Course Technology, Octubre 2005. [388] Jones A. y Sielken R. Computer system intrusion detection: A survey. Computer Science Department, University of Virginia, Technical Report, 2000. [389] Kim G. y Spaord E. The design and implementation of tripwire: A le system integrity checker. ACM Conference on Computer and Communications Security, Pag. 18-29, 1994. [390] Kumar S. y Spaord E. An application of pattern matching in intrusion detection. Technical Report 94-013, Department of Computer Science, Purdue University, Marzo 1994. [391] Kumar S. y Spaord E. A pattern matching model for misuse intrusion detection. dings of the 7th National Computer Security Conference, Baltimore, USA, Procee- Octubre 1994. [392] Lauritzen S. y Spiegelhalter D. Local computations with probabilities on graphical structures and their application to expert systems. Journal of the Royal Statistical Society, Series B (Methodological), No. 50, Vol. 2, Pag. 157-224, 1988. [393] Lee W. y Stolfo S. Data mining approaches for intrusion detection. USENIX security symposium, Pag. 79-93, San Antonio, USA, 411 Proceedings of the 7th Enero 1998. [394] Mukkamala S. y Sung A. A comparative study of techniques for intrusion detection. Proceedings of the 15th IEEE International Conference on Tools with Articial Intelligence (ICTAI), Pag. 570, 2003. [395] Liepins G. y Vaccaro H. Intrusion detection: Its role and validation. Computers and Security, Vol. 11, Pag. 347-355, Elsevier Science Publishers Limited, Oxford, UK, [396] Javitz H. y Valdés A. The sri ides statistical anomaly detector. IEEE Symposium on Research in Security and Privacy, Proceedings of the 1991 Mayo 1991. [397] Pearl J. y Verma T. A statistical semantics for causation. 2, Pag. 91-95, 1992. Statistics and Computing, Vol. 1992. [398] Kemmerer R. y Vigna G. Intrusion detection: A brief history and overview. Reliable Software Group, Computer Science Department, University of California Santa Barbara, 2002. [399] Meyer T. y Whateley B. Spambayes: Eective open-source, bayesian based, email classication system. Proceedings of the 2004 Conference on Email and Anti-Spam (CEAS), Mountain View, California, USA, Julio 2004. [400] Yang C. Yuan. Multiple imputation for missing data: Concepts and new development. Institute Inc., Rockville, MD, SAS 1997. [401] Jingyu Zhou and Giovanni Vigna. Detecting attacks that exploit application-logic errors through application-level auditing. University of California Santa Barbara, USA, 2004. [402] Amitabha Das Zhuowei Li. Visualizing and identifying intrusion context from system calls trace. Proceedings of the 20th Annual Computer Security Applications Conference (ACSAC'04), IEEE Computer Society, December 2004. 412