Me gustó mucho el trabajo, un dataset diferente a lo tradicional, además encuentro dedicación y tiempo en la generación del material y escritura del documento. Muy bien!!! Si gustan podemos conversar para hacer ajustes y enviarlo a la revista de la Escuela. ENTRENAMIENTO DE MODELOS SUPERVISADOS Y NO SUPERVISADOS PARA LA PREDICCIÓN DE SINIESTROS VIALES EN BOGOTÁ TRAINING OF SUPERVISED AND UNSUPERVISED MODELS FOR THE PREDICTION OF ROAD CRASHES IN BOGOTA Roger Smith Cardozo Pinilla Laura Vanessa Uribe Benavides Programa de Ingeniería Civil [email protected] Universidad Escuela Colombiana de Ingeniería Julio Garavito Bogotá D.C, Colombia Programa de Ingeniería Civil [email protected] Universidad Escuela Colombiana de Ingeniería Julio Garavito Bogotá D.C, Colombia I. INTRODUCCIÓN Luego de que la Organización Mundial de la Salud (OMS) publicará el primer Informe sobre la Situación Mundial de la Seguridad Vial en 2009, la Comisión de Seguridad Vial Mundial, declaro que todos los estados miembros, organismos internacionales y demás actores involucrados instituyeran el Decenio de Acción para la seguridad Vial, el cual fue estructurado y oficializado por la ONU en 2010 y puesto en marcha el 11 de mayo de 2011 [1]. Su principal objetivo era prevenir 5 millones de muertes y evitar 50 millones de traumatismos graves a causa de los siniestros presentados en las vías. En el informe entregado por Naciones Unidas, se resalta la magnitud del problema de seguridad vial y la tendencia ascendente de este. Se estima que se tienen cerca de 1,3 millones de personas fallecidas a causa de accidentes de tránsito; convirtiéndose en una de las tres primeras causas de muertes en personas entre 5 y 44 años, y qué según los pronósticos desarrollados en 2009, podría llegar a convertirse en la quinta causa de muerte a nivel mundial. Adicionalmente, se alerta de las repercusiones económicas que los accidentes de tránsito tienen en la economía de los países, llegando a costar entre el 1% y el 3% del PIB de cada país y sobre todo afectando la productividad de los países de bajos y medianos ingresos, en donde se concentra el 90% de los fallecidos [2]. Teniendo en cuenta las cifras anteriores, la ONU establece los principios rectores del Plan para el Decenio de Acción para la Seguridad Vial, los cuales incluyen la gestión de la seguridad vial, vías de tránsito y movilidad más segura, vehículos más seguros, usuarios de vías de tránsito más seguros y respuesta tras los accidentes; los cuales constituyen una guía metodológica para la estructuración de un marco nacional en seguridad vial único para cada país. Lo anterior enmarcado en la protección de los peatones, ciclistas y motociclistas, los cuales representan la mitad de los fallecidos en las vías del mundo y quienes son los actores viales más vulnerables(World Health Organization). Sin embargo, los objetivos del Decenio 2011 – 2020 no se cumplieron; pero dejaron importantes y valiosas lecciones aprendidas, entre las que se encuentran el enfoque integrador de la seguridad vial como lo fueron el Sistema Seguro y la Visión Cero. En 2018, luego de que la Organización Mundial de la Salud (OMS) publicará la actualización del Informe sobre la Situación Mundial de la Seguridad Vial, donde se cuantificaba que en 2016 el número de muertes por accidentes de tránsito alcanzaba 1,35 millones y aunque varios países lograron estabilizar sus tasas de accidentalidad, el ritmo del riesgo de muerte no se ha generado en la proporción necesaria para reducir este número a la mitad (World Health Organization). A raíz de los incrementos de fallecidos en siniestros, la vulnerabilidad de algunos actores viales y el no cumplimiento de las metas propuestas, la ONU declara el periodo 2022 – 2030 como el Segundo Decenio de Acción por la Seguridad Vial, cuyo objetivo plantea reducir en por lo menos un 50% las muertes y lesionados en accidentes de tránsito. De acuerdo con el informe de siniestralidad vial presentado por el Observatorio Nacional de Seguridad Vial, en el 2022 se presentaron 37,357 accidentes viales de los cuales el 22,12% resultaron con víctimas fatales y el 77,88% con lesionados [3]. En este informe se concluye que 6 de cada 10 víctimas fatales a causa de siniestros viales eran motociclistas, la tasa de accidentes fatales tuvo un crecimiento de 13,7% frente al 2022 y del 27,9% respecto al promedio 2018 – 2021, y el 42% de peatones fallecidos sufrió atropellamiento por motocicletas. En Bogotá de los 6.408 siniestros que se presentaron, el 37,2% fueron peatones, el 34,1% motociclistas, el 17,8% ciclistas y el 2% conductores; adicionalmente a esto, se estima que el 58% de las fatalidades tuvieron un motociclista Completamente claro el problema de siniestros, pero qué se realizará con respecto a MIND? involucrado; las localidades con mayor número de siniestros viales son Kennedy y Suba que concentran el 32% de los siniestros viales [4]. Una vez teniendo clara la problemática de salud pública y pérdida de productividad que genera la siniestralidad vial en el país y en el mundo, se establece como principal objetivo realizar un estudio de métodos predictivos que permita conocer la probabilidad de ocurrencia de un accidente de tráfico dependiendo la gravedad del mismo en la ciudad de Bogotá D.C. II. PROGRAMA EXPERIMENTAL A. Estado del Arte Actualmente uno de los retos globales en el sector público y privado es la capacidad de resolución de problemas y generación de conocimiento; es entonces, cuando convertir datos en información útil para la toma de decisiones se convierte en un soporte primordial y no únicamente en la aplicación de modelos de decisión [5]. Se dispone de un data set que contiene 19 columnas y 196.152 registros, con atributos de carácter numérico y categórico. Este conjunto de datos recopila la información sobre los siniestros viales de Bogotá D.C. Entre la información suministrada se puede encontrar el código del accidente, la fecha y hora, el diseño del lugar donde se indica los elementos de infraestructura vial que se encontraban en el mismo y atributos que hacen alusión a la ubicación, a la causa del accidente, aspectos generales de las personas (sexo, edad y estado de salud) y aspectos generales de los tipos de vehículo (como servicio, categoría, entre otros). Para este análisis se toma como variable predictiva la gravedad del accidente, la cual se encuentra categorizada en: Solo Daños, Heridos y Fallecidos; las demás variables mencionadas anteriormente se entenderán como las variables explicativas dentro del modelo (Ver Ilustración 1). Ilustración 1. Definición de datos de entrada y salida del modelo. Por lo anterior, en las últimas décadas se han realizado estudios sobre predicción y variables de relación en los accidentes de tránsito, siendo Europa uno de los países que mayor investigación realiza el respecto. Francisco Soler ,en su estudio sobre los outliers en modelos predicción de accidentes, estudio la relación existente entre la frecuencia de los siniestros viales y las características de las carreteras, del tráfico, del entorno y del usuario [6]. Luis Cruz investigo y desarrolla un modelo predictivo de accidentes de tráfico en Madrid con el cual busca estimar la probabilidad de ocurrencia de accidentes de tráfico tomando en cuenta variables meteorológicas, festivos, franjas horarias y épocas del año; esto mediante modelos de redes neuronales y regresiones lineales donde finalmente concluye en su estudio que estas variables no son capaces de explicar la variable dependiente de accidentalidad [7]. Mauricio Rojas quien realizó una investigación en predicción de accidentes de tránsito utilizando redes neuronales artificiales y Cuckoo Search, concluye que los modelos tienen un porcentaje de error absoluto del 12,11% y 14,96% respectivamente para cada modelo [8]. Y Cecilia Montt quien en su trabajo de análisis de accidentalidad de tránsito con inteligencia computacional busca evaluar modelos de predicción que permitan estimar el número de personas lesionadas y fallecidas en accidentes de tránsito, esto usando modelos de redes neuronales artificiales y con las cuales se estiman las causas más probables durante los últimos 8 años de estudios [9]. B. Definición de la Tarea Fuente: elaboración Propia El objetivo del estudio consiste en identificar los factores que contribuyen como factores relevantes de la accidentalidad para la ciudad de Bogotá D.C., de manera que se logre puntualizar los patrones de causa probable en la siniestralidad, para así generar estrategias de prevención y gestión de políticas públicas que haya lugar para la reducción de estas cifras. Se hará alguna tarea de predicción? C. Algoritmos de Entrenamiento 1) NAIVE BAYES: En la actualidad el método Naive Bayes es conocido como uno de los métodos de clasificación supervisada más sofisticados, eficientes y efectivos [10], el éxito de este método se basa en que el error de clasificación no está relacionado con la calidad de ajuste de las distribuciones de probabilidad, haciendo que las proyecciones estimadas y las reales coincidan en la clase más probable [11], además de su fácil construcción e interpretación y nulos sistemas iterativos de estimación de parámetros (Pereira-Toledo et al). Este clasificador supone una independencia entre las variables predictoras, en donde asigna la clase más probable a un vector de características; y siendo esta suposición poco realista el modelo ha demostrado alta eficiencia en aplicaciones prácticas en campos como la medicina, rendimiento informático y clasificación de textos [11], [12]. En un estudio experimental para la comparación del desempeño del modelo de Naive Bayes respecto a otros modelos clasificadores Bayesianos, demostró bajo evidencia empírica que el modelo de Naive Bayes es en la actualidad una alternativa competitiva frente al resto de clasificadores bayesianos (Pereira-Toledo et al). El marco de referencias matemático que usa el modele de clasificación, es proporcionado por un teorema de probabilidades conocido como Bayes. El modelo matemático normalmente es representado con una función 𝑓𝑛𝑏 (𝐸), donde 𝐸 representa una tupla de atributos de estrada con los cuales se realizará la clasificación. la Ecuación (1) señala la ecuación de la función Bayesiana. 𝑛 𝑝(𝑥𝑖 ∥ 𝐶 = 𝑐1 ) 𝑝(𝐶 = 𝑐1 ) 𝑓𝑛𝑏 (𝐸) = ∏ 𝑝(𝐶 = 𝑐0 ) 𝑝 (𝑥𝑖 ∥ 𝐶 = 𝑐0 ) (1) 𝑖=1 Donde 𝐶 representa el atributo de clase de predicción, 𝑐1 y 𝑐0 representan los niveles de clase (para simplificación se asumen una clase binaria) [10]. Sin embargo, una de las formas fáciles de representar e interpretar el modelo Naive Bayes es mediante la expresión de la Ecuación (2) y (3) presentada a continuación. 𝑝(𝐶 = 𝑐𝑘 ∥ 𝑋 = 𝑥) = 𝑝(𝑋 = 𝑥 ∥ 𝐶 = 𝑐𝑘 ) 𝑝(𝑥) (2) 𝑝(𝑥 ∥ 𝑐𝑘 ) 𝑝(𝑥) (3) 𝑝(𝑥 ∥ 𝑥) = 𝑝(𝑐𝑘 ) × 2) FISHER’S LINEAR Fisher’s Linear tiene como finalidad de realizar análisis discriminante para encontrar propiedades que permitan diferenciar objetos que pertenezcan a diferentes clases. El objetivo es realizar una reducción de dimensión preservando la mayoría de la información discriminante de las clases [13]. Uno de los parámetros que se deben de tener en cuenta en el entrenamiento es el método para el cálculo de la matriz de covarianza los cuales pueden ser descomposición de valores singulares(svd) para un conjunto de datos amplio; mínimos cuadrados regularizados (Isqr)para cuando se tienen mayor dimensionalidad; y descomposición espectral (eigen) para un conjunto de datos pequeños. Ya que el objetivo del método es realizar la reducción de dimensión esta se hace por medio de shrinkage lo cual ayuda a mejorar el rendimiento del modelo. Para el conjunto de datos se usa la función GridSearchCV para realizar una evaluación de los parámetros que mejor se desempeñan con ayuda de una validación cruzada (𝐶𝑣 = 5), donde se divide el conjunto de datos en 5 para realizar 5 iteraciones para determinar el rendimiento del modelo para las diferentes combinaciones. A través de la función best_params_ se selecciona el mejor modelo. 3) BOOSTED TREE: Donde 𝑝(𝑐𝑘 ) representa la probabilidad de que la hipótesis 𝑐𝑘 sea cierta (independiente de los datos), 𝑝(𝑥) representa la probabilidad de ocurrencia de D, 𝑝(𝑥 ∥ 𝑐𝑘 ) es la probabilidad de hipótesis de 𝑐𝑘 dado los datos de 𝑥 y 𝑝(𝑐𝑘 ∥ 𝑥) es la probabilidad de hipótesis de datos de 𝑥 dado los datos de 𝑐𝑘 [12]. Para la aplicación de este método de entrenamiento supervisado se hace uso de la librería de acceso libre ScikitLearn con su componente sklearn.naive_balles.GaussianNB, la cual mediante probabilidades previas de clase realiza una clasificación de las variables. Los atributos que pueden ser modificados para lograr una mejor predicción son: Class_count: Class_prior: Clases: Épsilon: N_features_in: Número características vistas en el ajuste Fratures_name: Varianza de cada clase Var: Varianza de cada clase Theta: Media de cada clase Número de muestras de entrenamiento probabilidad de clase Etiqueta de clase conocidas Valor aditivo absolute a las varianzas Boosted Tree tiene como enfoque construir secuencias de árboles de decisión de manera iterativa para mejorar las predicciones. El algoritmo en cada iteración utiliza el conjunto de árboles para predecir la clase de cada instancia de entrenamiento, y después compara la predicción obtenida con la etiqueta real. En el entrenamiento el algoritmo hace énfasis en las peores predicciones para así corregir los errores en las siguientes iteraciones y poder llegar a la mejor predicción [14]. El objetivo de los bosques aleatorios es realizar la mejor predicción posible, lo cual se puede lograr a través de una selección adecuada de parámetros y del clasificador para la predicción. La elección depende de la tipología y características de los datos. Para el conjunto de datos de estudio se hace uso del clasificador RandomForestClassifier el cual tiene la capacidad de reducir el overfitting mejorando la precisión en el modelo. Para esto se debe realizar una codificación previa de las variables categóricas. Boosted Tree es un método en el cual los datos se entrenan de manera iterativa, lo cual lo hace que este sea uno de los parámetros más importantes a ajustar. Esto se logra por medio de n_estimators_values donde se le asigna la cantidad de bosques que se quiere para el modelo. Es importante tener en cuenta es que la clase es MultiClass por tanto se ajusta a través de loss_function. La profundidad profundidad del bosque (Depth) y la tasa de aprendizaje (learning_rate) son parámetros que se tuvieron en cuenta en el entrenamiento. Para determinar el mejor ajuste en los parámetros se crea un bucle donde itera sobre los valores de la profundidad y la cantidad de bosques. Para cada iteración se almacena en un diccionario su respectivo porcentaje de predicción y a partir de un diagrama interactivo poder analizar cuál es la mejor opción que proporciona el mejor desempeño. Diagonal: las dimensiones de cada cluster a lo largo de cada dimensión pueden ser distintos, pero las orientaciones son limitadas. Spherical: las dimensiones de cada cluster son las mismas en todas las direcciones, genera cluster de distintos tamaños, pero todos esféricos. Full: cada cluster genera elipses con cualquier orientación y dimensión. A continuación, en la Ilustración 2 se presenta una representación de los diferentes modelos de cluster que se pueden generar según la matriz de covarianza que se elija trabajar. Ilustración 2. Clasificación del modelo según el tipo de matriz de covarianza escogido en el algoritmo. D. GAUSSIAN MIXTURE MODELS (GMMS) El Gaussian Mixture Models (GMMs) es un modelo de clasificación no supervisada o clustering, los cuales son un proceso de entrenamiento sin etiquetas o clases establecida previamente, los cuales utilizan las propiedades y distribución estadística para agrupar y segmentar un conjunto de datos encontrando similitudes en estos. El modelo GMMs es un modelo probabilístico que considera que las observaciones mantienen una distribución creada a partir de múltiples distribuciones normales, se puede entender entonces como la generación de K-means con no se asigna un lugar a cada observación sino una probabilidad de pertenencia [15]. El algoritmo de K-means que permite definir una distancia interna entre los diferentes clusters que son homogéneos y heterogéneos entre ellos; el modelo está definido mediante la Ecuación (4). Fuente: tomado de [15] El modelo de programación usado para este documento se realizo mediante el uso de la librería de acceso libre ScikitLearn con su componente sklearn.mixture.GaussianMixture, con la cuales se pueden realizar modelos GMMs que usa algoritmos expectation-maximization (EM) en la cual pude ser modificada su eficiencia con los parámetros: N_components: Numero de clusters que formara el modelo Covariance_tipe: Tipo de matiz de covarianza. Max_iter: Número máximo de iteraciones. Random_state: Semillas de reproducción de resultados. III. EVALUACIÓN EXPERIMENTAL 𝐾 𝑓(𝑥𝑖 ∥ 𝜋) = ∑ 𝜋𝑘 ∙ ∅𝑘 ∙ (𝑥 ∥ 𝜃𝑘 ) (4) A. Datos 𝑘=1 Donde 𝐾 es el número de clusters, 𝜃𝑘 es el conjunto de datos de parámetros de la función de la k-ésima función de densidad [16]. La estimación de parámetros que define la función de distribución, el método usa el algoritmo de ExprectationMaximization (EM) y con la determinación de la matriz de covarianza se puede obtener la clasificación de los datos. Según el tipo de matiz de covarianza que se elija se pueden obtener diferentes clusters (Amat Rodrigo). Tied: todos los cluster comparten matiz de covarianza Desde la creación de la Agencia Nacional de Seguridad Vial se ha invertido tiempo y dinero en generar bases de datos que permitan conocer el histórico relacionado con victimas fatales y lesionadas valoradas por el Instituto Nacional de Medicina Legal en los siniestros viles que se han presentado desde el 2009 para fallecidos y 2016 para lesionados. Para la predicción de la gravedad de los accidentes se tienen en cuenta la clasificación de según la gravedad: Accidente con Muertos: Decesos Accidente Heridos: Lesiones incapacitantes – moderadas Accidentes Solo Daños: Accidentes sin muertos o heridos, sin atención ambulatoria, únicamente daños operacionales de importancia a la infraestructura o vehículos. Ilustración 3. Visualización de los datos faltantes para establecer posibles errores. Los datos que se tienen dentro de Data Set son los presentados en la Tabla 1, adicionalmente se presenta el tipo de variable que originalmente tenía el Data Set. Tabla 1. Variables de análisis de Data Set. Variables Tipo GRAVEDAD* FECHA HORA CODIGO_ACCIDENTE CLASE CHOQUE OBJETO_FIJO DIRECCION CODIGO_LOCALIDAD DISENO_LUGAR CONDICION ESTADO EDAD SEXO CLASE.1 SERVICIO MODALIDAD ENFUGA CODIGO_CAUSA int object object int int float float object int int object object float object float float float object float En la Tabla 2 se presenta la cantidad de datos faltantes para cada una de las variables del Data Set, en total el Data Set no supera el 1% de datos faltantes, por lo cual se considera realizar imputación para manejar la información. Tabla 2. Cantidad de datos faltantes por cada variable. Variables Datos Faltantes ODIGO_ACCIDENTE GRAVEDAD CLASE CHOQUE OBJETO_FIJO CODIGO_LOCALIDAD DISENO_LUGAR ESTADO EDAD SEXO CLASE.1 SERVICIO MODALIDAD ENFUGA CODIGO_CAUSA Porcentaje de Faltantes 0 0 0 0 0 0 0 153 2912 3818 163 163 163 163 460 0,20% Inicialmente de se realiza una visualización de los datos faltantes, con la Ilustración 3 se puede establecer que dichos datos en la columna denominada CONDICIÓN superaba el porcentaje máximo recomendado de 15% para realizar imputación, por lo cual se decide descartar esta columna de la base de datos. Adicionalmente se establece que los campos sin información no guardan ninguna relación de distribución y su porcentaje no supera el 1%, por lo tanto, puede ser imputado normalmente. Se realiza la normalización de los atributos de FECHA y HORA, convirtiéndolos en formato de data time para así crear una normalización de dos atributos donde se tiene el día de la semana y la franja horaria de accidente (mañana, tarde, noche y madrugada). Fuente: Elaboración propia con Python Para la imputación de los datos faltantes se usará el método de KNN (k – Nearest Neighbours), propuesto por Troyona en 2001; este es un método eficiente para la imputación de datos faltantes, que consiste en la asignación de k datos cercanos para cada dato faltante. El KNN se categoriza como un método de Lazy Learning (Aprendizaje perezoso), debido a que el algoritmo no entrena un modelo, sino realiza una comparación entre sus vecinos cercanos con información para establecer una predicción [17]. Este método permite conservar la estructura original de los datos y no distorsionar la distribución de la variable imputada [18]. Una de las variables más importantes en la aplicación de este método, tiene que ver con la escogencia del número de vecino 𝑘, con los cuales se calculara la distancia que se usara para imputar los datos faltantes mediante métodos estadísticos como la moda, la media o nodos. Teniendo en cuenta la importancia de los factores mencionados anteriormente (k vecinos y métrica), existen varios trabajos académicos en la que se busca establecer el número óptimo de vecinos que se deberían tomar para el método KNN; como la investigación de Beretta & Santaniello que sugieren tomar 𝑘 = 3 como relación razonable [18]. muy bien El trabajo de Cartwrigght et al, sugiere valores más pequeños, 𝑘 = 1 o 𝐾 = 2, sin embargo, aclara que estos valores tan conservadores son sensibles a errores, en consecuencia, de valores atípicos cercanos[19]. Bautista& Morand concluyeron resultados mucho mejores con 𝑘 = 10 para grandes conjuntos de datos [20]. Sin embargo, Chiapella comenta que es lógico pensar que a medida que se incrementa el número de vecinos, las distancia serán mayores, al igual que la unidad a imputar, y esto implica que un sesgo de precisión en los valores imputados [18]. Teniendo en cuenta lo anterior, la evidencia académica señalada en diferentes artículos, el tamaño y los primeros análisis de imputación realizados al Data Set de siniestralidad, se determina conveniente tomar 𝐾 = 10 para la imputación de valores faltantes dentro de la base de datos. Ilustración 5. Diagrama metodológico de investigación con modelos de clasificación. B. Metodología Dentro de esta investigación se hace uso de la metodología CRISP – DM (Cross-Industry Standard Process for Data Mining), usada y probada como guía metodológica para trabajos de minería de datos; esta metodología consiste de seis fases que indican la dependencia más importante y frecuente de las fases, es ampliamente usado por la flexibilidad y fácil personalización de acuerdo a los trabajos dinámicas que se realizan en la minería de datos [21]. A continuación, en la Ilustración 4 se presenta el ajuste de la metodología CISP–MD seguida para el análisis, preprocesamiento y procesamiento de los datos de accidentalidad en Bogotá D.C. Ilustración 4. Diagrama metodológico de secuencia de fases de la metodología CRISP-DM ajustada para el estudio. Fuente: Elaboración propia C. Resultados 1) Análisis Exploratorio de Datos En la Ilustración 6 se presenta la cantidad de accidentes ocurridos anualmente en el periodo 2015 – 2020 categorizados según la gravedad del mismo; se observa una creciente tasa de accidentalidad a partir del año 2015 y presenta su mayor pico en el año 2018 con un total de 36.953 accidentes de transito de los cuales el 1,35% resulto con víctimas fatales, el 34,12% resultaron heridos y choques simples el 64,53%. Fuente: Elaboración propia mediante modificación de la imagen publicada por IBM [21] En la Ilustración 5 se presenta el diagrama metodológico de investigación; basados en el modelo CRISP-DM y el presentado a continuación se espera desarrollar de la forma más apropiada esta investigación. Lo anterior nos indica que la mayor parte de los accidentes que se presentaron en Bogotá resultaron ser accidentes sin muertos o heridos, sin atención ambulatoria, únicamente daños operacionales de importancia a la infraestructura o vehículos. A demás se observa una reducción porcentual entre el 2018 y el 2020 del 35,10%, cabe aclarar que esta reducción se presento por las restricciones a la movilidad debido a la pandemia COVID – 19. Ilustración 6.Historico de la cantidad de accidentes según la gravedad Ilustración 7. Distribución de las edades donde más se presenta mayor accidentalidad Fuente: Elaboración propia Fuente: Elaboración propia De los análisis se determinó que el 90,5% de los involucrados en un accidente de tránsito son hombre entre el rango etario de 25 a 45 años aproximadamente, mientras el 9,5% de los involucrados son mujeres entre los 25 y 40 años aproximadamente. Ilustración 8. Mapa de concentración de puntos de mayor gravedad de accidentes de tránsito Fuente: Elaboración propia Basados en los datos de accidentes de tránsito georreferenciados, se elaboró la Ilustración 8, donde se presenta el mapa con la concentración de siniestros de tránsito según la gravedad de estos para Bogotá D.C. Del mapa de concentración es importante observar que los principales focos de concentración de accidentes con mayor gravedad se presentan sobre las vías primarias de alta velocidad como la Autopista Norte, Avenida Calle 26, Avenida Calle 13, Avenida Ciudad de Cali, Avenida Boyacá, entre otras; mientas en vías barriales es donde se presentan la concentración de puntos fríos – donde se concentran accidentes de muy baja gravedad. Encontrando que las localidades donde más se presentaron accidentes, son la localidad de Kennedy, Usaquén, Engativá, Suba, Fontibón y Barrios unidos, tal como se presenta en la Ilustración 9, mientras localidades como La Candelaria y Sumapaz presentan una cantidad mínima de accidentes. Ilustración 9. Cantidad de accidentes categorizado por localidad. Tabla 3. Ocurrencia de accidentes según la causa probable registrada. Código Código Ocurrencias Ocurrencias de Causa de Causa 121 103 157 112 134 411 142 132 409 145 104 143 122 127 98 106 139 123 119 115 102 116 141 506 114 410 306 404 47795 29448 27005 21045 5912 4968 4171 3920 3855 3583 3470 2759 2640 2456 2443 2141 1988 1876 1871 1761 1672 1664 1418 1081 1077 1004 859 748 105 202 154 93 125 308 402 133 97 407 401 304 101 303 94 217 118 128 110 99 146 90 201 138 301 203 131 302 696 638 561 545 525 484 449 443 427 327 279 278 272 242 217 189 171 171 167 163 160 155 154 152 131 123 110 102 Fuente: Elaboración propia, Nota: ver código causa en diccionario adjunto Se determina cuales son las principales características de los lugares donde ocurrieron accidente, estableciente que el 76,97% de estos a lo largo de tramos de vía de la ciudad y el 19,48% se presentan en intersecciones como se muestra en la Ilustración 10. Fuente: Elaboración propia Del mapa de concentración se puede establecer que la densidad de puntos calientes con mayor gravedad de accidentes se presenta en vías de alta velocidad, por consiguiente, se decide establecer las principales causas probables de los accidentes de tránsito en la vía fueron: No mantener distancia de seguridad, adelantar vehículos cerrando, desobedecer señales de tránsito, reverso imprudente y cruzar sin observar como se presentan en la Tabla 3. Adicionalmente se realizó la Ilustración 11, donde se puede establecer la hora en la cual se presentan mayor cantidad de accidentes de tránsito, llegando a la conclusión que entre la franja horaria de 7:00 AM a 3:00 PM se concentran la mayor cantidad de accidentes leves o solo con daños materiales, entre el rango de 5:00 AM – 9:00 AM y entre las 3:00 PM y 7:00 PM se presentan la mayor cantidad de accidentes de la ciudad que dejaron heridos. Ilustración 11. Concentración horaria de accidentes de tránsito a lo largo de un día Ilustración 10. Cantidad de accidentes según el diseño de la vía. Fuente: Elaboración propia El la Ilustración 12, se presentan las concentraciones de accidentes con victimas fatales a lo largo de un día, donde se puede establecer que entre las horas de 5:00 AM a 7:00 AM y entre las 5:00 PM y 10:00 PM son los horarios donde más se presentaron accidentes con muertos. Fuente: Elaboración propia Ilustración 12. Concentración horaria de accidentes de tránsito con fallecidos a lo largo de un día Fuente: Elaboración propia 2) Comparación predictiva de modelos (Naive Bayes, Fisher´s Linear y Booster Tree) La Tabla 4 se presenta el porcentaje de predicción obtenido para cada método. Se destaca el método Boosted tree el cual logro la mayor precisión, alcanzando un predecir el 85.8% de predicciones correctas en los datos. Los mejores parámetros en la búsqueda de valores óptimos fueron 'shrinkage': 'auto' y 'solver': 'lsqr'. Estos parámetros resultaron en la mejor precisión de predicción para el modelo. La selección automática del shrinkage por parte del algoritmo y el uso del método de mínimos cuadrados regularizados (lsqr) se consideraron positivos en el conjunto de datos debido a la alta dimensionalidad. En la matriz de confusión, se puede observar que la clase que representa los accidentes con fallecidos tiene más errores de clasificación en comparación con otras clases. Esta gran diferencia en la precisión de clasificación se debe a que existe un sesgo en el modelo hacia las clases dominantes. La clase dominante en el conjunto de datos es “solo daños” por tanto es la que tiene un mejor rendimiento al clasificar. Tabla 5. Matriz de confusión para método Fisher´s Linear Tabla 4. Comparación del porcentaje de predicción de los modelos usados. Método Naive Bayes Fisher’s Linear Boosted Trees Predicción (%) 82,4 83,4 85,8 Fuente: Elaboración propia Respecto a la predicción del método Naive Bayes se puede establecer que alcanzo una eficiencia del 82,45% lo cual la hace el modelo menos eficiente de los usados, basado en la investigación previa del método el error de clasificación no está relacionado con la calidad de ajuste de las distribuciones de probabilidad, haciendo que las proyecciones estimadas y las reales coincidan en la clase más probable y dado que las cómo se presentó en el análisis exploratorio de datos, la gran mayoría de datos se centraba en una misma categoría – Muertos – la mejor predicción se encuentra en solo daños, principalmente por la concentración de datos de entrenamiento en esta zona. Ilustración 13. Matriz de confusión para método Naive Bayes Fuente: Elaboración propia Fuente: Elaboración propia Al observar la figura Ilustración 14, se puede evidenciar que el rendimiento del modelo de Boosted Tree se ve influenciado por dos parámetros clave: el número de árboles en el bosque (iteraciones) y la profundidad máxima de cada árbol. Después de que el algoritmo analizara las diferentes combinaciones, se encontró que el mejor rendimiento se logra con 200 iteraciones y una profundidad de 15. Es importante destacar que la profundidad máxima permitida es 16. Ilustración 14. Precisión obtenida cambiando el número de bosque aleatorios del modelo. dentro del modelo se establece que el número óptimo de centros es de 4, es decir se establecen cuatro niveles de agrupación de closters como se presenta en la Ilustración 15. Ilustración 15. Cargue de covarianza de la totalidad de daros simulados. Fuente: Elaboración propia Fuente: Elaboración propia 3) Gaussian Mixture Models Se realiza la simulación del modelo con todos los datos del Data Set; y según los ciclos de covarianza desarrollados A continuación, se programa el modelo y se establece la distribución de probabilidades de cada componente y del modelo completo, como se presenta en la Ilustración 16. Ilustración 16. Distribución de probabilidades de cada componente del modelo y del modelo completo usando GMMs. Fuente: Elaboración propia Dado que los modelos GMM son modelos probabilísticos, se puede recurrir a métricas como el Akaike Information Criterion (AIC) o Bayesian Information Criterion (BIC) para identificar cómo de bien se ajustan los datos observados a modelo creado. Basados en la Ilustración 17 se puede establecer que tanto el modelo BIC como el AIC son iguales, identificando 4 centros como óptimo de clusters. Ilustración 17. Valores BIC y AIC para la comparación de cluster óptimos. Fuente: Elaboración propia Ilustración 18. Aplicación del Método Kriging para la creación de Ráster de predicción de Accidentes graves. Fuente: Elaboración propia Una vez se obtiene el número de categorías producidas por el modelo GMM se usa el programa ArcGis Pro para producir un modelo tipo ráster en donde se evidencie la probabilidad de existencia de un accidente categorizado según la gravedad. En este caso se usa el modelo de Kriging. Las herramientas de interpolación IDW (distancia inversa ponderada) y Spline se conocen como métodos determinísticos de interpolación porque están basados directamente en los valores medidos o en fórmulas matemáticas específicas que determinan la suavidad de la superficie resultante. Ilustración 19. Matriz de correlación producida para el método GMM. De la Ilustración 18 se puede resaltar la alta probabilidad de ocurrencia de un accidente categorizado según la closterización realizada mediante el modelo GMM; y de la cual se obtuvieron las relaciones presentadas en la Ilustración 19. Fuente: Elaboración propia 04/Cifras_Nacionales_Diciembre_2022_Publica r.pdf IV. CONCLUSIONES • • • Se realizo la comparación de las cifras obtenidas en el análisis exploratorio de datos con las cifras de accidentalidad publicadas por la Agencia Nacional de Seguridad Vial se acercan a los informes de accidentalidad entregados. Los datos de accidentalidad en 2020 son en promedio menores a los presentados en años anteriores, esto debido a la pandemia del Covid-19, lo cual puede ser factor de alteración en los modelos predictivos propuestos en este documento. • Secretaría de Movilidad, “Anuario Siniestralidad Vial en Bogotá,” 2021. [5] Y. J. Marcano Aular and Rosalba Talavera Pereira, “Minería de Datos como Soporte a la Toma de Decisiones Empresariales,” SciElo, vol. 23, no. 52, Jan. 2007. [6] F. J. S. Flores and José María Pardillo Mayora, “Tratamiento de outliers en los modelos de predicción de accidentes de tráfico,” Madrid, 2008. [7] L. Cruz Bellas, “Modelos Predictivos de Accidentes de Tráfico en Madrid,” 2017. [8] M. Roberto, R. Godoy, P. Guía, : Nibaldo, R. Agurto, and I. A. Zamorano, “Predicción de Accidentes de Tránsito Utilizando Redes Neuronales Artificiales Y Cuckoo Search,” 2015. [9] C. Montt, J. M. Rubio, and S. Lanata, “Análisis de Accidente de Tránsito con Inteligencia Computacional,” 2013. [10] A. Pereira­Toledo, J. D. López Cabrera, L. A. Quintero Domínguez, M. Fajardo, and S. Spíritus, “Estudio experimental para la comparación del desempeño de Naïve Bayes con otros clasificadores bayesianos,” Revista Cubana de Ciencias Informáticas, vol. 11, no. 4, 2017, [Online]. Available: http://rcci.uci.cuPág.67­ 84Editorial"EdicionesFuturo" [11] W. T. Rish, “An empirical study of the naive Bayes classifier,” 2001. [12] D. D. Lewis, “Naive (Bayes) at Forty: The Independence Assumption in Information Retrieval,” 2001. [13] G. Alejandra Rodríguez Ruiz and J. A. González Bernal Leopoldo Altamirano Robles, “Detección de Microcalcificaciones utilizando Discriminantes Lineales de Fisher por,” 2009. El método de Boosted Trees fue el modelo que obtuvo el mayor porcentaje de predicción entre los tres modelos analizados con un 85,8%. Método • [4] Naive Bayes Fisher’s Linear Boosted Trees Predicción (%) 82,4 83,4 85,8 Los puntos más importantes del trabajo es lograr la compresión de la información y de la naturaleza de los datos para así lograr una interpretación de los resultados. Se debe establecer el alcance del análisis para enfocar la investigación y obtener resultados significativos. La eficiencia del entrenamiento se vio afectada debido a que la clase presentaba un sesgo significativo. Este sesgo puede afectar la capacidad del modelo para clasificar correctamente las clases minoritarias. Es importante abordar este sesgo para mejorar la precisión y eficiencia del modelo. • V. REFERENCIAS [1] World Health Organization, “Global Status Report on Road Safety 2018 Summary,” Geneva, 2018. [Online]. Available: http://apps.who.int/bookorders. [2] World Health Organization, “Plan Mundial para el Decenio de Acción para la Seguridad,” 2011. [3] Agencia Nacional de Seguridad Vial, “Comportamiento Cifras de Víctimas en Siniestros Viales,” Bogotá D.C, Dec. 2022. Accessed: May 16, 2023. [Online]. Available: https://ansv.gov.co/sites/default/files/2023­ de [14] D. A. Galicia De Castro, T. Lora, and F. Martínez Álvarez, “TÉCNICAS DE PREDICCIÓN ESCALABLES PARA BIG DATA TEMPORALES,” 2019. [18] L. C. Chiapella, “Impacto de estrategias para el tratamiento de información faltante sobre la estimación de modelos de regresión de Cox,” Universidad Nacional de Rosario, 2019. [15] J. Amat Rodrigo, “Clustering con Python,” cienciadedatos.net, Dec. 2020. https://www.cienciadedatos.net/documentos/ py20­clustering­con­python.html (accessed May 18, 2023). [19] M. H. Cartwright, M. J. Shepperd, and Q. Song, “Dealing with missing software project data,” 5th International Workshop on Enterprise Networking and Computing in Healthcare Industry, 2003. [16] D. Pinto Veizaga and J. Lezama Amastalli, “Modelos Mixtos Gaussianos, Algoritmo EM y una aplicación a la detección de cáncer de mama,” 2020. https://rstudio­pubs­ static.s3.amazonaws.com/705612_158ac73a6c 0e42168f051b48c1f81bb5.html (accessed May 18, 2023). [20] G. Batista and M. Monard, “A Study of k­nearest Neighbour As an Imputation Method,” Hybrid Intelligent Systems, pp. 251–260, 2002. [21] IBM, “Conceptos básicos de ayuda de CRISP­ DM,” Aug. 17, 2021. https://www.ibm.com/docs/es/spss­ modeler/saas?topic=dm­crisp­help­overview (accessed May 18, 2023). [17] R. Diáz, “Algoritmo KNN ­ Cómo Funciona y Ejemplos en Python,” The Machine Learners , 2022. https://www.themachinelearners.com/algorit mo­knn/ (accessed May 18, 2023).
0
Puede agregar este documento a su colección de estudio (s)
Iniciar sesión Disponible sólo para usuarios autorizadosPuede agregar este documento a su lista guardada
Iniciar sesión Disponible sólo para usuarios autorizados(Para quejas, use otra forma )