Final Deliverable OCR 1. Problem Formulation La OCR (Oficina del Coordinador Residente) es una entidad de la ONU que opera en Perú con el objetivo principal de coordinar y promover el trabajo colaborativo de las agencias de la ONU y otras partes interesadas relevantes en el país. La función principal de la OCR es coordinar y facilitar la planificación estratégica conjunta entre las agencias de la ONU en el Perú. Sin embargo, una de las limitaciones que enfrenta el OCR es la ausencia de un repositorio de base de datos integral, lo que dificulta su capacidad para realizar trabajos analíticos. Para mejorar la gestión de la agencia, la OCR tiene como objetivo optimizar los recursos e identificar áreas donde se pueden implementar planes de acción. Dado que las fuentes de datos de la OCR están disponibles solo a partir de 2021, se ha acordado identificar grupos de agencias con características similares. Esto permitiría la asignación de uno de estos grupos a una nueva agencia administrada por la OCR. Además, para identificar los planes de acción, la OCR se basa en una base de datos proporcionada por el Instituto Nacional de Estadística (INE), que incluye indicadores socioeconómicos, tasas de natalidad, niveles de pobreza y otros factores relevantes. El objetivo es desarrollar un tablero que pueda identificar directamente las áreas que requieren intervención de cualquiera de las agencias de OCR. Al aprovechar los datos proporcionados por el INE e implementar un sistema de tablero, la OCR busca agilizar sus operaciones y mejorar los procesos de toma de decisiones. Esto permitirá intervenciones más específicas y eficientes en áreas que requieren la asistencia y el apoyo de las agencias de la OCR. 2. Data Collection Este conjunto de datos contiene información sobre los indicadores del INEI, estos indicadores se clasifican donde se han recopilado a lo largo de los años. Esta información es muy importante ya que los indicadores dan a conocer el estado de los departamentos de nuestro país, algunos de estos indicadores son los siguientes: Acceso al agua a través de la red pública domiciliaria ● Con cobertura eléctrica por red pública ● Gasto total realizado por los municipios en la recolección de residuos sólidos ● Hogares con acceso a Internet ● Hogares que usan gas para cocinar alimentos ● Hogares sin acceso a ningún tipo de TIC ● hombres analfabetos ● Incidencia de la pobreza monetaria ● Mujeres analfabetas ● Partos atendidos por personal profesional de la salud: médico, obstetra, enfermera (o) e interna (o) ● Partos atendidos por personal técnico de salud: técnico/asistente y promotor de salud ● Nacimientos masculinos ● Nacimientos de madres menores de 15 años La base de datos proporcionada por el OCR consta de aproximadamente un 90 % de variables categóricas, la mayoría de las cuales son variables binarias. Por otro lado, el 10% restante de la base de datos se compone de variables numéricas continuas que pertenecen a la información presupuestaria. Las variables categóricas en uso dentro de la base de datos de OCR incluyen: ● Ubicación Geográfica: Esta variable captura a nivel departamental las áreas geográficas o regiones donde la OCR opera e implementa sus programas e intervenciones. Proporciona información sobre las ubicaciones específicas donde se centran las actividades de la OCR. ● Agencias socias: esta variable identifica las organizaciones socias o agencias que colaboran con la OCR en la implementación de proyectos e intervenciones. Destaca la red de actores involucrados en las iniciativas de la OCR. ● Poblaciones Beneficiarias: Esta variable categoriza las poblaciones específicas o grupos objetivo que se benefician de los programas de la OCR. Incluye grupos como mujeres, niños, comunidades indígenas, refugiados y otras poblaciones vulnerables. ● Marcadores de Género y Derechos Humanos: Esta variable indica si las intervenciones de la OCR consideran perspectivas de género y principios de derechos humanos. Ayuda a evaluar hasta qué punto las actividades de la OCR abordan cuestiones de igualdad de género y derechos humanos. ● Categoría de Intervención: Esta variable clasifica los tipos o categorías de intervenciones realizadas por la OCR. Podría incluir categorías como Desarrollo de capacidades/Asistencia técnica, Convocatoria/Asociaciones/Compartir conocimientos, Recopilación y análisis de datos, Apoyo directo/Prestación de servicios, Asesoramiento sobre políticas y Liderazgo intelectual, etc. Se puede observar que los datos contienen un número significativo de valores faltantes. Por lo tanto, se aplicará un tratamiento de preprocesamiento de datos para manejar este problema. Para la variable 'Ámbito Nacional' se aplicará un criterio de imputación específico. Si la etiqueta de la agencia es "sí", se supondrá que la agencia opera a nivel nacional y, por lo tanto, a todos los departamentos se les asignará el valor "sí" para esta variable. Se eliminó un total de 22 registros del conjunto de datos porque contenían valores faltantes en todas las variables. Esto representa aproximadamente el 7,6% del conjunto de datos total. Posteriormente, para las variables bivariadas, los valores 'Si' (sí) se reemplazan por 1, y los valores 'No' se reemplazan por 0. Para las variables con más de dos categorías, se aplicó un tratamiento de codificación de etiquetas. La codificación de etiquetas es una técnica utilizada para convertir valores categóricos en etiquetas numéricas. A cada categoría única se le asigna un valor entero único. Esta codificación facilita el uso de variables categóricas en algoritmos de aprendizaje automático que requieren entradas numéricas. Con la finalización de los pasos de preprocesamiento de datos, el conjunto de datos se ha tratado con éxito, lo que da como resultado un conjunto de datos final que contiene 265 filas y 82 columnas. 3. Methodology Base INEI: En base a los datos obtenidos por el INEI, pasamos por un proceso de identificación de objetivos para poder transformar esos objetivos en resultados, donde buscamos crear un informe con los indicadores donde fueron clasificados, se tuvo un registro histórico, que el informe facilita la interacción con el usuario para poder observar los indicadores a través de los años y poder realizar análisis donde estos indicadores visualicen el estado de un departamento tanto a nivel de educación, salud, dinero, etc. Los datos se limpiaron utilizando el lenguaje de programación python utilizando la plataforma google colab. Obteniendo como resultado un archivo csv, el cual fue guardado en una ruta de la nube de google drive, esto sirvió para que en una de las funcionalidades de locker studio el cual lee desde una ruta de google drive pueda consumir el archivo csv y a partir de ahí este comenzará a consumir el datos para poder crear el informe de una manera muy fácil y didáctica para poder expresar los resultados al usuario. Teniendo como resultado el siguiente informe que nos brindan los filtros por categorías, indicadores y años y podemos revisar con el tiempo cómo estos indicadores reflejan la mejora en algunos departamentos, así como en otros, debemos prestar más atención, como la educación en los departamentos. lejos de la capital. Base OCR: La intención dentro del proyecto es identificar grupos de agencias con perfiles similares, con el objetivo de asignar una nueva agencia a un grupo de gestión específico. Este enfoque permite una coordinación eficiente y la optimización de recursos dentro de las operaciones de la OCR. Al analizar las características y atributos de las agencias existentes, como sus áreas de enfoque, poblaciones objetivo, ubicaciones geográficas y redes de asociación, es posible identificar puntos en común y patrones. Estas similitudes se pueden utilizar para agrupar agencias en función de características compartidas, experiencia o estrategias operativas. Cuando una nueva agencia se incorpore a la OCR, se evaluará su perfil y mandato para determinar el grupo de gestión más adecuado para su asignación. Este enfoque de agrupación garantiza que la nueva agencia se beneficie de la experiencia, el conocimiento y los recursos de las agencias que tienen perfiles similares, lo que facilita una integración y coordinación más fluidas dentro del marco de la OCR. El objetivo de esta estrategia es aprovechar las fortalezas colectivas y las sinergias entre las agencias, fomentando la colaboración y maximizando el impacto de las intervenciones. Permite el intercambio efectivo de las mejores prácticas, la experiencia y los recursos dentro de cada grupo de gestión, promoviendo la eficiencia, la eficacia y, en última instancia, los resultados positivos en los esfuerzos de la OCR. Para obtener el modelo final para el OCR se seguirán los siguientes pasos: Construcción de conglomerados: dado que la base de datos contiene solo variables categóricas, se probarán diferentes metodologías de conglomerados en función de la naturaleza de estas variables. Algunas opciones adecuadas a considerar son los algoritmos K-means, K-medoids y K-mode. Se evaluarán varios números de grupos para determinar la cantidad óptima. ● ● ● Evaluación de conglomerados: una vez que se hayan construido los conglomerados, se evaluará su calidad utilizando métricas como la cohesión intra-conglomerado y la separación entre conglomerados. También se pueden utilizar visualizaciones como diagramas de dispersión o gráficos de silueta para comprender la estructura y la separación de los grupos. Selección del número óptimo de conglomerados: se emplearán diferentes criterios, como el método del codo o la varianza explicada, para determinar el número apropiado de conglomerados que mejor representan la estructura de datos y maximizar la coherencia interna del conglomerado. Construcción del modelo predictivo: después de identificar el número óptimo de conglomerados, se utilizarán como variable objetivo para construir un modelo predictivo. Dado que las variables son categóricas, se pueden explorar algoritmos como Random Forest, Support Vector Machines (SVM) o modelos de clasificación basados en redes neuronales. ● ● Evaluación del modelo predictivo: la calidad y el rendimiento del modelo predictivo se evaluarán mediante métricas como la precisión, la recuperación y la puntuación F1. También se pueden emplear técnicas de validación cruzada para evaluar la solidez y la generalización del modelo. A través de este proceso, se seleccionará el modelo predictivo más adecuado, dando como resultado el modelo final que permite predecir a qué clúster pertenece una nueva agencia de OCR en función de sus variables categóricas. Es importante tener en cuenta que la selección del modelo y las metodologías específicas dependerán de las características de los datos y los objetivos del proyecto. 4. Experiments OCR: El modelo de agrupamiento final se construyó utilizando la metodología DBSCAN, lo que resultó en 2 agrupamientos. Dado que el modelo solo utiliza variables categóricas, se probaron otras metodologías como K-means, Kmedoids o k-mode, pero no arrojaron los resultados esperados. Para determinar el número apropiado de conglomerados y la metodología de conglomerados, el proyecto utiliza la puntuación de silueta. Está disponible una representación gráfica de las puntuaciones de silueta para los grupos probados. La puntuación de la silueta es una medida de qué tan bien encaja cada punto de datos en su grupo asignado en comparación con otros grupos. Va de -1 a 1, con valores más cercanos a 1 que indican un grupo mejor definido y bien separado. En la representación gráfica de las puntuaciones de la silueta, puede observar los niveles de la puntuación de la silueta para los diferentes clústeres probados. La puntuación de la silueta ayuda a evaluar la calidad y la consistencia de los resultados del agrupamiento. Permite la comparación y la selección del modelo de agrupamiento con la puntuación de silueta promedio más alta, lo que indica el número óptimo de agrupaciones y la metodología. Mediante el uso de la metodología DBSCAN y teniendo en cuenta la puntuación de la silueta, el proyecto garantiza que el modelo de agrupamiento logre grupos significativos y bien separados en función de las variables categóricas disponibles. Este enfoque permite una mejor comprensión de las similitudes de las agencias y facilita la asignación de nuevas agencias a los grupos de gestión apropiados dentro de la OCR. Para visualizar la agrupación de agencias en los conglomerados utilizando variables categóricas, se empleó una técnica de reducción de dimensionalidad llamada Análisis de Correspondencia. Esta técnica permite la representación de agencias en un espacio de menor dimensión para observar su agrupación. Para la segunda parte de este proyecto, los conglomerados generados se utilizarán como variable objetivo para construir un modelo que prediga la asignación de conglomerados de una nueva agencia dentro de la OCR. Como se mencionó anteriormente, hay dos clústeres, a los que se les asignan los valores 0 y 1. Dado que estamos trabajando con variables categóricas, el modelo predictivo utilizado para esta tarea fue Random Forest. Para construir y evaluar el modelo, el conjunto de datos se dividió en conjuntos de entrenamiento y prueba, con proporciones de 80% y 20% respectivamente. El conjunto de entrenamiento, que contiene el 80 % de los datos, se utilizó para entrenar el modelo Random Forest, lo que le permitió aprender los patrones y las relaciones dentro de los datos. El 20 % restante de los datos, almacenados en el conjunto de prueba, se utilizó para evaluar el rendimiento del modelo y evaluar sus capacidades predictivas. Mediante el uso del algoritmo Random Forest y la división de los datos en conjuntos de entrenamiento y prueba, el objetivo es desarrollar un modelo que prediga con precisión la asignación de grupos de nuevas agencias dentro del OCR en función de sus variables categóricas. 5. Result Interpretation OCR Como resultado, los conglomerados se diferencian en gran medida por las variables 'ICA', 'Lambayeque', 'Moquegua' y 'Ancash'. Estos departamentos pertenecen a la región costera, lo que sugiere que las agencias ubicadas en las zonas costeras exhiben características similares en comparación con las agencias en otros departamentos. Este hallazgo indica que las agencias de la región costera comparten puntos en común en términos de las variables categóricas utilizadas para la agrupación. Las variables 'ICA', 'Lambayeque', 'Moquegua' y 'Ancash' probablemente capturan atributos específicos o características únicas de la región costera, distinguiéndola de otras regiones o departamentos. Al identificar estas variables diferenciadoras, la OCR puede obtener información sobre las características o necesidades específicas de las agencias ubicadas en las áreas costeras. Esta información puede ser valiosa para la toma de decisiones, la asignación de recursos y la adaptación de intervenciones o estrategias para abordar los requisitos particulares de las agencias que operan en la región costera. Se creó un diagrama de caja para cada categoría para identificar la distribución de recursos en la base de datos de proyectos anteriores. Este análisis tiene como objetivo ayudar a asignar una categoría a una nueva agencia que aparece en el OCR utilizando un modelo de árbol de decisión. Además, el análisis de diagrama de caja ayudará a estimar un presupuesto para los recursos. El modelo de árbol de decisiones se utilizará para predecir la categoría de una nueva agencia en función de sus características y atributos específicos. Una vez que se entrena el modelo, se puede aplicar a nuevas agencias para asignarlas a la categoría adecuada. Finalmente, el análisis de diagrama de caja se puede utilizar para estimar un presupuesto para los recursos en función de la categoría asignada a una nueva agencia. Al examinar la distribución de recursos dentro de cada categoría, se puede hacer una estimación del rango presupuestario esperado. Esta información puede ayudar a guiar las decisiones de asignación de recursos y proporcionar una comprensión preliminar de los recursos necesarios para los nuevos proyectos de la agencia. La combinación del modelo de árbol de decisión y el análisis de diagrama de caja permite un enfoque integral para categorizar nuevas agencias y estimar sus presupuestos de recursos con base en datos de proyectos anteriores. Esta metodología proporciona un marco para la toma de decisiones eficiente y la planificación de recursos dentro de la OCR. INEI En los resultados obtenidos de la representación de los datos, es que a lo largo de los años hay una mejora en los indicadores en los departamentos. No contamos con puntos de servicio en diferentes partes del país. Algunas consideraciones para mejorar los indicadores son las siguientes. Investigación y análisis: Llevar a cabo un análisis exhaustivo del estado actual de la educación, la salud y las condiciones económicas en el país. Reúna datos y estadísticas de fuentes confiables para comprender los desafíos clave e identificar áreas específicas de preocupación. Analice las causas fundamentales, los factores subyacentes y las interdependencias de estos problemas. Participación de los interesados: Involúcrese con las partes interesadas relevantes, como funcionarios gubernamentales, legisladores, educadores, profesionales de la salud, economistas, ONG, líderes comunitarios y ciudadanos. Facilite diálogos, talleres y plataformas colaborativas para comprender diversas perspectivas y recopilar información sobre posibles soluciones. Fomentar alianzas y colaboraciones entre diferentes sectores para maximizar el impacto y los recursos. El establecimiento de metas: Definir objetivos claros y medibles para la educación, la salud y el desarrollo económico en función de los resultados de la investigación y los aportes de las partes interesadas. Priorice los objetivos en función de la urgencia, la viabilidad y el impacto potencial. Desglose los objetivos en objetivos e hitos específicos para un mejor seguimiento y responsabilidad. Asignación de recursos: Asignar suficientes recursos financieros, personal e infraestructura para apoyar la implementación de iniciativas destinadas a mejorar la educación, la salud y las condiciones económicas. Priorizar las inversiones en función de la urgencia y el impacto potencial de cada iniciativa. Busque financiamiento de organizaciones internacionales, asociaciones público-privadas y otras fuentes potenciales. Implementación y Monitoreo: Establezca un plan de implementación con plazos claros, responsabilidades y mecanismos de coordinación. Monitorear y evaluar regularmente el progreso de las iniciativas y programas. Recopilar y analizar datos para medir el impacto de las intervenciones y hacer los ajustes necesarios en el camino. Participar en la mejora continua aprendiendo de los éxitos y fracasos. Conciencia pública y participación: Desarrollar estrategias para la sostenibilidad a largo plazo de los esfuerzos mediante la promoción del desarrollo de capacidades, la transferencia de conocimientos y el desarrollo de habilidades. Fomentar la innovación y la investigación para abordar los desafíos emergentes y adaptarse a las circunstancias cambiantes. Evaluar y perfeccionar continuamente las políticas y los programas para garantizar su pertinencia y eficacia. 6. Engineering Product As a final outcome of both processes, the INEI dataset underwent a data transformation process, resulting in the development of a visualization tool using Locker Studio. This tool provides us with department-level indicators for our country. On the other hand, the OCR dataset created a predictive model that performs incident classification. When a new incident is entered, it is categorized, and a budget is allocated to it. It is worth noting that the indicators from the INEI report also influence decisionmaking within the OCR. This helps us prioritize which departments require more attention, and the OCR takes the initiative to create new incidents in those specific locations. For instance, as a result of our findings, we have observed low education and health indicators in the departments of the Sierra region. This prompts the OCR to develop an action plan to visit those departments, utilizing the predictive model to create incidents, classify them, and allocate investment budgets accordingly. Over time, this intervention will lead to improved indicators in those areas, benefiting the population in terms of education and health. Thus, it contributes to enhancing the quality of life and cultivating responsible citizens in our country. Furthermore, as the next steps with the current product, we aim to leverage cloud-based tools such as Amazon or Google. This would involve developing a Python-based backend and frontend application hosted on an Amazon server, along with a linked database using Docker containers. This integrated setup would provide a simple and secure solution. The purpose of migrating the application to the cloud is to enable real-time data insertion through a web page, which would be reflected in the Power BI report. Power BI is a more powerful tool than Locker Studio and offers greater potential. These enhancements to the tools and infrastructure will improve data analysis and decision-making support for users. By incorporating these improvements, we aim to deliver a comprehensive and efficient solution that can adapt to real-time data and provide valuable insights for decision-making processes. Team Members ● ● Jesús García Kevin Muñoz