Subido por nando_spkn

Final Deliverable

Anuncio
Final Deliverable OCR
1. Problem Formulation
La OCR (Oficina del Coordinador Residente) es una entidad de la ONU que
opera en Perú con el objetivo principal de coordinar y promover el trabajo
colaborativo de las agencias de la ONU y otras partes interesadas relevantes
en el país. La función principal de la OCR es coordinar y facilitar la planificación
estratégica conjunta entre las agencias de la ONU en el Perú. Sin embargo,
una de las limitaciones que enfrenta el OCR es la ausencia de un repositorio de
base de datos integral, lo que dificulta su capacidad para realizar trabajos
analíticos.
Para mejorar la gestión de la agencia, la OCR tiene como objetivo optimizar los
recursos e identificar áreas donde se pueden implementar planes de acción.
Dado que las fuentes de datos de la OCR están disponibles solo a partir de
2021, se ha acordado identificar grupos de agencias con características
similares. Esto permitiría la asignación de uno de estos grupos a una nueva
agencia administrada por la OCR.
Además, para identificar los planes de acción, la OCR se basa en una base de
datos proporcionada por el Instituto Nacional de Estadística (INE), que incluye
indicadores socioeconómicos, tasas de natalidad, niveles de pobreza y otros
factores relevantes. El objetivo es desarrollar un tablero que pueda identificar
directamente las áreas que requieren intervención de cualquiera de las
agencias de OCR.
Al aprovechar los datos proporcionados por el INE e implementar un sistema
de tablero, la OCR busca agilizar sus operaciones y mejorar los procesos de
toma de decisiones. Esto permitirá intervenciones más específicas y eficientes
en áreas que requieren la asistencia y el apoyo de las agencias de la OCR.
2. Data Collection
Este conjunto de datos contiene información sobre los indicadores del
INEI, estos indicadores se clasifican donde se han recopilado a lo largo
de los años. Esta información es muy importante ya que los indicadores
dan a conocer el estado de los departamentos de nuestro país, algunos
de estos indicadores son los siguientes:
Acceso al agua a través de la red pública domiciliaria
● Con cobertura eléctrica por red pública
● Gasto total realizado por los municipios en la recolección de residuos
sólidos
● Hogares con acceso a Internet
● Hogares que usan gas para cocinar alimentos
● Hogares sin acceso a ningún tipo de TIC
● hombres analfabetos
● Incidencia de la pobreza monetaria
● Mujeres analfabetas
● Partos atendidos por personal profesional de la salud: médico,
obstetra, enfermera (o) e interna (o)
● Partos atendidos por personal técnico de salud: técnico/asistente y
promotor de salud
● Nacimientos masculinos
● Nacimientos de madres menores de 15 años
La base de datos proporcionada por el OCR consta de aproximadamente un 90
% de variables categóricas, la mayoría de las cuales son variables binarias. Por
otro lado, el 10% restante de la base de datos se compone de variables
numéricas continuas que pertenecen a la información presupuestaria.
Las variables categóricas en uso dentro de la base de datos de OCR incluyen:
● Ubicación Geográfica: Esta variable captura a nivel departamental las
áreas geográficas o regiones donde la OCR opera e implementa sus
programas e intervenciones. Proporciona información sobre las
ubicaciones específicas donde se centran las actividades de la OCR.
● Agencias socias: esta variable identifica las organizaciones socias o
agencias que colaboran con la OCR en la implementación de proyectos
e intervenciones. Destaca la red de actores involucrados en las
iniciativas de la OCR.
● Poblaciones Beneficiarias: Esta variable categoriza las poblaciones
específicas o grupos objetivo que se benefician de los programas de la
OCR. Incluye grupos como mujeres, niños, comunidades indígenas,
refugiados y otras poblaciones vulnerables.
● Marcadores de Género y Derechos Humanos: Esta variable indica si
las intervenciones de la OCR consideran perspectivas de género y
principios de derechos humanos. Ayuda a evaluar hasta qué punto las
actividades de la OCR abordan cuestiones de igualdad de género y
derechos humanos.
● Categoría de Intervención: Esta variable clasifica los tipos o
categorías de intervenciones realizadas por la OCR. Podría incluir
categorías como Desarrollo de capacidades/Asistencia técnica,
Convocatoria/Asociaciones/Compartir conocimientos, Recopilación y
análisis de datos, Apoyo directo/Prestación de servicios, Asesoramiento
sobre políticas y Liderazgo intelectual, etc.
Se puede observar que los datos contienen un número significativo de valores
faltantes. Por lo tanto, se aplicará un tratamiento de preprocesamiento de datos
para manejar este problema.
Para la variable 'Ámbito Nacional' se aplicará un criterio de imputación
específico. Si la etiqueta de la agencia es "sí", se supondrá que la agencia
opera a nivel nacional y, por lo tanto, a todos los departamentos se les
asignará el valor "sí" para esta variable.
Se eliminó un total de 22 registros del conjunto de datos porque contenían
valores faltantes en todas las variables. Esto representa aproximadamente el
7,6% del conjunto de datos total.
Posteriormente, para las variables bivariadas, los valores 'Si' (sí) se
reemplazan por 1, y los valores 'No' se reemplazan por 0.
Para las variables con más de dos categorías, se aplicó un tratamiento de
codificación de etiquetas.
La codificación de etiquetas es una técnica utilizada para convertir valores
categóricos en etiquetas numéricas. A cada categoría única se le asigna un
valor entero único. Esta codificación facilita el uso de variables categóricas en
algoritmos de aprendizaje automático que requieren entradas numéricas.
Con la finalización de los pasos de preprocesamiento de datos, el conjunto de
datos se ha tratado con éxito, lo que da como resultado un conjunto de datos
final que contiene 265 filas y 82 columnas.
3. Methodology
Base INEI:
En base a los datos obtenidos por el INEI, pasamos por un proceso de
identificación de objetivos para poder transformar esos objetivos en resultados,
donde buscamos crear un informe con los indicadores donde fueron
clasificados, se tuvo un registro histórico, que el informe facilita la interacción
con el usuario para poder observar los indicadores a través de los años y poder
realizar análisis donde estos indicadores visualicen el estado de un
departamento tanto a nivel de educación, salud, dinero, etc.
Los datos se limpiaron utilizando el lenguaje de programación python utilizando
la plataforma google colab. Obteniendo como resultado un archivo csv, el cual
fue guardado en una ruta de la nube de google drive, esto sirvió para que en
una de las funcionalidades de locker studio el cual lee desde una ruta de
google drive pueda consumir el archivo csv y a partir de ahí este comenzará a
consumir el datos para poder crear el informe de una manera muy fácil y
didáctica para poder expresar los resultados al usuario.
Teniendo como resultado el siguiente informe que nos brindan los filtros por
categorías, indicadores y años y podemos revisar con el tiempo cómo estos
indicadores reflejan la mejora en algunos departamentos, así como en otros,
debemos prestar más atención, como la educación en los departamentos. lejos
de la capital.
Base OCR:
La intención dentro del proyecto es identificar grupos de agencias con perfiles
similares, con el objetivo de asignar una nueva agencia a un grupo de gestión
específico. Este enfoque permite una coordinación eficiente y la optimización
de recursos dentro de las operaciones de la OCR.
Al analizar las características y atributos de las agencias existentes, como sus
áreas de enfoque, poblaciones objetivo, ubicaciones geográficas y redes de
asociación, es posible identificar puntos en común y patrones. Estas similitudes
se pueden utilizar para agrupar agencias en función de características
compartidas, experiencia o estrategias operativas.
Cuando una nueva agencia se incorpore a la OCR, se evaluará su perfil y
mandato para determinar el grupo de gestión más adecuado para su
asignación. Este enfoque de agrupación garantiza que la nueva agencia se
beneficie de la experiencia, el conocimiento y los recursos de las agencias que
tienen perfiles similares, lo que facilita una integración y coordinación más
fluidas dentro del marco de la OCR.
El objetivo de esta estrategia es aprovechar las fortalezas colectivas y las
sinergias entre las agencias, fomentando la colaboración y maximizando el
impacto de las intervenciones. Permite el intercambio efectivo de las mejores
prácticas, la experiencia y los recursos dentro de cada grupo de gestión,
promoviendo la eficiencia, la eficacia y, en última instancia, los resultados
positivos en los esfuerzos de la OCR.
Para obtener el modelo final para el OCR se seguirán los siguientes pasos:
Construcción de conglomerados: dado que la base de datos contiene solo
variables categóricas, se probarán diferentes metodologías de conglomerados
en función de la naturaleza de estas variables. Algunas opciones adecuadas a
considerar son los algoritmos K-means, K-medoids y K-mode. Se evaluarán
varios números de grupos para determinar la cantidad óptima.
●
●
●
Evaluación de conglomerados: una vez que se hayan construido los
conglomerados, se evaluará su calidad utilizando métricas como la
cohesión intra-conglomerado y la separación entre conglomerados.
También se pueden utilizar visualizaciones como diagramas de
dispersión o gráficos de silueta para comprender la estructura y la
separación de los grupos.
Selección del número óptimo de conglomerados: se emplearán
diferentes criterios, como el método del codo o la varianza explicada,
para determinar el número apropiado de conglomerados que mejor
representan la estructura de datos y maximizar la coherencia interna del
conglomerado.
Construcción del modelo predictivo: después de identificar el número
óptimo de conglomerados, se utilizarán como variable objetivo para
construir un modelo predictivo. Dado que las variables son categóricas,
se pueden explorar algoritmos como Random Forest, Support Vector
Machines (SVM) o modelos de clasificación basados en redes
neuronales.
●
●
Evaluación del modelo predictivo: la calidad y el rendimiento del modelo
predictivo se evaluarán mediante métricas como la precisión, la
recuperación y la puntuación F1. También se pueden emplear técnicas
de validación cruzada para evaluar la solidez y la generalización del
modelo.
A través de este proceso, se seleccionará el modelo predictivo más
adecuado, dando como resultado el modelo final que permite predecir a
qué clúster pertenece una nueva agencia de OCR en función de sus
variables categóricas. Es importante tener en cuenta que la selección
del modelo y las metodologías específicas dependerán de las
características de los datos y los objetivos del proyecto.
4. Experiments
OCR:
El modelo de agrupamiento final se construyó utilizando la metodología
DBSCAN, lo que resultó en 2 agrupamientos. Dado que el modelo solo utiliza
variables categóricas, se probaron otras metodologías como K-means, Kmedoids o k-mode, pero no arrojaron los resultados esperados. Para
determinar el número apropiado de conglomerados y la metodología de
conglomerados, el proyecto utiliza la puntuación de silueta. Está disponible una
representación gráfica de las puntuaciones de silueta para los grupos
probados.
La puntuación de la silueta es una medida de qué tan bien encaja cada punto
de datos en su grupo asignado en comparación con otros grupos. Va de -1 a 1,
con valores más cercanos a 1 que indican un grupo mejor definido y bien
separado.
En la representación gráfica de las puntuaciones de la silueta, puede observar
los niveles de la puntuación de la silueta para los diferentes clústeres
probados. La puntuación de la silueta ayuda a evaluar la calidad y la
consistencia de los resultados del agrupamiento. Permite la comparación y la
selección del modelo de agrupamiento con la puntuación de silueta promedio
más alta, lo que indica el número óptimo de agrupaciones y la metodología.
Mediante el uso de la metodología DBSCAN y teniendo en cuenta la
puntuación de la silueta, el proyecto garantiza que el modelo de agrupamiento
logre grupos significativos y bien separados en función de las variables
categóricas disponibles. Este enfoque permite una mejor comprensión de las
similitudes de las agencias y facilita la asignación de nuevas agencias a los
grupos de gestión apropiados dentro de la OCR.
Para visualizar la agrupación de agencias en los conglomerados utilizando
variables categóricas, se empleó una técnica de reducción de dimensionalidad
llamada Análisis de Correspondencia. Esta técnica permite la representación
de agencias en un espacio de menor dimensión para observar su agrupación.
Para la segunda parte de este proyecto, los conglomerados generados se
utilizarán como variable objetivo para construir un modelo que prediga la
asignación de conglomerados de una nueva agencia dentro de la OCR. Como
se mencionó anteriormente, hay dos clústeres, a los que se les asignan los
valores 0 y 1. Dado que estamos trabajando con variables categóricas, el
modelo predictivo utilizado para esta tarea fue Random Forest.
Para construir y evaluar el modelo, el conjunto de datos se dividió en conjuntos
de entrenamiento y prueba, con proporciones de 80% y 20% respectivamente.
El conjunto de entrenamiento, que contiene el 80 % de los datos, se utilizó para
entrenar el modelo Random Forest, lo que le permitió aprender los patrones y
las relaciones dentro de los datos. El 20 % restante de los datos, almacenados
en el conjunto de prueba, se utilizó para evaluar el rendimiento del modelo y
evaluar sus capacidades predictivas.
Mediante el uso del algoritmo Random Forest y la división de los datos en
conjuntos de entrenamiento y prueba, el objetivo es desarrollar un modelo que
prediga con precisión la asignación de grupos de nuevas agencias dentro del
OCR en función de sus variables categóricas.
5. Result Interpretation
OCR
Como resultado, los conglomerados se diferencian en gran medida por las
variables 'ICA', 'Lambayeque', 'Moquegua' y 'Ancash'. Estos departamentos
pertenecen a la región costera, lo que sugiere que las agencias ubicadas en las
zonas costeras exhiben características similares en comparación con las
agencias en otros departamentos.
Este hallazgo indica que las agencias de la región costera comparten puntos
en común en términos de las variables categóricas utilizadas para la
agrupación. Las variables 'ICA', 'Lambayeque', 'Moquegua' y 'Ancash'
probablemente capturan atributos específicos o características únicas de la
región costera, distinguiéndola de otras regiones o departamentos.
Al identificar estas variables diferenciadoras, la OCR puede obtener
información sobre las características o necesidades específicas de las
agencias ubicadas en las áreas costeras. Esta información puede ser valiosa
para la toma de decisiones, la asignación de recursos y la adaptación de
intervenciones o estrategias para abordar los requisitos particulares de las
agencias que operan en la región costera.
Se creó un diagrama de caja para cada categoría para identificar la distribución
de recursos en la base de datos de proyectos anteriores. Este análisis tiene
como objetivo ayudar a asignar una categoría a una nueva agencia que
aparece en el OCR utilizando un modelo de árbol de decisión. Además, el
análisis de diagrama de caja ayudará a estimar un presupuesto para los
recursos.
El modelo de árbol de decisiones se utilizará para predecir la categoría de una
nueva agencia en función de sus características y atributos específicos. Una
vez que se entrena el modelo, se puede aplicar a nuevas agencias para
asignarlas a la categoría adecuada.
Finalmente, el análisis de diagrama de caja se puede utilizar para estimar un
presupuesto para los recursos en función de la categoría asignada a una nueva
agencia. Al examinar la distribución de recursos dentro de cada categoría, se
puede hacer una estimación del rango presupuestario esperado. Esta
información puede ayudar a guiar las decisiones de asignación de recursos y
proporcionar una comprensión preliminar de los recursos necesarios para los
nuevos proyectos de la agencia.
La combinación del modelo de árbol de decisión y el análisis de diagrama de
caja permite un enfoque integral para categorizar nuevas agencias y estimar
sus presupuestos de recursos con base en datos de proyectos anteriores. Esta
metodología proporciona un marco para la toma de decisiones eficiente y la
planificación de recursos dentro de la OCR.
INEI
En los resultados obtenidos de la representación de los datos, es que a lo largo
de los años hay una mejora en los indicadores en los departamentos.
No contamos con puntos de servicio en diferentes partes del país. Algunas
consideraciones para mejorar los indicadores son las siguientes.
Investigación y análisis:
Llevar a cabo un análisis exhaustivo del estado actual de la educación, la salud
y las condiciones económicas en el país.
Reúna datos y estadísticas de fuentes confiables para comprender los desafíos
clave e identificar áreas específicas de preocupación.
Analice las causas fundamentales, los factores subyacentes y las
interdependencias de estos problemas.
Participación de los interesados:
Involúcrese con las partes interesadas relevantes, como funcionarios
gubernamentales, legisladores, educadores, profesionales de la salud,
economistas, ONG, líderes comunitarios y ciudadanos.
Facilite diálogos, talleres y plataformas colaborativas para comprender diversas
perspectivas y recopilar información sobre posibles soluciones.
Fomentar alianzas y colaboraciones entre diferentes sectores para maximizar
el impacto y los recursos.
El establecimiento de metas:
Definir objetivos claros y medibles para la educación, la salud y el desarrollo
económico en función de los resultados de la investigación y los aportes de las
partes interesadas.
Priorice los objetivos en función de la urgencia, la viabilidad y el impacto
potencial.
Desglose los objetivos en objetivos e hitos específicos para un mejor
seguimiento y responsabilidad.
Asignación de recursos:
Asignar suficientes recursos financieros, personal e infraestructura para apoyar
la implementación de iniciativas destinadas a mejorar la educación, la salud y
las condiciones económicas.
Priorizar las inversiones en función de la urgencia y el impacto potencial de
cada iniciativa.
Busque financiamiento de organizaciones internacionales, asociaciones
público-privadas y otras fuentes potenciales.
Implementación y Monitoreo:
Establezca un plan de implementación con plazos claros, responsabilidades y
mecanismos de coordinación.
Monitorear y evaluar regularmente el progreso de las iniciativas y programas.
Recopilar y analizar datos para medir el impacto de las intervenciones y hacer
los ajustes necesarios en el camino.
Participar en la mejora continua aprendiendo de los éxitos y fracasos.
Conciencia pública y participación:
Desarrollar estrategias para la sostenibilidad a largo plazo de los esfuerzos
mediante la promoción del desarrollo de capacidades, la transferencia de
conocimientos y el desarrollo de habilidades.
Fomentar la innovación y la investigación para abordar los desafíos
emergentes y adaptarse a las circunstancias cambiantes.
Evaluar y perfeccionar continuamente las políticas y los programas para
garantizar su pertinencia y eficacia.
6. Engineering Product
As a final outcome of both processes, the INEI dataset underwent a data
transformation process, resulting in the development of a visualization tool
using Locker Studio. This tool provides us with department-level indicators for
our country.
On the other hand, the OCR dataset created a predictive model that performs
incident classification. When a new incident is entered, it is categorized, and a
budget is allocated to it.
It is worth noting that the indicators from the INEI report also influence decisionmaking within the OCR. This helps us prioritize which departments require more
attention, and the OCR takes the initiative to create new incidents in those
specific locations. For instance, as a result of our findings, we have observed
low education and health indicators in the departments of the Sierra region.
This prompts the OCR to develop an action plan to visit those departments,
utilizing the predictive model to create incidents, classify them, and allocate
investment budgets accordingly. Over time, this intervention will lead to
improved indicators in those areas, benefiting the population in terms of
education and health. Thus, it contributes to enhancing the quality of life and
cultivating responsible citizens in our country.
Furthermore, as the next steps with the current product, we aim to leverage
cloud-based tools such as Amazon or Google. This would involve developing a
Python-based backend and frontend application hosted on an Amazon server,
along with a linked database using Docker containers. This integrated setup
would provide a simple and secure solution.
The purpose of migrating the application to the cloud is to enable real-time data
insertion through a web page, which would be reflected in the Power BI report.
Power BI is a more powerful tool than Locker Studio and offers greater
potential. These enhancements to the tools and infrastructure will improve data
analysis and decision-making support for users.
By incorporating these improvements, we aim to deliver a comprehensive and
efficient solution that can adapt to real-time data and provide valuable insights
for decision-making processes.
Team Members
●
●
Jesús García
Kevin Muñoz
Descargar