Trascripción de Manuscritos de José Enrique Rodó - Biblioteca Nacional Propuesta comercial IDATHA - 2021 Alcance El objetivo de este proyecto es validar si es posible construir un modelo de Inteligencia Artificial basado en Computer Vision, que permita facilitar el proceso de transcripción a editor de texto de los manuscritos de José Enrique Rodó, previamente digitalizados por el equipo de la Biblioteca Nacional. El modelo va a ser entrenado y evaluado sobre el conjunto de datos previamente transcripto por los expertos; al que llamaremos Corpus. Este conjunto deberá ser divido en dos partes, una primera que se utilizará para el entrenamiento y ajuste del modelo, así como también la extracción y validación de métricas de performance; y una segunda parte que se utilizará para validación de éste de manera de poder garantizar una mejor calidad del mismo. El tamaño de estas muestras de entrenamiento y validación será definido durante el proyecto. Entregables ● El código del modelo entrenado con python ● Documentación de las métricas referentes a los resultados que se obtuvieron durante el proceso de entrenamiento y validación Desarrollo El desarrollo de la prueba de concepto se realizará en varias etapas que listamos a continuación ● Setup del ambiente necesario (Condas, OpenCV, Keras, TensorFlow, Python, etc...). ● Prepración del conjunto de datos ○ Estructuración de los archivos del corpus para poder procesarlo con las bibliotecas correspondientes. ○ Determinación de la proporción de muestra para train y test. ● Entrenamiento (una o varias iteraciones) ○ Diseño de las diferentes arquitecturas de red neuronal a utilizar ○ Pruebas de preprocesamiento de las imágenes ■ Cambio del esquema de colores, alineación, redimensionamiento, etc... ○ Pruebas de detección y reconocimiento de las palabras con las técnicas de OCR ○ Entrenamiento y ajuste de la red ○ Fine Tunning ○ Extracción de las métricas ● Contraste de las métricas contra el conjunto de validación ● Documentación e Informes de resultados Requisitos previos Disponiblización de parte del equipo de Biblioteca Nacional del Corpus para la realización del entrenamiento. Por Corpus entendemos los archivos de los manuscritos digitalizados con su correspondiente transcripción. Estimación del Esfuerzo El esfuerzo que estimamos para esta prueba de concepto consiste en 80 horas distribuidas entre las diferentes etapas del desarrollo del modelo y la documentación asociada. Inversión y condiciones comerciales La inversión para la ejecución de la prueba de concepto descripta en este documento es de $ 200.000 IVA incluído (doscientos mil pesos) distribuida de la siguiente manera: - $100.000 IVA incuido (cien mil pesos) de desarrollo de software $100.000 IVA incluido (cien mil pesos) investigación y documentación asociada (mano de obra) • La facturación será efectuada una vez entregados los resultados de la prueba de concepto Los trabajos serán iniciados contra recibo de la respectiva orden de compra El monto incluye impuestos • •