Inferencia probabilistica de estructuras semánticas.

Anuncio
Inferencia probabilistica de estructuras semánticas.
• Contexto:
Con el auge de Internet y la WWW así como la aparición de las redes sociales,
el modelo de comunicación en la sociedad actual pasa inevitablemente por el
uso de computadores. En la red se pueden encontrar comentarios relativos a
productos, opiniones políticas, debates,… De esta forma, se hace inevitable el
desarrollo de sistemas que traten de manejar, clasificar, interpretar, recuperar…
la información expresada mediante lenguaje natural, que habitualmente no
está estructurada y no puede ser procesada por máquinas. Por otra parte, la
mayoría de los avances relativos a la interacción hombre máquina, pasan por
desarrollar sistemas en los que los humanos puedan comunicarse con las
máquinas mediante el uso del lenguaje natural. El Procesamiento del Lenguaje
Natural (PLN) trata de encontrar soluciones computacionalmente eficaces para
la comunicación entre personas y máquinas por medio del lenguaje natural.
Hasta la década de 1980, la mayoría de los sistemas de PLN se basaban en un
complejo conjunto de reglas diseñadas a mano. A partir de finales de 1980, sin
embargo, la introducción de algoritmos de aprendizaje automático para el
procesamiento del lenguaje supuso una revolución. Estos algoritmos están
basados principalmente en la representación textual de la información y
funcionan muy bien para la recuperación, la segmentación, el chequeado
ortográfico y otras aplicaciones similares, pero son muy limitados a la hora de
interpretar sentencias y extraer información relevante. Sin embargo, éstas son
precisamente las capacidades necesarias para pasar del mero procesamiento
del lenguaje natural a lo que podríamos llamar “Comprensión del Lenguaje
Natural” y supondría un paso adelante en la capacidad de los sistemas que
pretenden hacer uso de este tipo de información.
• Objetivos del proyecto:
El objetivo de este trabajo es dar un paso más allá en lo que a la
representación y el procesamiento del conocimiento se refiere cuando tratamos
diferentes sistemas que hacen uso del PLN. Para ello se estudiarán diferentes
opciones para que los sistemas que utilizan técnicas basadas en
aproximaciones más tradicionales, que consideran principalmente la
información a nivel de palabra, puedan beneficiarse de representaciones más
sofisticadas que consideren por ejemplo información asociada al mundo
exterior o el conocimiento asociado al contexto narrativo del texto. Así mismo
se considerarán las técnicas más adecuadas para el tratamiento de estas
representaciones.
• Tareas a realizar:
• T1 Revisión bibliográfica. En esta tarea se llevará a cabo una revisión
exhaustiva de las técnicas que se emplean actualmente en los sistemas
que tratan con PLN, así como las técnicas más novedosas en las que se
utilizan representaciones más ambiciosas del conocimiento.
• T2 Introducción de la Semántica. En este punto se trata de centrarse
en las aproximaciones que hacen uso de la semántica tanto al nivel
intrínseco de cada documento como en lo que al conocimiento del mundo
exterior se refiere. Para ello se estudiarán diferentes técnicas basadas en
aprendizaje automático como Latent Semantic Analysis, Latent Dirichlet
allocation, MapReduce, así como aproximaciones más novedosas
relacionadas con Redes Bayesianas o Deep Learning.
• T3 Búsqueda de herramientas. Además de las bases teóricas de las
aproximaciones analizadas se pretende llevar a cabo una búsqueda de las
herramientas disponibles que hagan uso de las técnicas propuestas.
Además el alumno deberá familiarizarse con el uso de paquetes que
incluyen herramientas de machine learning como el scikit-learn.
• T4 Implementación. En esta tarea se implementará el software
necesario para evaluar las aproximaciones propuestas en diferentes
aplicaciones relacionadas con el PLN. Esta tarea conlleva un trabajo
relacionado con el uso del software implementado en las herramientas
arriba descritas así como con la implementación de software desarrollado
por el propio alumno. El alumno necesitará hacer uso del lenguaje de
programación Python.
• T5 Validación. En esta tarea se validarán las aproximaciones propuestas
mediante un serie de resultados experimentales que nos darán una idea
del comportamiento real de los sistemas. Para ello será necesario hacer
uso de diferentes bases de datos.
• Otros aspectos relacionados con el desarrollo del trabajo:
• Tutores: Raquel Justo (UPV/EHU)y María Inés Torres (UPV/EHU).
• Lugar de trabajo: Trabajo personal del alumno no presencial + reuniones
periódicas en UPV/EHU (Leioa-Bizkaia).
• Duración: 1 curso académico (Comienzo Octubre 2015)
• Contacto: [email protected], [email protected]
Descargar