8. CONCLUSIONES Y LÍNEAS FUTURAS DE INVESTIGACIÓN

Anuncio
Capítulo 8. Conclusiones y líneas futuras de investigación
Pagina 149
8. CONCLUSIONES Y LÍNEAS
FUTURAS DE INVESTIGACIÓN
En este último capítulo, se pretende presentar de forma breve, los puntos
fundamentales del trabajo desarrollado, exponer las principales conclusiones, y discutir
las líneas de investigación que quedan abiertas.
8.1 CONCLUSIONES
Podemos decir, que el objetivo que nos planteamos en un primer momento, se ha
conseguido. Hemos conseguido obtener una herramienta capaz de segmentar
sintagmáticamente un corpus, a partir de un corpus categorizado, mediante la
realización de un análisis en 2 niveles. Esta herramienta, con las gramáticas adecuadas,
permitirá que los niveles posteriores en procesos de conversión texto-voz, puedan
establecer más cómoda y fácilmente, aquellos lugares de la frase en los cuales, su
estructura sintáctica permita la introducción de pausas, de cara a conseguir una lectura
automática de la forma más natural que sea posible.
Esa segmentación, se ha conseguido, acoplando al sistema inicial del que se
partió, un módulo de fragmentación de frases, el cual las dividirá, basándose en
información morfo-sintáctica proporcionada por el bloque de categorización de textos,
que precede al nuestro en la estructura del conversor texto-voz. Una vez se conseguía
segmentar el texto de entrada, se realizaban, como ya se ha dicho, dos análisis a
distintos niveles; el primero, intra-sintagmático, y el segundo a nivel inter-sintagmático.
En el primer nivel, el programa analiza cómo están formados cada uno de los
sintagmas simples en los que se divide cada fragmento de una frase, usando
información gramatical almacenada en una gramática, diseñada específicamente para
este nivel. En el segundo nivel, se buscan las diferentes relaciones que puede haber
entre los sintagmas pertenecientes a una misma frase. En esta segunda fase,
dependiendo de la gramática que se incorpore, se estudian las relaciones comparativas,
las relaciones de coordinación, las relaciones de complemento (una clase de sintagmas
que complementan a otra clase: un sintagma preposicional complementando a un
sintagma nominal, a un sintagma adjetival, o incluso a otro sintagma preposicional), etc.
Para la realización de ambos análisis, se ha utilizado la misma técnica; el
algoritmo CYK en su versión ascendente, el cual se utiliza para comprobar que una
frase pertenece al lenguaje (castellano en nuestro caso) y dos gramáticas, una para cada
Capítulo 8. Conclusiones y líneas futuras de investigación
Pagina 150
nivel de análisis sintáctico. Se han hecho pruebas con dos gramáticas de contexto libre
(Montero[99]), aunque en realidad se trata de gramáticas regulares, comprobándose su
robustez en cuanto a capacidad de análisis.
La salida principal que resultará del procesado sintagmático, será un archivo,
donde se especifican los fragmentos en que se ha dividido cada frase, los sintagmas que
componen dichos fragmentos y la categorización gramatical sin ambigüedad de las
palabras de la frase. A partir de esto, se podrá crear una base de datos de referencia,
donde aparecerán los textos analizados, así como porcentajes del total de frases
analizadas correctamente, total de fragmentos analizados correctamente, media de
fragmentos en los que se divide una frase, longitud media de las frases y los fragmentos
analizados (en número de palabras), y al fin y al cabo, información que nos puede dar
una visión global de las prestaciones que tiene nuestro sistema.
Finalmente, se ha logrado integrar todo el sistema completo, en un entorno
gráfico diseñado con la herramienta "ObjectWindows", el cual proporciona una interfaz
más atractiva entre el usuario y el analizador.
Como novedad, se ha integrado en el entorno gráfico desarrollado, el módulo
previo (dentro de la estructura de un conversor texto-voz) al análisis sintagmático que
realiza nuestro sistema. Este bloque al que nos referimos, es aquel que preprocesa y
categoriza gramaticalmente el texto de entrada, y que está explicado en Jiménez[99] y
Montero [2000].
8.2 LÍNEAS FUTURAS DE INVESTIGACIÓN
Entre las posibles líneas que quedan abiertas con este proyecto podemos
destacar:
•
•
•
•
•
Incorporación del compilador de gramáticas de contexto libre, actualmente
disponible como una herramienta separada para entorno MSDOS.
Creación semiautomática de un corpus segmentado del castellano, que sirva
de referencia para el desarrollo de gramáticas generales de orientación
sintagmática, aprovechando la disponibilidad de los córpora de
entrenamiento y evaluación ya categorizados.
Desarrollo y evaluación formal de gramáticas robustas para el castellano,
empleando la herramienta, con especial énfasis en la estrategia de quedarse
con el "análisis más simple" (Montero[99]).
Estudiar técnicas semiautomáticas de perfeccionamiento o inferencia de
gramáticas, que corrijan los errores de una gramática dada, sea de modo
supervisado o no supervisado.
Mejora de la presentación de los árboles sintácticos: visualización en modo
gráfico, resaltar las diferencias entre 2 análisis similares dados
(Montero[92]), etc.
Capítulo 8. Conclusiones y líneas futuras de investigación
8.
Pagina 151
CONCLUSIONES Y LÍNEAS FUTURAS DE INVESTIGACIÓN .............................................149
8.1
Conclusiones .......................................................................................................................149
8.2
Líneas futuras de investigación ............................................................................................150
Descargar