Capítulo II : Estructura del Analizador de Estilo 2. ESTRUCTURA DEL ANALIZADOR DE ESTILO 2.0 Introducción. El analizador de estilo es un programa que partiendo de una serie de ficheros de entrada, entre los que destaca el del texto a analizar, generará un fichero de salida con los resultados del análisis sobre un texto. En este análisis se contarán una serie de variables sobre el texto a analizar. Cada variable lleva asociadas un serie de reglas gramaticales, o de reglas de aceptabilidad ; también hay variables que son el resultado de operaciones aritmético-lógicas sobre las anteriores. El resultado de la ejecución será un fichero de salida que contendrá el valor de las diferentes variables analizadas. Esta salida serviría de entrada a una base de datos para poder comparar los resultados de diferentes textos. Luego, la función del programa es sobre todo estadística, contabilizamos una serie de datos mediante el análisis de un texto. El programa dispondrá de un entorno Windows de ventanas que facilitará las diferentes tareas. 6 Capítulo II : Estructura del Analizador de Estilo 2.1 Esquema de entradas y salidas del analizador. Ficheros de reglas Gramaticales y de Aceptabilidad Fichero de Texto Fichero del Diccionario Fichero de Control Fichero de configuración ANALIZADOR DE ESTILO Fichero de Preporcesado Fichero de Resultados Los elementos presentes en el esquema son : Fichero de configuración. Contiene la información necesaria para que el programa empiece a funcionar. Es un fichero fijo que se llama “entorno.ini”. Informa al programa 7 Capítulo II : Estructura del Analizador de Estilo sobre cuales van ser los ficheros de texto, control, preprocesado, diccionario y sobre cual será el directorio donde estarán los ficheros de reglas, tanto gramaticales, como de aceptabilidad. Fichero de control. Es el fichero que tiene la secuencia de variables a analizar por el programa. Contiene las acciones que ejecutará el programa. Es totalmente configurable por el usuario. Aunque con mucho cuidado, puesto que hay ciertas acciones que deben de hacerse en un orden muy concreto (produciéndose error en caso contrario). Puede tener cualquier nombre. El programa ejecutará aquel que venga en el fichero de configuración. Ficheros de reglas gramaticales. Contienen las reglas de gramaticales de la variable que queremos analizar. Serán ficheros de extensión ‘.rgl’ obligatoriamente. Cada variable a analizar sobre el texto tendrá un fichero ‘.rgl’ asociado. Son totalmente modificables y configurables por el usuario. El directorio donde se encuentran todos estos ficheros de reglas viene indicado en el fichero de configuración. Ficheros de reglas de aceptabilidad. 8 Capítulo II : Estructura del Analizador de Estilo Contienen las reglas de aceptabilidad de las variables de aceptabilidad. Estas reglas se aplican después de haber calculado las variables asociadas a reglas gramaticales. Sobre estos resultados calculados, se aplican las reglas de aceptabilidad. Cada variable de aceptabilidad tiene un fichero de reglas de aceptabilidad asociado. Son ficheros totalmente modificables y configurables por el usuario. El directorio donde se encuentran todos estos ficheros de reglas viene indicado en el fichero de configuración, es el mismo directorio de los ficheros de reglas gramaticales. Fichero de diccionario. Es el fichero que contiene el diccionario que se tendrá que cargar para poder aplicar las reglas gramaticales. Su nombre y localización se encuentran en el fichero de configuración. Fichero de preprocesado. Es el fichero que contiene el preprocesado aplicar. Si no está presente, se realizará el preprocesado básico antes de empezar a analizar el texto. Su nombre y localización se encuentran en el fichero de configuración. Fichero de salida. Es el que contendrá, después de ejecutar el programa, los nombres de las variables que queríamos analizar junto con su valor. 9 Capítulo II : Estructura del Analizador de Estilo 2.2 Secuencia de funcionamiento del programa. El programa es un programa estadístico. Su función será contabilizar una serie de variables sobre el texto. Su secuencia de funcionamiento será: 1. Se realiza un preprocesado del texto. Este es un proceso en el cual se transformarán todos los elementos que puedan presentar ambigüedad en el proceso posterior de análisis. También quitamos algunos elementos del texto como puede ser los paréntesis que luego podrían dar problemas. 2. Se realiza las secuencia de acciones del fichero de control. Aquí es donde hacemos el análisis propiamente dicho. 3. Se comprueba que se han analizado todas las variables que se deben analizar. En el caso de que alguna de las variables conserve su valor original de inicialización, se dará un mensaje de error. 4. El programa finaliza. Antes de finalizar, se descargan todos los datos que tenemos en memoria, como sería el caso del diccionario. 10