Ami Pro - TESIS.SAM - No

Anuncio
Presentación del Trabajo
Capítulo 1: Presentación del Trabajo
1.1
Introducción
La aparición de los traductores en la computación marcaron un hito
haciendo que la programación se simplificara y que la computación se pudiera
aplicar a más áreas de la ciencia y la tecnología, ya que la obtención de
programas se haría más fácil a medida que aparecían nuevos y mejores
lenguajes de programación.
Se puede definir a un traductor como un programa que convierte o
traduce un texto de entrada escrito en un lenguaje A a otro texto de salida
escrito en un lenguaje B. Gráficamente:
7H[WRHQ
/HQJXDMH$
7UDGXFWRU
7H[WRHQ
/HQJXDMH%
Fig. 1 Función de un traductor.
Al proceso de traducción se lo divide, por conveniencia , en varias fases,
entre las que se destacan: el análisis lexicográfico, el análisis sintáctico, el
análisis semántico y la generación de código. La escritura del código fuente
para las fases de análisis sintáctico, lexicográfico y semántico son en general
demasiado complicadas, y la gran cantidad de errores que se cometen
desalientan al programador a usar la teoría de los lenguajes formales en sus
aplicaciones finales. Por ejemplo, no es común ver un programa que valide la
entrada de datos por medio del uso de un lenguaje artificial creado a tal efecto
(la carga de un sistema de ecuaciones e inecuaciones puede ser realizada más
fácilmente usando un lenguaje artificial para la especificación de las mismas).
Este trabajo presenta un generador de analizadores sintácticos y un
generador de analizadores lexicográficos, que intentarán ser una buena
solución al problema expuesto previamente, para que el programador sólo
tenga que concentrar sus esfuerzos en su objetivo sin la necesidad de
investigar en profundidad la teoría subyacente en la construcción de los
analizadores.
La técnica de análisis lexicográfico que utilizarán los analizadores
lexicográficos que se obtengan con el generador presentado en este trabajo es
1
Presentación del Trabajo
por medio de autómatas finitos determinísticos que eventualmente se
construyan para los componentes léxicos a buscar dentro del texto de entrada.
Los componentes léxicos podrán ser especificados por medio de expresiones
regulares.
Los analizadores sintácticos que se obtengan con el generador
presentado en este trabajo usarán la técnica LR(1) simple.
La salida de los generadores es un módulo fuente en C++ con el
respectivo analizador (sintáctico o lexicográfico). La implementación realizada
incluye la posibilidad de la generación y uso del analizador en tiempo de
ejecución, lo que permite cambiar dinámicamente de analizador, durante la
ejecución del programa.
La tendencia actual en la Ingeniería de Software es el uso de
generadores de programas para desarrollar las partes del sistema que no
requieran de la reiterada intervención de la inteligencia humana. Por ejemplo,
hoy en día se usan generadores de programas para el desarrollo de la interfase
en pantalla para programas que trabajarán en entornos gráficos tipo Windows,
Presentation Manager de OS/2, Macintosh y X Window. Se sabe que el
aprendizaje de la programación de una interfase gráfica es un poco
complicado, pero es repetitivo y rutinario, por lo tanto se implantaron
generadores que hagan ese trabajo. Lo mismo ocurre con la Teoría de los
Lenguajes Formales: la teoría que se maneja es compleja, pero la tarea de la
construcción de un analizador sintáctico es repetitivo y rutinario, y puede ser
automatizado.
Los generadores presentados en este trabajo intentarán ayudar al
programador en el desarrollo de traductores (de un lenguaje a otro, sean
intérpretes o compiladores), de rutinas para la recuperación inteligente de la
información, y en la utilización de la Teoría de los Lenguajes Formales en
otras áreas, como por ejemplo, el reconocimiento de rasgos distintivos en
circuitos electrónicos impresos por medio de la concordancia de patrones
(Jarvis [1976]).
En nuestro ambiente informático existen herramientas similares a las
que se presentan en este trabajo: LEX es similar al generador de analizadores
lexicográficos y YACC es similar al generador de analizadores sintácticos.
Pero hay ciertas diferencias fundamentales con ellos, algunas de las cuales son
importantes mejoras introducidas en este trabajo. Las mismas se detallan a
continuación.
2
Presentación del Trabajo
1. Uso del C++ como lenguaje objeto. Se hace uso del Paradigma
Orientado a Objeto. En particular, se hace uso de templates (familias de
clases y familias de funciones, sólo presente en C++, Stroustrup [1994])
para la implementación de los analizadores. Se organiza adecuadamente
el código generado y se encapsula la complejidad del funcionamiento de
los analizadores.
2. La modificación manual de los analizadores generados es mucho más
fácil puesto que se separa el código que es igual para todos los
analizadores del código que cambia entre ellos, y se los da en módulos
separados.
3. Posibilidad de mostrar las tablas generadas en formato texto para su
posterior lectura por parte del programador.
4. El generador de autómatas finitos determinísticos (AFDs) a partir de
expresiones regulares usa un lenguaje para la especificación de la
expresión regular fuente similar al usado por LEX, pero con sintaxis
más simple. De esta manera es más fácil y directa la lectura de una
expresión regular.
5. Es posible reusar los generadores en programas del usuario. De esta
manera, es posible cambiar el analizador en tiempo de ejecución. Por
ejemplo, para la recuperación de la información en bases de datos se
pueden usar expresiones regulares; el Paradox y el dBase V usan un
lenguaje simplificado de expresiones regulares, en el que no es posible
el uso de paréntesis ni el operador '|'.
6. Se documenta la estructura de las tablas, y las mismas se implementan
en estructuras simples, a los efectos de poder retocarlas en caso de ser
necesario. En LEX y en YACC esto no es posible.
7. Posibilidad de reusar trabajos hechos y compilados previamente, sin la
necesidad de retocar nada, debido a la independencia de los módulos
generados. Los módulos generados por YACC y por LEX son muy
interdependientes, y es imposible encadenarlos con otros trabajos
hechos anteriormente debido a la colisión de nombres.
8. Debido a que se separan las acciones semánticas en un módulo aparte de
donde se realiza el análisis sintáctico, es más fácil la depuración de las
mismas. En YACC es demasiado complicado depurar las acciones
semánticas. Los analizadores sintácticos ni los lexicográficos no se
3
Presentación del Trabajo
depuran, el código que los implementa ya fue depurado por el autor de
este trabajo.
9. La generación de códigos fuentes en otro lenguaje distinto al C++ es
posible escribiendo solamente el código que imprime las tablas y
rescribiendo el código que implementa los analizadores (la biblioteca de
soporte).
10.A los dispositivos de E/S los elige el usuario de los generadores. No se
hace la imposición de usar la entrada y la salida estándar del sistema
operativo, como ocurre en YACC y en LEX.
En el punto 5 se habla de la posibilidad de reusar los generadores en
programas del usuario. De hecho, los generadores han sido concebidos como
bibliotecas de código C++. Para poder usarlas hace falta escribir un programa
que haga uso de esas bibliotecas. A ese programa que se escribe se lo
denomina usuario de esas bibliotecas. Luego, los programas generadores aquí
presentados son en realidad programas que usan las bibliotecas de soporte. Por
lo tanto, la reusabilidad de los generadores es más directa y simple, y son los
dos primeros ejemplos de uso que se dan en el trabajo.
Como ejemplos de aplicación, los cuales podrán ser de mucha utilidad
para los estudiantes de la cátedra de Compiladores, se incluyen los siguientes:
El programa generador de analizadores sintácticos y analizadores
lexicográficos a partir de una gramática, que da como salida un texto en
C++. Secciones 7.3, 7.4, 20.1 y 20.2.
El programa generador de autómatas finitos determinísticos a partir de
expresiones regulares, que da como salida un texto en C++ con el AFD.
Secciones 6.7, 22.1 y 22.2.
Un programa para validar esquemas deductivos por medio de la Teoría
Semántica del Cálculo Proposicional. Sección 11.9, 11.10, 12.12 y 12.13. Se
muestra el uso del generador de analizadores sintácticos y del generador de
analizadores lexicográficos.
Una calculadora simple. Capítulo 14. Se muestra generador de analizadores
sintácticos y del generador de analizadores lexicográficos.
Consultas a archivos bases de datos BCE. Capítulo 15. Se muestra el uso del
generador de AFDs usado por el generador de analizadores lexicográficos.
El generador de AFDs es encadenado en el programa final.
4
Presentación del Trabajo
Un traductor sencillo para un lenguaje simple, y un intérprete para el código
objeto generado por el traductor. Capítulo 16. Se muestra el uso del
generador de analizadores sintácticos y del generador de analizadores
lexicográficos. Este ejemplo puede servir de mucha utilidad a estudiantes de
la cátedra de Compiladores.
La interfase en pantalla de los ejemplos de aplicación fueron todos
desarrollados para Windows 3.1 o posterior. La parte más importante de ellos,
la que hace uso de los fuentes generados por los generadores de este trabajo, es
portable a cualquier sistema operativo. Los códigos fuentes son también
compilables con Borland C++ 2.0 para OS/2, sin ninguna modificación;
funcionarán usando el Presentation Manager. Los fuentes y ejecutables de los
ejemplos se incluye en el disco que acompaña a este trabajo, a efectos de que
puedan ser mejorados por algún interesado.
Para los programas generadores, en el disco que acompaña este trabajo
se incluye una versión que funciona bajo Windows y otra bajo DOS. El código
fuente de las versiones Windows de los generadores son compilables sin
ninguna modificación con Borland C++ 2.0 para OS/2, se podrá obtener una
nueva versión que funcionará bajo Presentation Manager de OS/2 Warp. El
código fuente de las versiones modo caracter de los generadores se podrán
compilar sin ninguna modificación con Borland C++ 2.0 para OS/2, y obtener
así una nueva versión que funcionará en OS/2 modo caracter. La versión modo
caracter del ejecutable de los generadores funcionarán sin problemas bajo
Windows 95 en modo caracter, así como también las versiones gráficas.
Debido a que en la bibliografía de computación no existe un documento
que explique cómo nacen las gramáticas generativas, en el capítulo 17 se da
una introducción a las mismas, tratando de explicar cómo fueron concebidas
por Chomsky.
El presente trabajo intenta servir de bibliografía para los interesados en
escribir analizadores sintácticos y/o lexicográficos, así como también para usar
la Teoría de los Lenguajes Formales en otras áreas no mencionadas aquí. No es
intención de este trabajo el de servir como bibliografía para la escritura de
compiladores ni de intérpretes, ya que se deben tratar otros temas como por
ejemplo la implementación de los espacios de nombres, lo que está fuera del
ámbito del tema tratado en este trabajo.
5
Presentación del Trabajo
1.2
Organización del trabajo
Este trabajo está organizado en 4 partes a saber:
Parte 1 - Marco teórico: en esta parte se explicarán los algoritmos de
generación usados por los generadores.
Parte 2 - Implementación de los generadores: en esta parte se documentará
la implementación realizada para los generadores.
Parte 3 - Documentación para el usuario: en esta parte se incluye la
documentación que necesitará el usuario de los generadores. Cada capítulo
debe ser tomado como un libro aparte.
Parte 4 - Ejemplos de aplicación: en esta parte se presentan y documentan
los ejemplos de uso de los generadores.
Parte 5 - Anexos, Códigos Fuentes y Conclusión: en esta parte se encontrará
información adicional relativa a este trabajo, el código fuente de la
implementación documentada en la parte 2 y la conclusión.
1.3
Consideraciones acerca de la Implementación
El software de la implementación de los algoritmos se realizó en C++
debido a 3 razones fundamentales:
1. El alto nivel de reusabilidad del lenguaje.
2. Es un lenguaje que ofrece todo lo que un Ingeniero en Software puede
pedirle a un lenguaje de programación. Hay disponibles muchas
herramientas para trabajar con C++.
3. Está disponible a muy buen precio para muchos sistemas operativos.
Este trabajo no pretende ser un curso de programación. Por esta razón,
en la documentación de las implementaciones realizadas se trata en detalle los
fundamentos teóricos y en resumen las implementaciones en C++.
6
Parte 1. Marco Teórico
7
Introducción a la Teoría de los Lenguajes Formales
Capítulo 2: Introducción a la Teoría de los Lenguajes Formales
2.1
Introducción
Previo a la lectura de los capítulos que se encuentran en la Parte II se
aconseja leer el Capítulo 17 en la Parte V en donde se da una correcta
introducción a las gramáticas generativas y la lingüística matemática. Puede
consultar además la bibliografía que trata la teoría de compiladores.
En los puntos siguientes se hace una breve introducción a los conceptos
fundamentales usados por los 2 generadores y en los capítulos siguientes se
explican detalladamente cada uno de los algoritmos de análisis y de
generación. Puede ser que el lector que se esté iniciando en la teoría de los
lenguajes formales necesite ver algunos ejemplos; en este capítulo se minimiza
la inclusión de ejemplos puesto que los conceptos que introduce son muy
básicos, por lo que se aconseja leer la bibliografía sobre compiladores e
intérpretes.
2.2
Lenguajes y Gramáticas
2.2.1 Alfabeto
Se denomina Alfabeto de un lenguaje a los caracteres que pueden
formar parte de las oraciones del mismo. Para el Castellano tenemos como
Alfabeto a todas las letras y los signos de puntuación. Se especifica como un
conjunto de elementos.
2.2.2 Cadena o Tira de Caracteres
La noción más básica de la Teoría de los Lenguajes es la tira o cadena
de caracteres, que está formada por la concatenación de caracteres.
La cadena mínima o nula se denomina λ (lambda).
8
Introducción a la Teoría de los Lenguajes Formales
2.2.3 Lenguaje
Un lenguaje es, en general, un conjunto de cadenas de caracteres. A
cada cadena de caracteres la denominaremos oraciones. Está formado por los
dos elementos siguientes
1. Un diccionario, que indica los significados de las palabras.
2. Un conjunto de reglas para describir las oraciones válidas del lenguaje.
Este conjunto de reglas forma la gramática del lenguaje.
Se denomina semántica al estudio del significado de las oraciones y
frases de un lenguaje, y su interpretación.
Se denomina sintaxis al estudio de la estructura del lenguaje. La sintaxis
de las oraciones del lenguaje (la estructura del lenguaje) se la explicita a través
de reglas de producciones.
Se denomina análisis sintáctico a la operación que se ejecuta para
verificar la gramaticalidad de una oración. Es un proceso de validación del
texto fuente de entrada. En cualquier situación donde se requiera validar la
entrada de datos se puede usar el análisis sintáctico.
Se denomina análisis semántico al proceso que se ejecuta para verificar
la coherencia en el significado de una oración.
Se denomina análisis lexicográfico a un caso especial de análisis
sintáctico en donde se usan técnicas especiales y más rápidas para tratar con la
entrada de datos (texto fuente). Lea también el punto 2.3.5.
2.2.4 Noción de Gramática
La noción de gramática que aquí se presenta es debida a Chomsky en el
año 59.
Una gramática generativa transformacional está caracterizada por una
cuádrupla ordenada como la siguiente:
G=(N,T,R,O)
donde:
9
Introducción a la Teoría de los Lenguajes Formales
N: es el conjunto de símbolos no terminales usados para construir las reglas de
la gramática y no figuran en las oraciones del lenguaje. A veces se los
denomina como no terminales o metanociones.
T: es el conjunto de símbolos terminales . Cualquier oración del lenguaje debe
ser una cadena de símbolos de T, según la estructura que especifiquen las
reglas. A veces pueden ser llamados directamente terminales o nociones.
R: es el conjunto de las reglas de rescritura de la gramática. Tienen la forma
cadena1 --> Cadena2.
O: es el símbolo más importante del conjunto N, se denomina símbolo inicial,
axioma, símbolo distinguido o cabeza de lenguaje. Se usa para comenzar las
derivaciones en el análisis sintáctico de las oraciones.
Al lenguaje L generado por la gramática G está formado por todas las
oraciones tales que se puede encontrar a partir de O, por medio de aplicaciones
sucesivas de las reglas de la gramática. Se denota por
L(G) = { α / O -*-> α }
2.2.5 El conjunto de Reglas y la Clasificación de Chomsky
La clasificación publicada por Chomsky en el año 1959 introduce 4
tipos de gramáticas a base de cambiar solamente el tipo de las reglas de
derivación que se encuentran en el conjunto R.
A las gramáticas del Tipo 0 y del Tipo 1 se las suele denominar
gramáticas generativas trasnformacionales. Lo de transformacional hace
referencia al hecho de que transforman una secuencia de caracteres en otra
secuencia de caracteres en un solo paso.
Gramáticas de Tipo 0 o gramática con estructura de frase
Las reglas en este tipo de gramática tienen la forma:
α ---> β donde α pertenece a (N U T)+ y β a (N U T)*
Por la definición dada, la regla que deriva en λ pertenece al lenguaje.
10
Introducción a la Teoría de los Lenguajes Formales
Este tipo engloba a todos los otros 3 tipos de gramática. Actualmente no
se publicó un trabajo en el que se haya presentado un analizador sintáctico que
trabaje con una gramática de éste tipo.
Se dice que la Máquina de Turing puede tratar este tipo de gramática.
Las máquinas de Turing son bidireccionales (pueden ir hacia adelante o hacia
atrás en la examinación de los caracteres de entrada).
Gramáticas de Tipo 1 o gramática sensible al contexto
Las reglas tienen la forma:
α A β ---> α γ β
donde A está en Ny, α y β en (N U T) * y γ en (N U T)+
Se llama sensible al contexto por que cambia A por gamma sólo en el
contexto formado por alfa ... beta.
Aquí se puede observar que el problema de número que tenemos al
trabajar con lenguajes naturales (los que hablamos los humanos) puede ser
tratado con gramáticas de este tipo (por ejemplo, la concordancia del número
del verbo con el del sujeto).
Se puede construir un autómata bidireccional para tratar esta gramática.
Gramáticas de Tipo 2 o gramáticas de contexto libre
La forma de las reglas es:
A --> α
donde A está en N y α en (N U T)*
Se llama de contexto libre porque se puede cambiar A por α
independientemente del contexto en el que aparezca A.
Este tipo de gramáticas son las que se usan para los lenguajes de
computación. Cuando se utilice el término gramática en capítulos siguientes,
se quiere decir gramáticas de Tipo 2 o 3.
Para tratar estas gramáticas es necesario un autómata de pila.
11
Introducción a la Teoría de los Lenguajes Formales
Gramáticas de Tipo 3 o gramáticas regulares
Las reglas pueden tener una de las dos formas siguientes:
A ---> a B o bien
A ---> a
donde A y B son de N y a de T.
El no terminal B puede aparecer a la izquierda de a en la regla.
Tres años antes de la presentación de esta clasificación, Kleene estudió
por primera vez a las expresiones regulares. Resultó ser que las expresiones
regulares es otra forma muy compacta de escribir una gramática del Tipo 4.
El tratamiento de este tipo de gramáticas es a través de autómatas
finitos.
2.3
Gramáticas de Contexto Libre
En esta sección estudiaremos conceptos fundamentales acerca de este
tipo de gramáticas, para pasar al capítulo siguiente en donde se utilizarán las
operaciones fundamentales con ellas, que serán usados más adelantes.
2.3.1 Recursividad
La recursividad es un mecanismo amplificador que permite definir
formas complicadas de un lenguaje con muy pocas reglas.
Veamos un ejemplo sencillo: sea el lenguaje cuyas oraciones son
números enteros según la siguiente descripción dada por extensión:
L = { números sin signos formados a partir de la combinación de los dígitos
comprendidos entre el 0 y el 9, por ejemplo el 457 }
Para construir las reglas de la gramática que den cuenta de la estructura
de este lenguaje se podrían dar las siguientes reglas:
N ---> D
N ---> D D
12
Introducción a la Teoría de los Lenguajes Formales
N ---> D D D
D ---> 0 | 1 | 2 | ... | 9
Se observa que la gramática construida no explica la estructura de los
números de 4 o más dígitos. Aún más, si consideramos la posibilidad de que
hay números con gran cantidad de dígitos tendríamos una gramática con una
gran cantidad de reglas, si es que utilizamos esta forma de escribirla. Entonces,
como solución aparece la recursividad, y a la gramática la rescribiríamos de la
siguiente manera:
N ---> N D
N ---> D
D ---> 0 | 1 | 2 | ... | 9
2.3.2 Arbol de Análisis Sintáctico
Es una representación gráfica del resultado obtenido al aplicar las reglas
de la gramática partiendo de O (el símbolo inicial) hasta llegar a la oración que
se esté analizando sintácticamente.
Al proceso de análisis sintáctico se lo menciona muchas veces como el
proceso de construir el árbol de análisis sintáctico de la oración.
2.3.3 Arbol sintáctico
Es una versión simplificada de un árbol de análisis sintáctico.
Los nodos de un árbol sintáctico son símbolos terminales y representan
operaciones entre ellos y el orden en que deben ser ejecutadas.
Un árbol sintáctico puede construirse a partir del análisis sintáctico del
texto de entrada.
La definición de árbol sintáctico dada aquí es la que sirve a los efectos
de este trabajo y puede no coincidir con alguna definición que se encuentre en
la bibliografía sobre compiladores. En términos de esta definición, cualquier
árbol que se diga ser árbol sintáctico y que tenga nodos con no terminales será
considerado simplemente árbol.
En el capítulo 3 se utilizan árboles sintácticos para expresiones
regulares.
13
Introducción a la Teoría de los Lenguajes Formales
2.3.4 Ambigüedad de una Gramática
Una gramática es ambigua si el lenguaje definido por la misma tiene
alguna oración que tenga más de un árbol de análisis sintáctico.
Se llama ambigua a la gramática y no al lenguaje que define, puesto que
frecuentemente es posible modificar la gramática para que deje de ser ambigua
sin tocar para nada el lenguaje implicado. Pero hay lenguajes para los que no
existen más que gramáticas ambiguas: a estos lenguajes se les llama
"ambiguos intrínsecos".
La ambigüedad de una gramática es una propiedad indecidible, lo que
significa que no existe ningún algoritmo que acepte una gramática y determine
con certeza y en un tiempo finito si la gramática es ambigua o no.
Una gramática que es tratable con la técnica LR(k) o con la técnica
LL(k) no es ambigua, por lo que resulta un buen método de determinar la
ambigüedad.
2.3.5 Gramáticas y el Análisis Sintáctico
La construcción de un analizador sintáctico consiste en el desarrollo de
subrutinas que revisen el código fuente de entrada y verificar que el mismo
cumple con las reglas gramaticales. Si cumple diremos que es gramaticalmente
correcta, lo cual no significa que sea entendible.
Existen varias técnicas de análisis sintácticos entre las que se destacan 2
grupos principales: la técnica LR y la LL.
La técnica LR(k) (Left to right scanning - Rightmost parsing, examen
de izquierda a derecha - análisis a derechas), es un método de análisis
ascendente, esto es, se parte de la oración para llegar al símbolo inicial O. Ha
sido presentado al público por primera vez por Knuth [1965]. Reconocen la
gran mayoría de los lenguajes de programación que se puedan generar con
gramáticas de contexto libre. En general su uso no tiene restricciones, pero la
construcción del analizador sintáctico es demasiado complicada por lo que se
hace necesario disponer de generadores de analizadores sintácticos para
simplificar la tarea.
La técnica LL(k) (Left to right scanning - Leftmost parsing, examen de
izquierda a derecha - análisis a izquierdas) es un método descendente, esto es,
parte desde el símbolo inicial O para llegar a la oración. Las técnicas de
análisis predictivos fueron estudiadas a fondo por Knuth [1971]. El método es
14
Introducción a la Teoría de los Lenguajes Formales
mucho más restrictivo que el LR, ya que el número de gramáticas que se puede
tratar es mucho menor. Gráficamente:
*UDPiWLFDV/5
*UDPiWLFDV//
5HVXPHQJUiILFRH[WUDtGRGH6DQFKLV/ORUFD*DOiQ3DVFXDO>@
Fig. 2 Comparación del número de gramáticas tratables con la
técnica LR y el número de gramáticas tratables con la
técnica LL.
El generador de analizadores presentado en este trabajo genera
analizadores que trabajan con la técnica LR(1) Simple, a la que se le suele
llamar SLR(1) o simplemente SLR.
2.3.6 El Análisis Lexicográfico
La función principal del análisis lexicográfico es la de convertir
secuencias de caracteres de entradas en símbolos léxicos.
Hay varias razones para dividir la fase de análisis de la traducción en
análisis lexicográfico y análisis sintáctico:
1. Un diseño sencillo es la consideración más importante. El uso de un
analizador lexicográfico simplifica el analizador sintáctico. Imagine sino
un analizador sintáctico que incluya las convenciones de comentarios y
espacios en blanco.
2. Se mejora la eficiencia del compilador. Un analizador léxico
independiente permite construir un procesador especializado y
potencialmente más eficiente para esta función. Gran parte de tiempo del
análisis se consume en leer el programa fuente y separarlo en símbolos
léxicos.
15
Introducción a la Teoría de los Lenguajes Formales
3. Se mejora la transportabilidad del compilador. Las peculiaridades del
alfabeto de entrada y otras anomalías propias de los dispositivos de
entrada pueden limitarse al analizador lexicográfico.
La forma más simple de especificar símbolos léxicos y la que más se usa
actualmente es mediante el uso de expresiones regulares. La construcción de
un analizador lexicográfico a partir de estas expresiones regulares es una tarea
complicada, para lo cual es necesario disponer de un generador de
analizadores lexicográficos.
Muchas veces se escuchará decir que la construcción manual del
analizador lexicográfico resulta en uno que funciona mucho más rápido que el
que se obtendría a través del uso de un generador. El generador que se
presenta en este trabajo es un intento de solución a este problema.
La inclusión de un analizador lexicográfico en el proyecto de
construcción de un traductor implica la construcción de otro analizador
sintáctico, sólo que para una gramática del Tipo 3 de la clasificación de
Chomsky la cual es tratada con técnicas distintas que las del Tipo 2. Las
oraciones encontradas por ese analizador son pasadas al analizador sintáctico
del lenguaje fuente, y como consecuencia directa se tiene la simplificación de
la gramática del lenguaje fuente. Muchas veces este concepto es confundido.
2.3.7 Esquemas de Traducción
Se define un esquema de traducción como un sistema formal del tipo:
EDT = { N, Te, Ts, R, O }
donde
N: es el conjunto finito de símbolos no terminales.
Te: es el conjunto finito de símbolos terminales del lenguaje de entrada o
fuente.
Ts: es el conjunto finito de símbolos terminales del lenguaje de salida u objeto.
R: es el conjunto finito de reglas de traducción que poseen la estructura:
A ---> α , β
donde
A pertenece a N
16
Introducción a la Teoría de los Lenguajes Formales
α pertenece a ( N U Te)*
β pertenece a ( N U Ts)*
En cualquier caso se cumple que
N intersección (Te U Ts) = { }
O: es el símbolo inicial.
La estructura del lenguaje de salida se puede explicar con la gramática
siguiente:
Gs = { N, Ts, P, O }
donde
N: es el conjunto de símbolos no terminales del lenguaje fuente. O es un
elemento de este conjunto.
Ts: es el mismo conjunto de símbolos terminales del esquema de traducción.
P: es el conjunto de reglas de la gramática, cuyos elementos son las reglas que:
P = { A ---> β / (A ---> α , β) era una regla de traducción del esquema }
2.3.8 Acciones Semánticas / Rutinas Semánticas
En la bibliografía utilizada se encontrarán definiciones distintas de lo
que son las acciones semánticas y las rutinas semánticas.
En Sanchis Llorca-Galán Pascual [1986], los términos acciones
semánticas se aplican a los autómatas finitos, y los términos rutinas
semánticas a los analizadores sintácticos (que en definitiva son también
autómatas).
En Aho-Sethi-Ullman [1990], los términos acciones semánticas se
aplican a los analizadores sintácticos. Los términos rutinas semánticas no son
utilizados en ese libro.
A los efectos de unificar conceptos, en este trabajo se tomarán como
sinónimos a los términos acciones semánticas y rutinas semánticas,
17
Introducción a la Teoría de los Lenguajes Formales
fundamentado en que existe una analogía entre un analizador sintáctico y un
autómata finito.
La definición utilizada será la siguiente: se denomina acciones
semánticas a los fragmentos de oraciones de un lenguaje intercalados en la
parte derecha de una regla de una gramática libre de contexto.
En la definición dada en el punto anterior se habló de esquemas de
traducción, introduciendo un nuevo tipo de reglas en las que en la parte
derecha se encuentran cadenas de símbolos terminales del lenguaje objeto (o
de salida). Se transcribe la forma general de las reglas de traducción:
A ---> α , β
Aquí, β es la cadena de símbolos terminales del lenguaje objeto. Luego, se
denomina acciones semánticas a las acciones que se ejecutan para producir
esa cadena de símbolos terminales del lenguaje objeto.
En general, las acciones semánticas se escriben con fragmentos de
oraciones de un lenguaje distinto al fuente y al objeto. En este trabajo se utiliza
el lenguaje C++ para escribir acciones semánticas.
18
Algoritmos Usados por el Generador de Autómatas Finitos Determinísticos
Capítulo 3: Algoritmos Usados por el Generador de Autómatas
Finitos Determinísticos
3.1
Introducción
En este capítulo se presentan los algoritmos usados por el generador de
autómatas finitos determinísticos que sirve como base principal para la
construcción de un analizador lexicográfico.
A diferencia del capítulo 2, en este capítulo se documenta en detalle
cada aspecto de los algoritmos, y se incluyen ejemplos que clarificarán su
funcionamiento.
Durante su lectura no se debe olvidar que el tratamiento de lenguajes
con expresiones regulares es un caso especial de análisis sintáctico
(implícitamente se está trabajando con una gramática del Tipo 3), al que
comúnmente se lo denomina análisis lexicográfico. La teoría aquí presentada
se puede aplicar a muchas áreas de la ciencia, y no sólo al análisis
lexicográfico.
3.2
Arbol Sintáctico para una Expresión Regular
3.2.1 Descripción
Se construirá un árbol sintáctico para la expresión regular a partir del
análisis sintáctico de la misma.
Como ya se sabe, en un árbol hay 2 tipos de nodos: nodos hojas y nodos
que no son hojas que aquí representarán operaciones. En un árbol sintáctico de
una expresión regular los nodos hojas representarán un caracter (o símbolo
terminal) que aparece en el texto fuente, el resto de los nodos representarán
operaciones con ellos.
El lenguaje para expresiones regulares con el que trabajaremos es el que
se presenta en la sección 10.3. En la misma se definen 5 operaciones, lo que
nos da 6 tipos de nodos posibles a saber:
1. Nodo hoja: se representa con un círculo y dentro del mismo el caracter
que hay en esa posición.
19
Algoritmos Usados por el Generador de Autómatas Finitos Determinísticos
2. Nodo concatenación: se representa con un círculo con un punto adentro.
3. Nodo disyunción: se representa con un círculo con un | adentro.
4. Nodo asterisco: se representa con un círculo y un * adentro.
5. Nodo opcional: se representa con un círculo y un ? adentro.
6. Nodo uno o más: se representa con un círculo y un + adentro.
El árbol puede ser construido trabajando con cualquier técnica de
análisis sintáctico que permita construir el árbol sintáctico respetando el orden
de examen de los terminales de izquierda a derecha (puede ser LL(k) o LR(k)).
Ejemplo: sea la expresión regular la siguiente:
( '+' | '-' ) ? d +
El árbol sintáctico sería:
.
?
+
d
|
'+'
'-'
Fig. 3 Arbol sintáctico para ( '+' | '-' ) ? d +
A los efectos de poder implementar los algoritmos de generación se
trabaja con la expresión regular aumentada "ExpReg #" donde el numeral (#)
significa fin de la expresión regular. Al construir el árbol sintáctico para la
expresión regular aumentada, el nodo raíz del árbol será un nodo
concatenación el cual tendrá como subárbol izquierdo el árbol sintáctico
construido y como subárbol derecho la hoja etiquetada con #. Para el ejemplo
20
Algoritmos Usados por el Generador de Autómatas Finitos Determinísticos
dado se tendrá:
.
.
?
#
+
4
d
|
3
'+'
'-'
1
2
Fig. 4 Arbol sintáctico para ( '+' | '-' ) ? d + #
En el árbol sintáctico presentado en la figura 4 se muestran las hojas
numeradas de 1 a N. La numeración de las hojas se realizará por el orden de
aparición de las mismas en la expresión regular.
3.2.2 Funciones aplicables a nodos de un árbol sintáctico
Definiremos 4 funciones que operan sobre nodos de un árbol sintáctico
construido para una expresión regular dada: Anulable, PrimeraPos, UltimaPos
y SiguientePos. El sufijo Pos significa posición del árbol. Las funciones
devuelven algún valor referente a esa posición del árbol.
La función Anulable devuelve como resultado Verdadero o Falso. Es
recursiva por definición y se la caracteriza por medio de la siguiente tabla:
21
Algoritmos Usados por el Generador de Autómatas Finitos Determinísticos
Tipo de nodo
Hoja con número i
Anulable(Nodo)
Falso
.
si
sd
Anulable(si) y Anulable(sd)
|
Anulable(si) o Anulable(sd)
si
sd
*
Verdadero
s
+
s
Anulable(s)
?
s
Verdadero
Fig. 5 Función Anulable
Las funciones PrimeraPos y UltimaPos son también recursivas.
Devuelven como resultado un conjunto cuyos elementos son los números de
las hojas siguientes a la posición actual. Las funciones quedan caracterizadas
mediante la siguiente tabla:
22
Algoritmos Usados por el Generador de Autómatas Finitos Determinísticos
Tipo de nodo
PrimeraPos(Nodo)
Hoja con número i
.
si
sd
UltimaPos(Nodo)
{i}
{i}
Si Anulable(sd) Entonces
Si Anulable(si) Entonces
PrimeraPos(si) U PrimeraPos(sd) UltimaPos(sd) U UltimaPos(si)
Sino UltimaPos(sd)
Sino PrimeraPos(si)
|
PrimeraPos(si) U PrimeraPos(sd) UltimaPos(sd) U UltimaPos(si)
si
sd
*
PrimeraPos(s)
UltimaPos(s)
PrimeraPos(s)
UltimaPos(s)
PrimeraPos(s)
UltimaPos(s)
s
+
s
?
s
Fig. 6 Funciones PrimeraPos y UltimaPos
La función SiguientePos se calcula únicamente para los nodos hoja,
pero su cálculo requiere el completo recorrido del árbol sintáctico. Se define
por las dos reglas siguientes:
1. Si n es un nodo concatenación con subárbol izquierdo si y subárbol
derecho sd, e i es una posición dentro de UltimaPos(si), entonces todas
las posiciones de PrimeraPos(sd) están en SiguientePos(i).
2. Si n es un nodo asterisco e i es una posición dentro de UltimaPos(n),
entonces todas las posiciones de PrimeraPos(n) están en SiguientePos(i).
Ejemplo: para el ejemplo dado (ver figura 4) tenemos:
Funciones PrimeraPos y UltimaPos:
Para el nodo disyunción:
PrimeraPos( | ) = { 1, 2 }
UltimaPos( | ) = { 1, 2 }
23
Algoritmos Usados por el Generador de Autómatas Finitos Determinísticos
Para el nodo opcional:
PrimeraPos( ? ) = { 1, 2 }
UltimaPos( ? ) = { 3 }
Para el nodo concatenación de más a la izquierda:
PrimeraPos( . ) = { 1, 2, 3 }
UltimaPos( . ) = { 3 }
Para el nodo concatenación raíz:
PrimeraPos( . ) = { 1, 2, 3 }
UltimaPos( . ) = { 4 }
Las funciones SiguientePos(i) para cada hoja son:
SiguientePos(1) = { 3 }
SiguientePos(2) = { 3 }
SiguientePos(3) = { 3, 4 }
SiguientePos(4) = { }
3.3
Construcción de un AFD a partir de una expresión regular
3.3.1 Construcción del AFD
La construcción de un autómata finito determinístico (AFD) a partir de
una expresión regular se realiza mediante el siguiente procedimiento:
1. Construir el árbol sintáctico para la expresión regular aumentada
ExpReg #, donde # es un marcador de final que se añade a ExpReg y
que difiere de los caracteres que pueden aparecer en ExpReg (no debe
estar dentro del conjunto de terminales).
2. Calcular las funciones Anulable, PrimeraPos, UltimaPos y SiguientePos
haciendo recorridos en profundidad del árbol.
3. Construir EstadosD (la letra D por Determinístico), el conjunto de
estados del AFD, por medio del procedimiento descripto en el punto
siguiente. Los estados dentro de EstadosD son conjuntos de posiciones;
al principio, cada estado está "no marcado", y un estado se convierte en
24
Algoritmos Usados por el Generador de Autómatas Finitos Determinísticos
"marcado" justo antes de considerar sus transiciones de salida. El estado
inicial del AFD es PrimeraPos(raíz), y los estados de aceptación son
todos los que contienen la posición asociada con el marcador #.
3.3.2 Cálculo del conjunto de estados y de la tabla de transiciones
El procedimiento de cálculo del conjunto de estados y de la tabla de
transiciones del autómata finito determinístico para la expresión regular es el
que se muestra en la figura siguiente:
Al principio, el único estado no marcado en EstadosD es PrimeraPos(raíz), donde raíz
es la raíz del árbol sintáctico construido para ExpReg #.
Mientras haya un estado E sin marcar en EstadosD hacer
Marcar E
Para cada símbolo de entrada a hacer
sea U el conjunto de posiciones que están en
SiguientePos(p) para alguna posición p en E, tal que el
símbolo en la posición p es a.
Si U no está vacío y no está en EstadosD entonces
Añadir U como estado no marcado a EstadosD.
Transición[E, a] = U.
Sino Transición[E, a] = no definida
FinPara
FinMientras
Fig. 7 Algoritmo para la construcción del conjunto de estados y
la tabla de transiciones para el AFD de la expresión
regular.
3.3.3 Ejemplo de construcción del AFD a partir de la expresión regular
Para la expresión regular utilizada en los puntos precedentes tenemos
los siguientes pasos:
1. Inicialmente EstadosD = { {1, 2, 3} }.
El único estado del conjunto está sin marcar.
25
Algoritmos Usados por el Generador de Autómatas Finitos Determinísticos
2. Sea E = { 1, 2, 3 } el estado actual, al que luego se le dará el número 0:
U'+' = { 3 }
Transición[ {1, 2, 3}, '+' ] = { 3 }
U'-' = { 3 }
Transición[ {1, 2, 3}, '-' ] = { 3 }
Ud = { 3, 4 }
Transición[ {1, 2, 3}, d ] = { 4, 3 }
EstadosD = { {1, 2, 3}0, {3}, {3, 4} }
3. Sea E = { 3 } el estado actual, al que luego se le dará el número 1:
U'+' = { }
Transición[ {3}, '+' ] = no definido
U'-' = { }
Transición[ {3}, '-' ] = no definido
Ud = { 3, 4 }
Transición[ {3}, d ] = { 3, 4 }
EstadosD = { {1, 2, 3}0, {3}0, {3, 4} }
4. Sea E = { 3, 4 } el estado actual, al que luego se le dará el número 2:
U'+' = { }
Transición[ {3, 4}, '+' ] = no definido
U'-' = { }
Transición[ {3, 4}, '-' ] = no definido
Ud = { 3, 4 }
Transición[ {3, 4}, d ] = { 3, 4 }
EstadosD = { {1, 2, 3}0, {3}0, {3, 4}0 }
5. No hay más estados sin marcar, por lo tanto termina la iteración.
Los estados (conjunto de posiciones siguientes) fueron numerados de 0
a n-1, donde n es el cardinal del conjunto EstadosD.
Hay un solo estado final y es el {3, 4} (al que se le dio el número 2),
puesto que es el que contiene la posición que corresponde al #, que fue
numerada con 4. El conjunto de estados finales queda así:
Estados Finales = { {3, 4} }
La tabla de transiciones de estados para el autómata finito determinístico
que reconoce cadena de caracteres con la estructura " ( '+' | '-' ) ? d +" es la
siguiente:
Estado
0
1
2
'+'
1
no definido
no definido
'-'
1
no definido
no definido
d
2
2
2
La gráfica del autómata finito determinístico para el ejemplo dado es:
26
Algoritmos Usados por el Generador de Autómatas Finitos Determinísticos
0
d
d
'+' / '-'
1
2
d
Fig. 8 Autómata finito determinístico construido para la
expresión regular ( '+' | '-' ) ? d +
3.4
Funcionamiento de un autómata finito determinístico
El siguiente procedimiento ilustra el funcionamiento de un autómata
finito determinístico:
EstadoActual = 0;
Buscar un caracter de entrada y guardarlo en c
Hacer
Si c no es FinDeArchivo entonces
EstadoNuevo = Transición[EstadoActual, c];
Buscar un caracter de entrada y guardarlo en c
Si EstadoNuevo es un estado del autómata entonces
EstadoActual = EstadoNuevo;
FinSi
FinSi
Mientras EstadoActual sea igual a EstadoNuevo;
Si EstadoActual es un elemento del conjunto de estados finales entonces
La cadena de entrada leída hasta este momento cumple con la
expresión regular.
FinSi
Fig. 9 Algoritmo para el funcionamiento de un Autómata Finito
Determinístico.
27
Algoritmos usados por el Generador de Analizadores Sintácticos
Capítulo 4: Algoritmos usados por el Generador de Analizadores
Sintácticos
4.1
Introducción
En este capítulo se presentan los algoritmos usados por el Generador de
Analizadores Sintácticos SLR. Se tratará de clarificar bien los conceptos
teóricos utilizados, lo que no hace la bibliografía que se utilizó (luego de la
lectura de la bibliografía, en el mejor de los casos quedan muchos conceptos
flotando y sin relación alguna, y lo más común es que no se los entienda).
Los analizadores sintácticos generados trabajan con la técnica SLR(1) o
SLR para simplificar, la que es un caso especial de LR(k). A diferencia de la
técnica LR(1) canónica y de la técnica LALR, esta técnica genera tablas
mucho más pequeñas (se minimiza el número de estados del autómata de pila).
Se la puede aplicar a casi todas las gramáticas de contexto libre que pueda
necesitar un programador (el desarrollo de lenguajes de programación con
gramáticas complejas puede requerir trabajar con la técnica LALR, pero si la
técnica SLR es aplicable entonces el analizador será más eficiente).
La técnica LR ha sido descripta por Knuth [1965], pero no resultó
práctica porque el tamaño de las tablas que se debían construir eran demasiado
grandes (recordar que en ese tiempo 16 kbytes era mucha memoria). En 1969
Korenjak mostró que mediante esa técnica se podían producir analizadores
sintácticos de tamaño razonable para las gramáticas de los lenguajes de
programación. En 1969 y 1971, DeRemer inventó los métodos "LR simples"
(SLR por Simple LR) y "LR con símbolo de anticipación" (LALR por
lookahead-LR) que son más simples que los de Korenjak.
La utilización de la técnica SLR (y del resto de las LR) simplifica
mucho el trabajo del desarrollo de un traductor, siempre y cuando se disponga
de un programa generador de las tablas de análisis sintáctico. Si no se dispone
de un generador de las tablas, la construcción de las mismas puede llegar a
desalentar la construcción del traductor puesto que se requiere un dominio
profundo de los algoritmos de construcción y de la teoría en la que se basan.
Una persona puede entender bien los algoritmos de construcción de las tablas,
y aún así cometer muchos errores.
28
Algoritmos usados por el Generador de Analizadores Sintácticos
El analizador SLR es uno solo para todas las posibles gramáticas. Es un
autómata de pila determinístico, y su funcionamiento es análogo al autómata
finito determinístico. El algoritmo se lo ilustra en la sección siguiente.
La tabla construida para un analizador SLR se llama tabla SLR, la
gramática para la cual se pueda construir una tabla SLR se llamará gramática
SLR. Una gramática para la cual la construcción de la tabla SLR genere
conflictos no es SLR, aunque se puedan resolver a mano los conflictos.
4.2
Análisis sintáctico por la técnica SLR (LR Simple)
Antes de explicar cómo se construyen las tablas es necesario ver
primero cómo se las usa.
4.2.1
Algoritmo de análisis sintáctico SLR
Se dispone de una pila en la que se pueden almacenar estados (enteros
no negativos) o símbolos de la gramáticas (terminales o no terminales).
También se dispone de un par de tablas a las que se les da el nombre de
acción e ir_a.
La tabla acción contiene las acciones que puede ejecutar el autómata.
Las acciones se especifican con una letra que especifica la acción y el número
de estado al que debe ir el autómata luego de ejecutarla. Las mismas pueden
ser:
1. Desplazamiento: se simboliza con la letra d y un número que indica el
estado al que debe pasar el autómata.
2. Reducción: se simboliza con la letra r y un número que indica el número
de regla por la cual se reduce.
3. Aceptar: se simboliza con la letra a. No tiene un número de sufijo puesto
que no hace falta; el autómata se detiene automáticamente al encontrar
esa orden.
4. Nada: si una entrada en esta tabla no contiene alguna de las tres
alternativas anteriores entonces en la posición actual hay error de
sintaxis.
29
Algoritmos usados por el Generador de Analizadores Sintácticos
La tabla ir_a contiene números enteros no negativos que son los estados
a los que tiene que ir el autómata luego de ejecutar una reducción.
La figura siguiente muestra el algoritmo de análisis sintáctico LR
simple:
Se dispone de una pila vacía en la cual se coloca 0 como estado inicial.
Sea pt el puntero al primer terminal de la cadena de entrada.
Salir = No
Repetir
Sea E el estado en el tope de la pila y t el terminal apuntado por pt.
Si
acción[E, t] = dY entonces
Apilar primero t y luego Y.
Avanzar pt al siguiente terminal.
Sino, si acción[E, t] = rX entonces
X es el número de regla por la que hay que reducir, entonces desapilar
2 veces el número de símbolos de la parte derecha de la regla número X.
Sea Y el estado que ahora está en el tope de la pila y A el no terminal de
la parte derecha de la regla número X.
Apilar primero A y luego ir_a[X, A].
Sino, si acción[E, t] = a entonces
Se ha llegado al estado de aceptación.
Salir = Si.
Aceptar = Si.
Sino
Salir = Si.
Aceptar = No; hay error de sintaxis.
FinSi
Hasta que Salir = Si.
Si Aceptar = Si entonces
La oración de entrada cumple con la estructura definida por la gramática,
esto es, es gramatical.
Sino La oración de entrada no es gramatical.
30
Algoritmos usados por el Generador de Analizadores Sintácticos
Fig. 10 Algoritmo de análisis sintáctico SLR
4.2.2 Ejemplo del funcionamiento del analizador sintáctico SLR
Para ejemplificar el funcionamiento del analizador sintáctico
trabajaremos con la gramática siguiente (las reglas han sido numeradas):
1:
2:
3:
4:
5:
6:
7:
P
D
D
L
L
I
I
-->
-->
-->
-->
-->
-->
-->
D I
'Var' L ':' 'Tipo' ';'
L ',' 'Id'
'Id'
I 'Instr' ';'
Las tablas de análisis sintáctico SLR para la gramática dada son las
siguientes:
| acción(estado, símbolo terminal)
| ir_a(estado, símbolo no
|
|
terminal)
Est | 'Var' ':' 'Tipo' ';' ',' 'Id' 'Instr' FA | P D L I
----+--------------------------------------------+----------------------0 |
d1
·
·
·
·
·
r3 r3 | 2 3 · ·
1 |
·
·
·
·
·
d4
·
· | · · 5 ·
2 |
·
·
·
·
·
·
·
a | · · · ·
3 |
·
·
·
·
·
·
r7 r7 | · · · 6
4 |
· r5
·
· r5
·
·
· | · · · ·
5 |
· d7
·
· d8
·
·
· | · · · ·
6 |
·
·
·
·
·
·
d9 r1 | · · · ·
7 |
·
·
d10
·
·
·
·
· | · · · ·
8 |
·
·
·
·
· d11
·
· | · · · ·
9 |
·
·
· d12
·
·
·
· | · · · ·
10 |
·
·
· d13
·
·
·
· | · · · ·
11 |
· r4
·
· r4
·
·
· | · · · ·
12 |
·
·
·
·
·
·
r6 r6 | · · · ·
13 |
·
·
·
·
·
·
r2 r2 | · · · ·
Fig. 11 Tabla de análisis sintáctico SLR para la gramática de un
lenguaje simple.
En la tabla acción el símbolo FA significa Fin de Archivo. Aunque no
forma parte del texto de entrada, su inclusión fue realizada durante la
construcción de las tablas; el símbolo Fin de Archivo es un símbolo terminal
de la gramática ampliada (ver más adelante qué es una gramática ampliada).
Sea el texto de entrada el siguiente:
Var Id : Tipo ; Instr ;
31
Algoritmos usados por el Generador de Analizadores Sintácticos
El análisis sintáctico se ilustra en el cuadro siguiente. Se utiliza un
espacio como separador de elementos de la pila. Si se ha llegado al fin de
archivo (FA) en la columna Entrada no habrán terminales.
Paso
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Pila
0
0 Var 1
0 Var 1 Id 4
0 Var 1 L
0 Var 1 L 5
0 Var 1 L 5 : 7
0 Var 1 L 5 : 7 Tipo 10
0 Var 1 L 5 : 7 Tipo 10 ; 13
0D
0D3
0D3I
0D3I6
0 D 3 I 6 Instr 9
0 D 3 I 6 Instr 9 ; 12
0D3I
0D3I6
0P
0P2
Entrada
Var Id : Tipo ; Instr ;
Id : Tipo ; Instr ;
: Tipo ; Instr ;
: Tipo ; Instr ;
: Tipo ; Instr ;
Tipo ; Instr ;
; Instr ;
Instr ;
Instr ;
Instr ;
Instr ;
Instr ;
;
Acción
d1
d4
r5
Ir a 5
d7
d10
d13
r2
Ir a 3
r7
Ir a 6
d9
d12
r6
Ir a 6
r1
Ir a 2
Acepta
r
Fig. 12 Ejemplo de análisis sintáctico con la técnica SLR.
La pila del analizador puede quedar con muchos elementos y aún así
haber llegado al estado de aceptación.
4.2.3 Clasificación de los errores que se pueden producir durante el
análisis sintáctico
El algoritmo de análisis sintáctico SLR presentado en la figura 10 no
especifica qué tipos de errores pueden aparecer ni cómo tratarlos. En esta
32
Algoritmos usados por el Generador de Analizadores Sintácticos
sección se dará una definición de los tipos de errores que pueden aparecer ya
que la bibliografía no da una definición rigurosa de los mismos.
Error lexicográfico: se dará este nombre al error que se produce al intentar
buscar un símbolo terminal siguiente al actual y se encontró un símbolo que no
es parte del conjunto de símbolos terminales de la gramática. El Fin de
Archivo (FA) no es error lexicográfico, sino que simplemente no hay más
símbolos terminales de entrada.
Error semántico: si la implementación del analizador sintáctico incluye la
posibilidad de ejecutar acciones semánticas (ver sección 2.3.8 y 12.3.3),
durante la ejecución de esas acciones se pueden producir errores. A esos
errores se les dará el nombre de errores semánticos.
Error sintáctico: si no es error lexicográfico ni error semántico entonces es
sintáctico. El autómata en este caso se queda sin saber qué acción ejecutar (la
entrada de la tabla acción no está definida para el estado actual y el terminal
de entrada).
Las definiciones precedentes son aplicables a todas las técnicas de
análisis que hay esta el momento de la escritura de este trabajo.
En el contexto de las técnicas LR(k), un error semántico puede ser
ignorado sin que se produzcan efectos indeseados. No ocurre lo mismo con los
errores lexicográficos y sintácticos (nadie sabe con certeza lo que quiso
escribir el autor del texto fuente), aunque los efectos colaterales pueden
reducirse previo estudio y modificación "a mano" de las tablas.
4.3
Fundamentos de la construcción de las tablas de análisis SLR
Antes de explicar la construcción de las tablas se darán primero algunas
definiciones, se explicarán algoritmos usados por el algoritmo de construcción
de las tablas de análisis sintáctico SLR y se explicarán los fundamentos de la
construcción de las tablas del analizador SLR.
4.3.1 Elemento del análisis sintáctico LR(0)
Se denominará elemento del análisis sintáctico LR(0) (elemento para
abreviar) de una gramática G a una regla de G con un punto en alguna posición
de la parte derecha.
33
Algoritmos usados por el Generador de Analizadores Sintácticos
Una regla que derive en la cadena nula (A --> ) genera un solo elemento
que es "A --> . ".
Intuitivamente, un elemento indica hasta dónde se ha visto una
producción en un momento dado del proceso de análisis sintáctico. Por
ejemplo, la regla A --> B C D genera cuatro elementos:
A
A
A
A
--->
--->
--->
--->
.
B
B
B
B
.
C
C
C
C
.
D
D
D
D
.
El primer elemento indica que a continuación se espera ver en la entrada
una cadena derivable de "B C D". El segundo elemento indica que se acaba de
ver en la entrada una cadena derivable de B, y que a continuación se espera ver
una cadena derivable de "C D".
4.3.2 Operación Cerradura
Sea I un conjunto de elementos para una gramática G, Cerradura(I) es
el conjunto de elementos construidos a partir de I y de G mediante las dos
siguientes reglas:
1. Inicialmente, todo elemento de I se agrega a Cerradura(I).
2. Si A --> α . B β está en Cerradura(I) y B --> γ es una regla, entonces se
agrega B --> . γ a Cerradura(I), si todavía no fue agregado. Se aplica esta
regla hasta que no se puedan agregar más elementos a Cerradura(I).
Intuitivamente, si A --> α . B β está en Cerradura(I) es porque en algún
momento del proceso de análisis sintáctico se cree que es posible ver a
continuación una cadena derivable de B como entrada. Si B --> γ es una regla,
también se espera ver una subcadena derivable de B --> γ en éste punto, y por
esta razón se incluye B --> . γ en Cerradura(I).
Ejemplo: para la gramática utilizada en el punto 4.2.2, sea
I = { (P --> • D I) } entonces Cerradura(I) contiene los siguientes elementos:
P ---> • D I
D ---> • 'Var' L ':' 'Tipo' ';'
D ---> •
34
Algoritmos usados por el Generador de Analizadores Sintácticos
Otro ejemplo: para la gramática utilizada en el punto 4.2.2, sea
I = { ( D ---> 'Var' • L ':' 'Tipo' ';' ) }, entonces Cerradura(I) contiene los
siguientes elementos:
D ---> 'Var' • L ':' 'Tipo' ';'
L ---> • L ',' 'Id'
L ---> • 'Id'
4.3.3 Mangos
Informalmente, un mango de una cadena es una subcadena que
concuerda con el lado derecho de una regla y cuya reducción al no terminal del
lado izquierdo de la regla representa un paso a lo largo de la inversa de una
derivación por la derecha.
Formalmente, un mango de una forma de frase derecha γ es una regla
A-->β y una posición de γ donde la cadena β podría encontrarse y sustituirse
por A para producir la forma de frase derecha previa en una derivación por la
derecha de γ. Es decir, si O ==>* αAω ==>* αβω, entonces A-->β si la
posición que sigue de α es un mango de αβω. La cadena ω a la derecha del
mango contiene sólo símbolos terminales.
Si la gramática no es ambigua entonces toda forma de frase derecha de
la gramática tiene exactamente un mango.
Para la gramática del ejemplo dado en la sección 4.2.2, obsérvesen la
figura 12, la fila correspondiente al paso 14: la forma de frase derecha es
D I Instr ;
la operación que se va a ejecutar en ese paso es r6 y el mango es "I Instr ;",
que concuerda con la parte derecha de la regla 6 ( I --> I 'Instr' ';' ). En este
caso, a la derecha del mango no hay símbolos terminales.
4.3.4 Prefijo Viable
Los prefijos de las formas de frase derecha que pueden aparecer en la
pila de un analizador sintáctico por desplazamiento y reducción se denominan
prefijos viables.
Una definición equivalente de un prefijo viable es la de que es un prefijo
de una forma de frase derecha que no continúa más allá del extremo derecho
del mango situado más a la derecha de esta forma de frase. Con esta
35
Algoritmos usados por el Generador de Analizadores Sintácticos
definición, siempre es posible añadir símbolos terminales al final de un prefijo
viable para obtener una forma de frase derecha. Por lo tanto, aparentemente no
hay error siempre que la porción examinada de la entrada hasta un punto dado
pueda reducirse a un prefijo viable.
Por ejemplo, para la gramática del ejemplo dado en la sección 4.2.2,
obsérvese en la figura 12, la fila correspondiente al paso 8, la forma de frase
derecha es:
Var L : Tipo ; Instr ;
y se reduce por regla 2 el mango "Var L : Tipo ;" para obtener la forma de
frase derecha siguiente:
D Instr ;
Aquí, D es un prefijo viable.
4.3.5 Operación ir_a
La función ir_a(I, X) donde I es un conjunto de elementos y X es un
símbolo de la gramática (terminal o no terminal) se define como la cerradura
del conjunto de todos los elementos A --> α X . β tales que A --> α . X β
esté en I.
Intuitivamente, si I es el conjunto de elementos válidos para algún
prefijo viable, entonces ir_a(I, X) es el conjunto de elementos válidos para el
prefijo viable γX.
Por ejemplo, para la gramática del ejemplo dado en la sección 4.2.2,
para el conjunto de elementos I igual a:
P ---> • D I
D ---> • 'Var' L ':' 'Tipo' ';'
D ---> •
entonces ir_a(I, D) consta de:
P ---> D • I
I ---> • I 'Instr' ';'
I ---> •
36
Algoritmos usados por el Generador de Analizadores Sintácticos
4.3.6 Colección Canónica de Conjuntos de Elementos del Análisis
Sintáctico LR(0)
La construcción de la colección canónica de conjunto de elementos
LR(0) se aplica a una gramática aumentada G' obtenida a partir de G por el
agregado de la siguiente regla:
O' --> O
donde O es el símbolo inicial de la gramática G. Ahora O' es el símbolo inicial
de la gramática G', a la que se llamará gramática aumentada. El objetivo de
esta regla es la de indicar al analizador cuándo debe detener el análisis
sintáctico y anunciar la aceptación de la cadena. La aceptación se produce
únicamente cuando el analizador está por reducir O' --> O.
El algoritmo se muestra en la siguiente figura, en donde C es conjunto
de conjuntos de elementos (la colección canónica LR(0) ):
Sea C = { Cerradura( { O' --> . O } ) }
Repetir
Para cada conjunto de elementos I en C y cada símbolo gramatical X tal que
ir_a(I, X) no esté vacío y no esté en C hacer
Agregar ir_a(I, X) a C.
FinPara
Hasta que no se puedan agregar más conjuntos de elementos a C.
Fig. 13 Construcción de la Colección Canónica LR(0)
En adelante, a cada I se lo llamará indistintamente conjunto de
elementos LR(0) o estado.
Ejemplo: para la gramática dada en la sección 4.2.2, la gramática
aumentada es:
P' -->
P --->
D --->
D --->
L --->
L --->
I --->
I --->
P
D I
'Var' L ':' 'Tipo' ';'
L ',' 'Id'
'Id'
I 'Instr' ';'
37
Algoritmos usados por el Generador de Analizadores Sintácticos
y la colección canónica es:
Estado 0 (I0):
P' ---> • P
P ---> • D I
D ---> • 'Var' L ':' 'Tipo' ';'
D ---> •
Estado
D --->
L --->
L --->
1 (I1):
'Var' • L ':' 'Tipo' ';'
• L ',' 'Id'
• 'Id'
Estado 2 (I2):
P' ---> P •
Estado
P --->
I --->
I --->
3:
D • I
• I 'Instr' ';'
•
Estado 4:
L ---> 'Id' •
Estado 5:
D ---> 'Var' L • ':' 'Tipo' ';'
L ---> L • ',' 'Id'
Estado 6:
P ---> D I •
I ---> I • 'Instr' ';'
Estado 7:
D ---> 'Var' L ':' • 'Tipo' ';'
Estado 8:
L ---> L ',' • 'Id'
Estado 9:
I ---> I 'Instr' • ';'
Estado 10:
D ---> 'Var' L ':' 'Tipo' • ';'
Estado 11:
L ---> L ',' 'Id' •
Estado 12:
I ---> I 'Instr' ';' •
Estado 13:
D ---> 'Var' L ':' 'Tipo' ';' •
4.3.7 Idea Central del Método SLR
Los elementos del análisis sintáctico LR(0) pueden considerarse como
los estados del autómata finito no determinista que reconoce los prefijos
viables. Para poder convertir el autómata en determinista hace falta agrupar los
38
Algoritmos usados por el Generador de Analizadores Sintácticos
elementos en conjuntos. Los conjuntos serían entonces los estados del
autómata finito determinista que reconoce los prefijos viables.
La idea central del método SLR es construir primero a partir de la
gramática un AFD que reconozca los prefijos viables. Se construye la
colección canónica de elementos LR(0). Cada conjunto de elementos dentro de
la colección canónica pasan a ser los estados del analizador sintáctico SLR
(del AFD que el mismo usa).
Para el ejemplo dado en el punto anterior, el AFD que reconoce prefijos
viables se muestra en la figura siguiente:
'Id'
ar'
'V
0 P
1
4
L
':'
5
2
7
','
D
8
3
I
6
'Instr'
9
'Tipo'
'Id'
';'
10
';'
13
11
12
Fig. 14 AFD que reconoce prefijos viables de la gramática del
ejemplo.
El AFD de la figura precedente tiene dos problemas: no tiene estados
finales y tiene transiciones con símbolos no terminales.
El hecho de tener transiciones con no terminales hace necesario
disponer de una pila para la implementación del autómata. El autómata
resultante se pasa a llamar autómata de pila, que como ya se mencionó en el
punto 2.2.5, son los que implementan analizadores sintácticos para gramáticas
del Tipo 2 de la clasificación de Chomsky.
4.3.8 Función Anulable
La función Anulable se aplica a un símbolo no terminal de una
gramática y devuelve Verdadero si ese símbolo es anulable.
Un símbolo no terminal A es anulable si de alguna forma, mediante
derivaciones sucesivas con las reglas de la gramática, se transforma A en la
39
Algoritmos usados por el Generador de Analizadores Sintácticos
cadena nula ( A ==>* λ ). (λ representa a la cadena nula. En este trabajo
cuando en una regla se quiere denotar la presencia de la cadena nula no se
pone nada puesto que es más claro.)
Definiremos primero una versión simple de Anulable a la que se le
llamará AnulableSimple. Esta función devolverá Verdadero si hay una regla
que derive el no terminal directamente en la cadena nula ( A --> ).
A partir de la función de AnulableSimple se define la función Anulable
de la siguiente manera: un símbolo no terminal X de una gramática G es
anulable si:
1. X es Anulable Simple ( X --> ).
2. Si existe alguna regla X --> Y Z, con Y y Z anulables.
El punto 2 hace que la definición sea recursiva, por lo tanto un
algoritmo que la implemente podrá ser recursivo, lo que no es aconsejable
debido a la cantidad de veces que se puede repetir el cálculo de Anulable para
algunos símbolos no terminales.
Ejemplo: para la gramática siguiente
O
A
A
B
B
C
C
--->
--->
--->
--->
--->
--->
--->
A B C
a B
b C
C
c O
El cálculo de AnulableSimple para cada uno de los símbolos daría el
siguiente resultado:
O:
A:
B:
C:
no
si
no
si
es
es
es
es
anulable
anulable
anulable
anulable
simple.
simple.
simple.
simple.
El cálculo de Anulable arroja el siguiente resultado:
O:
A:
B:
C:
si
si
si
si
es
es
es
es
anulable
anulable
anulable
anulable
porque
porque
porque
porque
A, B y C son anulables.
es anulable simple.
hay una regla B --> C, y C es anulable.
es anulable simple.
4.3.9 La operación Primero
Si α es una cadena de símbolos gramaticales, se considera Primero(α)
como el conjunto de terminales que inician las cadenas derivadas de α.
40
Algoritmos usados por el Generador de Analizadores Sintácticos
Si α ==>* λ, entonces λ también está en Primero(α). El resultado de la
función Primero es un conjunto de símbolos terminales, que obviamente es un
subconjunto de T (el conjunto de símbolos terminales de la gramática).
Para calcular Primero(X) para todos los símbolos gramaticales X, se
proponen las siguientes reglas:
1. Si X es terminal, entonces Primero(X) es { X }.
2. Si X -- > λ es una regla, entonces agregar λ a Primero(X).
3. Si X es no terminal y X --> Y1 Y2 ... Yk entonces se agrega b a
Primero(X) si, para alguna i, b está en Primero(Yi) y λ está en todos
los conjuntos Primero(Y1), ..., Primero(Yi - 1); esto es, la cadena
Y1...Yi - 1 ==>* λ.
Si λ está en Primero(Yj) para toda j = 1, 2, ..., k, entonces se agrega
λ a Primero(X); esto es, la cadena Y1...Yk ==>* λ.
Por ejemplo, todo lo que está en Primero(Y1) sin duda estará en
Primero(X). Si Y1 no deriva en λ, entonces no se agrega nada más a
Primero(X), pero si Y1 ==>* λ, entonces se agrega Primero(Y2), y
así sucesivamente.
4. Se repetirán las tres primeras reglas hasta que no se puedan agregar
Fig. 15 Cálculo de Primero(X).
Observando la regla 1, se concluye que el cálculo de Primero(X) para X
terminal no tiene sentido, puesto que es un axioma.
A los efectos de la utilización de la función Primero en la generación de
las tablas de análisis sintáctico SLR, el agregado de λ no es necesario. En los
ejemplos siguientes no se incluye λ en donde se debiera.
Ejemplo 1: para la gramática dada en la sección anterior (4.3.8) los
conjuntos Primero sin Lambda (λ) son:
Primero(O)
Primero(A)
Primero(B)
Primero(C)
=
=
=
=
{
{
{
{
a
a
b
c
b c }
}
c }
}
41
Algoritmos usados por el Generador de Analizadores Sintácticos
Ejemplo 2: para la gramática dada en la sección (4.2.2) los conjuntos
Primero sin Lambda (λ) son:
Primero(P)
Primero(D)
Primero(L)
Primero(I)
=
=
=
=
{
{
{
{
'Var' 'Instr' }
'Var' }
'Id' }
'Instr' }
4.3.10 La operación Siguiente
La función Siguiente se calcula para los símbolos no terminales de la
gramática, únicamente.
Para calcular Siguiente(X) para todos los símbolos no terminales X, se
proponen las siguientes reglas:
1. Agregar FA (Fin de Archivo) a Siguiente(O), donde O es el símbolo
inicial y FA es el delimitador derecho de la entrada.
2. Si hay una regla A ---> α B β, entonces todo lo que esté en
Primero(β) excepto λ se agrega a Siguiente(B).
3. Si hay una regla A ---> α B o una regla A ---> α B β, donde
Primero(β) contenga λ (es decir, β ==>* λ), entonces todo lo que
esté en Siguiente(A) se agrega a Siguiente(B).
Fig. 16 Cálculo de Siguiente(X).
Obsérvese las reglas 2 y 3, al decir Primero(β) se está hablando en
realidad de la unión de varios conjuntos Primero(Xi) para i = 1, ..., k y todos
los Primero(Xi) excepto Primero(Xk) contiene a λ. Por lo tanto, se deberá tener
esto en cuenta al implementar el algoritmo.
Obsérvese también que en la regla 2, al agregar todo lo que esté en
Primero(β) excepto λ a Siguiente(B) justifica el hecho de que en este trabajo
se calcula Primero(X) sin λ.
Ejemplo 1: para la gramática dada en la sección anterior (4.3.8) los
conjuntos Siguiente(X) son los siguientes:
Siguiente(O) = { c b }
Siguiente(A) = { b c }
42
Algoritmos usados por el Generador de Analizadores Sintácticos
Siguiente(B) = { c b }
Siguiente(C) = { c b }
Ejemplo 2: para la gramática dada en la sección (4.2.2) los conjuntos
Siguiente(X) son:
Siguiente(P)
Siguiente(D)
Siguiente(L)
Siguiente(I)
4.4
=
=
=
=
{
{
{
{
}
'Instr' }
':' ',' }
'Instr' }
Construcción de las tablas de análisis SLR
La construcción de las tablas de análisis sintáctico SLR (similar a la
mostrada en la figura 11 de la sección 4.2.2) se resume en el algoritmo
mostrado en la figura siguiente.
Si los 3 primeros pasos generan acciones contradictorias, se dice que la
gramática no es SLR(1) porque el algoritmo no consigue producir las tablas
para el análisis sintáctico. En este caso no se ejecutan los pasos siguientes.
43
Algoritmos usados por el Generador de Analizadores Sintácticos
1. Construir G', la gramática aumentada, a partir de G, por el
agregado de la regla O' --> O, donde O era el símbolo inicial de
G. O' pasa a ser el símbolo inicial en G'.
2. Construir C = { I0, I1, ..., In }, la colección canónica de conjuntos
de elementos del análisis sintáctico LR(0) para la gramática
aumentada G'.
3. El estado i se construye a partir de Ii. Las acciones de análisis
sintáctico para el estado i se determinan como sigue:
a. Si A --> α . x β está en Ii con x terminal e ir_a(Ii, x) = Ij,
entonces asignar "desplazar j" a accion[i, x].
b. Si A --> α . está en Ii, con A distinto de O' entonces asignar
"reducir por A --> α" a accion[i, x] para todo x perteneciente a
Siguiente(A).
c. Si O' ---> O . está en Ii, entonces asignar "aceptar" a
accion[i, FA] (FA es el Fin de Archivo).
4. La tabla ir_a(i, X) para el estado i y el no terminal X se
construyen utilizando la regla:
si ir_a[Ii, X] = Ij entonces ir_a[i, X] = j
5. Todas las entradas de las tablas no definidas por las reglas 3 y 4
son consideradas "error".
6. El estado inicial del analizador es el que se construye a partir del
conjunto de elementos que contiene a S' ---> . S
Fig. 17 Construcción de las tablas de análisis sintáctico SLR.
Ejemplo 1: para la gramática dada en la sección 4.2.2, las tablas se
muestran en la figura 12 que se encuentra en la misma sección. La colección
canónica de elementos LR(0) los encontrará en la sección 4.3.6. Los conjuntos
Siguiente(X) los encontrará en la sección 4.3.10.
Ejemplo 2: para la gramática dada en la sección 4.3.8, los conjuntos
Siguiente(X) los encontrará en la sección 4.3.10. La colección canónica de
44
Algoritmos usados por el Generador de Analizadores Sintácticos
elementos LR(0) es la siguiente (aquí a los terminales se los encierra entre
comillas simples para que no queden dudas):
Estado 0:
O' ---> • O
O ---> • A B C
A ---> • 'a' B
A ---> •
Estado
A --->
B --->
B --->
C --->
C --->
1:
'a' • B
• 'b' C
• C
• 'c' O
•
Estado 2:
O' ---> O •
Estado
O --->
B --->
B --->
C --->
C --->
3:
A • B C
• 'b' C
• C
• 'c' O
•
Estado
B --->
C --->
C --->
4:
'b' • C
• 'c' O
•
Estado
C --->
O --->
A --->
A --->
5:
'c' • O
• A B C
• 'a' B
•
Estado 6:
A ---> 'a' B •
Estado 7:
B ---> C •
Estado
O --->
C --->
C --->
8:
A B • C
• 'c' O
•
Estado 9:
B ---> 'b' C •
Estado 10:
C ---> 'c' O •
Estado 11:
O ---> A B C •
Al construir la tabla acción obtenemos lo siguiente, en la que se
detectará 6 conflictos de desplazamiento-reducción:
acción(e, x)
'a' 'b' 'c'
ir_a(e, X):
FA
O
A
B
C
45
Algoritmos usados por el Generador de Analizadores Sintácticos
0
1
2
3
4
5
6
7
8
9
10
11
d1
·
·
·
·
d1
·
·
·
·
·
·
r3
d4
·
d4
r7
r3
r2
r5
r7
r4
r6
r1
r3
d5
·
d5
d5
r3
r2
r5
d5
r4
r6
r1
r3
r7
a
r7
r7
r3
r2
r5
r7
r4
r6
r1
2
·
·
·
·
10
·
·
·
·
·
·
3
·
·
·
·
3
·
·
·
·
·
·
· ·
6 7
· ·
8 7
· 9
· ·
· ·
· ·
· 11
· ·
· ·
· ·
Los conflictos los generó el paso 3.b del algoritmo y son los siguientes:
1. En el estado 1, con el terminal 'c' hay que elegir entre d5 o r7.
2. En el estado 1, con el terminal 'b' hay que elegir entre d4 o r7.
3. En el estado 3, con el terminal 'c' hay que elegir entre d5 o r7.
4. En el estado 3, con el terminal 'b' hay que elegir entre d4 o r7.
5. En el estado 4, con el terminal 'c' hay que elegir entre d5 o r7.
6. En el estado 8, con el terminal 'c' hay que elegir entre d5 o r7.
Debido a que esta gramática genera conflictos en la construcción de las
tablas SLR se dirá que la misma no es SLR. Una definición equivalente es
decir que la gramática es ambigua para la técnica de análisis SLR, lo que no
significa que sea ambigua a secas (la construcción unívoca de un árbol de
análisis sintáctico no es posible con la técnica SLR, esto es, el algoritmo de
construcción de las tablas se comporta en este caso como una función no
inyectiva porque puede generar varias tablas accion alternativas para la misma
gramática).
Más ejemplos de construcción de tablas las puede encontrar en el
capítulo 11 y 12 en donde se muestran ejemplos de ejecución de SLR1.
46
El Generador de Analizadores Lexicográficos
Capítulo 5: El Generador de Analizadores Lexicográficos
Previo a la lectura de este capítulo se aconseja leer la sección 2.3.6
donde se explica qué es un analizador lexicográfico (es muy importante que lo
lea para que no se confundan conceptos).
En este capítulo, al lenguaje reconocido por el analizador lexicográfico
se lo denominará lenguaje léxico. A las oraciones del lenguaje léxico se los
denominará símbolos. A los símbolos terminales de la gramática subyacente
(la que explica la estructura del lenguaje léxico) se los denominará terminales
léxicos, los que usualmente son caracteres ASCII según la especificación OEM
(para DOS y OS/2) o ANSI (para Windows).
La definición y el funcionamiento de un analizador lexicográfico se
explica en el punto 5.1, y la construcción de un analizador lexicográfico en
5.2.
5.1
Funcionamiento propuesto de un Analizador Lexicográfico
En esta sección se propondrá una definición de analizador lexicográfico
y un algoritmo para el funcionamiento del mismo.
5.1.1 Reconocedor de símbolo
Se denominará reconocedor de símbolo al objeto que describe cómo se
debe realizar la búsqueda de un símbolo de un lenguaje dado.
El lenguaje dado puede ser expresado por una expresión regular, y en
este caso se usaría un autómata finito determinístico para reconocer el
símbolo.
La otra forma posible es la de usar una simple comparación literal del
símbolo, como la que se usaría para reconocer palabras claves u operadores de
un lenguaje (una simple comparación de cadena).
Entonces, el objeto reconocedor podrá ser un autómata finito
determinístico o una cadena de terminales léxicos.
47
El Generador de Analizadores Lexicográficos
5.1.2 Componentes de un Analizador Lexicográfico
Cualquier analizador lexicográfico construido usando esta teoría
constaría de 2 partes:
1. Un conjunto de reconocedores de símbolos.
2. Un algoritmo que especifique cómo reconocer un símbolo de entrada
que incluya reglas para la resolución de posibles conflictos.
Se produce un conflicto cuando 2 o más reconocedores de símbolos
reconocen a una cadena de terminales del lenguaje léxico que comienza a
partir de la posición actual.
El lenguaje reconocido por el analizador lexicográfico es la unión de los
lenguajes reconocidos por cada reconocedor de símbolos, resolviendo
conflictos en donde haya intersección de acuerdo a ciertas reglas dadas de
antemano (ver sección siguiente).
5.1.3 Algoritmo de Examinación de un Analizador Lexicográfico
Para examinar la cadena de terminales léxicos se propone el siguiente
algoritmo:
1. Recorrer el conjunto de reconocedores de símbolos para ver si alguno de
ellos reconoce una cadena de terminales léxicos a partir de la posición
actual. Para cada reconocedor, si es autómata finito determinístico
entonces usar el algoritmo estándar de funcionamiento, y si es cadena
usar el algoritmo estándar de comparación de cadenas.
2. Si al ejecutar el paso 1 se determina que hay 2 o más reconocedores de
símbolos que reconocen una cadena de terminales léxicos a partir de la
posición actual, el conflicto se resuelve por medio de las siguientes
reglas:
a. Si hay un reconocedor de símbolo que reconoce una secuencia de
terminales léxicos más larga que el resto de los reconocedores,
entonces se elige ése. Si hay empate entre dos o más reconocedores se
procede con las reglas siguientes.
b. Si el grupo de reconocedores para los que se produjo el empate son
AFDs (posiblemente construidos a partir de expresiones regulares), se
48
El Generador de Analizadores Lexicográficos
elige el que se encontró primero en el conjunto de reconocedores de
símbolos.
c. Si en el grupo hay una cadena de terminales léxicos se elige éste. Si
hay varias se elige la primera que se encontró en el conjunto de
reconocedores de símbolos.
5.2
Construcción de un Analizador Lexicográfico
La construcción de un analizador lexicográfico se reduce entonces a la
construcción del conjunto de reconocedores de símbolos y a la
implementación de un algoritmo que utilice ese conjunto y que tenga el
comportamiento definido en 5.1.3.
Si un símbolo está definido por una expresión regular entonces se
propone utilizar el algoritmo de construcción de un AFD a partir de una
expresión regular dado en la sección 3.3 (utilícese un generador) y agregar el
AFD resultante al conjunto de reconocedores de símbolos. En cambio, si el
símbolo es una cadena literal, simplemente se la incluirá dentro del conjunto
de reconocedores de símbolos.
El algoritmo que utilice el conjunto de reconocedores de símbolos se
escribirá y depurará una sola vez. Lo que cambiará para cada analizador
lexicográfico será el conjunto de reconocedores de símbolos.
De esta manera, la complejidad de la construcción de un analizador
lexicográfico se reduce a la complejidad de la construcción de un AFD a partir
de una expresión regular.
En este trabajo se separa la generación del analizador lexicográfico de la
generación de AFDs a partir de expresiones regulares. De esta manera, si es
necesario se puede construir manualmente el AFD para algún reconocedor de
símbolo.
49
Parte 2. Implementación de los Generadores
50
Implementación del Generador de Autómatas Finitos Determinísticos
Capítulo 6: Implementación del Generador de Autómatas Finitos
Determinísticos
A los efectos de que el generador de autómatas finitos determinísticos
pueda ser incluido en programas del usuario, se creará una biblioteca C++ que
ofrecerá todas las funciones necesarias. La biblioteca recibió el nombre de
ExpReg, por Expresión Regular.
El generador de autómatas finitos determinísticos debe ser visto como
un programa de algún usuario que hace uso de la biblioteca de soporte
ExpReg. El generador recibió el nombre de AFD por Autómata Finito
Determinístico.
La E/S se realizó utilizando la biblioteca BCE, cuyo autor es el mismo
de este trabajo.
El listado de los códigos fuentes los encontrará en la parte 5. Más
documentación de la implementación la puede encontrar en el capítulo 10 y 13
en donde se da una guía del usuario para AFD y ExpReg, respectivamente.
Cuando se quiera decir la función Func de la clase Clase se resumirá
diciendo Clase::Func, que en el lenguaje C++ significa eso.
6.1
Estructuras de Datos
Las estructuras de datos de la implementación se hallan repartidas en 2
archivos cabeceras (.H) a saber:
1. En expreg.h se encuentra toda la interfase visible por el usuario de
ExpReg.
2. En genafd.h están las estructuras de datos usadas para la generación del
AFD a partir de una expresión regular de entrada.
3. En lse.h (de la Biblioteca BCE) está la implementación de Listas
Simples Encadenadas (para cualquier tipo de dato como elemento de la
lista), la que se implementa mediante templates.
51
Implementación del Generador de Autómatas Finitos Determinísticos
6.1.1 Estructura de un Arbol Sintáctico para una Expresión Regular
El árbol sintáctico para una expresión regular ha sido implementado por
medio de la clase NodoArbol que se encuentra declarado en genafd.h.
Los campos dato de la clase son:
Tipo: indica el tipo de nodo. Para las hojas, este campo tiene el número de
hoja (no puede haber 2 hojas con el mismo número), valor que est entre 0 y
N_HOJA ambos inclusive.
IdCar: identificador del caracter, es un índice para acceder a un vector donde
está la descripción de la expresión monocaracter.
PrimUltCalc: tiene 0 si PrimeraPos (Prim) y UltimaPos (Ult) no han sido
calculados, distinto a 0 si ya se calcularon.
pIzq: subárbol de la izquierda del actual. Para los nodos '*', '+' y '?' el
subárbol se engancha en este campo. Para las hojas igual a 0.
pDer: subárbol de la derecha del actual. Se usa solamente para nodos del tipo
'.' y '|'. Para los nodos '*', '+', '?' y hojas vale 0.
Prim y Ult: son listas de identificadores de las hojas (valor del campo Tipo de
las mismas) que son PrimeraPos y UltimaPos respectivamente, del nodo actual.
Las operaciones PrimeraPos, UltimaPos y SiguientePos quedan a cargo
de funciones miembro de esta clase.
6.1.2 Estructura de un Estado del AFD durante su Construcción
La estructura de un estado del AFD durante su construcción se
implementa con la clase Estado que se encuentra declarada en genafd.h.
Tiene los siguientes campos:
Id: número de estado (0 a n - 1 si hay n estados)
Trans: es un vector en el que se almacenan los estados siguientes. Es una fila
de la tabla de transición de estados del AFD en construcción, la que se indexa
por columna con caracteres. Tiene tantos elementos como caracteres distintos
aparecen en el texto fuente.
52
Implementación del Generador de Autómatas Finitos Determinísticos
Pos: es una lista de las hojas del árbol sintáctico que se agrupan en este estado.
6.1.3 Estructura de un Autómata Finito Determinístico
Los autómatas finitos determinísticos se implementan con la clase
AutomFinDet, la que se documenta ampliamente en la sección 10.5 y en la
sección 13.2.
6.1.4 Estructura de las Tablas usadas para implementar un Autómata
Finito Determinístico
Puesto que se prevé la construcción a mano de un autómata finito
determinístico, la documentación en detalle de las tablas se incluye en las
secciones 10.5 y 13.2.
6.1.5 Estructura de una Expresión Regular
Una expresión regular se implementa con la clase ExpReg, que agrupa y
todas las funciones necesarias para trabajar con expresiones regulares,
encapsulando la complejidad inherente a la construcción de un AFD a partir de
una expresión regular.
Se documenta en detalle en la sección 13.4.
6.1.6 Estructura de un Reconocedor de Símbolos
Los reconocedores de símbolos se implementan con la clase RecSimb,
la que se documenta en detalle en la sección 13.5.
6.1.7 Estructura de un Analizador Lexicográfico
Un analizador lexicográfico es implementado con la clase AnaLex, que
se documenta en detalle en la sección 13.6.
6.2
Construcción del Arbol Sintáctico para una Expresión Regular
La construcción de un árbol sintáctico para una expresión regular se
implementó usando la técnica de análisis sintáctico SLR. La versión actual
utiliza tablas generadas con SLR1 versión 2 y la versión 2 de la biblioteca de
53
Implementación del Generador de Autómatas Finitos Determinísticos
soporte de SLR1. La primera implementación usaba tablas generadas por
SLR1 versión 1, con un analizador lexicográfico hecho a mano. Una vez
obtenido una versión del generador de AFDs se implementó otro con la clase
AnaLex de la biblioteca ExpReg versión 1; hasta el momento de la
presentación de este trabajo, el analizador lexicográfico continúa siendo el
mismo.
El lenguaje de las expresiones regulares se documenta en el capítulo 10.
La función de acciones semánticas que son las que actualmente
construyen el árbol se llama AccSem, es conocida solamente en el módulo
narbol01.cmm.
6.3
Cálculo de Anulable, PrimeraPos, UltimaPos y SiguientePos
El cálculo de las funciones PrimeraPos, UltimaPos y SiguientePos
quedan a cargo de la función NodoArbol::CalcPrimUltSig. La función
NodoArbol::Anulable realiza el cálculo de la función Anulable.
La función NodoArbol::CalcPrimUltSig ha sido definida en forma
recursiva siguiendo las siguientes reglas:
1. Si para un nodo dado PrimeraPos, UltimaPos y SiguientePos ya han sido
calculados entonces no se hace nada.
2. Para cualquier tipo de nodo, primero se calcula PrimeraPos, UltimaPos y
SiguientePos de los subárboles que pudiera tener. Luego se procede
según las reglas dadas en la sección 3.2.2 y en la figura 6.
La función NodoArbol::Anulable es también recursiva, y procede de
acuerdo a lo especificado por la figura 5.
6.4
Construcción de la tabla de transición de estados del AFD
La función ExpReg::Reasignar es la que construye un AFD a partir de
una expresión regular de entrada, la que se da en formato texto.
Primero se arma el árbol sintáctico, luego se calcula PrimeraPos,
UltimaPos y SiguientePos para los nodos, y finalmente se procede a calcular
54
Implementación del Generador de Autómatas Finitos Determinísticos
las transiciones mediante el procedimiento dado en la figura 7, en la sección
3.3.2.
6.5
Funcionamiento de un AFD
El funcionamiento de un AFD se implementa con la función
ExpReg::Examinar, que se documenta en la sección 13.4.2 con mayor
detalle.
6.6
Funcionamiento de un analizador lexicográfico
El funcionamiento de un analizador lexicográfico se encuentra
encapsulado en la función AnaLex::Examinar, que se documenta en la
sección 13.6.2 con más detalle.
6.7
Funcionamiento del Generador de Autómatas Finitos
Determinísticos
La implementación de un generador de autómatas finitos determinísticos
se reduce sólo al uso de las rutinas de la biblioteca ExpReg. Es trabajo del
usuario el obtener la expresión regular en formato texto en memoria. La
implementación usada para AFD v 3.x se resume con los siguientes pasos:
1. Primero se debe obtener la expresión regular en memoria, de cualquier
fuente (archivo, pantalla, etc.).
2. Mediante un objeto ExpReg se llama a ExpReg::Reasignar mandando
como parámetro el texto con la expresión regular de entrada. Si esto no
da error, entonces se prosigue con los pasos siguientes. Sino, había un
error en la expresión regular de entrada.
3. El fuente C++ del AFD (definición del objeto AutomFinDet) se realiza
llamando a la función ExpReg::ImprFuente, que recibe como
parámetro el nombre del archivo donde se debe imprimir y las cadenas
postfijos que se deben usar (ver sección 13.4.2 para más detalle).
4. Una versión en formato texto del AFD se imprime llamando a la función
ExpReg::Imprimir pasando como parámetro el archivo donde se
deberá imprimir.
55
Implementación del Generador de Autómatas Finitos Determinísticos
Los 4 pasos precedentes pueden ser fácilmente implementados en una
sola función y en cualquier sistema operativo para el que se disponga de un
compilador de C++. El objetivo de la reusabilidad fácil del generador de AFD
se ha cumplido.
Para la implementación, se puede seguir la siguiente, la cual es
independiente del sistema operativo:
// Sea cad una cadena Ascii terminada por un 0 (una cadena C++)
Ascii0 cad;
// Paso 1: aquí cargar cad con el texto con la expresión regular
// Paso 2: probar generar el AFD a partir del texto fuente:
ExpReg er;
Ascii0 CadPosErr;
if (! er.Reasignar(cad, CadPosErr))
return ERROR;
// Paso 3: guardar fuente C++
if (! er.ImprFuente(NomArchCMM, 0, 0))
return ERROR;
// Paso 4: guardar archivo de texto con autómata
ArchivoSO arch;
if (arch.Abrir(NomArchTXT, MA_E, MD_TXT))
return ERROR;
er.Imprimir(arch);
arch.Cerrar();
La implementación que se realizó para AFD v 3.x está basada en el
código precedente, y se la puede ver en las secciones 22.1 y 22.2, donde se
muestra el código fuente.
56
Implementación del Generador de Analizadores Sintácticos SLR
y del Generador de Analizadores Lexicográficos
Capítulo 7: Implementación del Generador de Analizadores
Sintácticos SLR y del Generador de Analizadores
Lexicográficos
A los efectos de que el generador de analizadores sintácticos SLR pueda
ser incluido en programas del usuario, se creará una biblioteca C++ que
ofrecerá todas las funciones necesarias. La biblioteca recibió el nombre de
Biblioteca de Soporte del Generador de Analizadores Sintácticos SLR.
El generador debe ser visto como un programa de algún usuario que
hace uso de la biblioteca de soporte. El generador recibió el nombre de SLR1
por SLR(1).
La E/S se realizó utilizando la biblioteca BCE.
El listado de los códigos fuentes los encontrará en la parte 5. Más
documentación de la implementación la puede encontrar en el capítulo 11 y 12
en donde se da una guía del usuario para la biblioteca de soporte y SLR1.
Este capítulo documenta solamente la implementación usada en la
versión 2.x del generador de analizadores sintácticos. La implementación
usada por la versión 1 se documenta brevemente en el capítulo que presenta la
guía del usuario del mismo.
7.1
Estructuras de Datos
Las declaraciones de las estructuras de datos se hallan repartidos en
varios módulos cabeceras a saber:
1. En gramlc.h se encuentran declaradas todas las clases y funciones para
trabajar con gramáticas libre de contexto.
2. En genslr.h se encuentran declaradas todas las clases y funciones
utilizadas por el generador de analizadores sintácticos SLR.
3. En slr1.h se encuentran declaradas todas las clases y funciones para
trabajar con analizadores sintácticos SLR(1).
57
Implementación del Generador de Analizadores Sintácticos SLR
y del Generador de Analizadores Lexicográficos
7.1.1 Estructura de un Símbolo de una Gramática
La estructura de un símbolo de una gramática se implementa con la
clase Simbolo. La clase tiene los siguientes campos datos:
Cad: es un puntero a una cadena Ascii0 asignada dinámicamente que tiene la
versión texto del símbolo, exactamente igual a como lo especificó el usuario.
Codigo: es el código del símbolo. Se usa un entero de 15 bits (obsérvese que
es un campo tipo bit), por lo que habrá a lo sumo 23767 símbolos posibles.
NoTerminal: este campo es de 1 bit; contiene 0 si éste símbolo es terminal y 1
si es no terminal.
Un símbolo de una gramática puede ser unívocamente identificado
usando los campos Codigo y NoTerminal. A la combinación de estos dos
campos se lo denominará código compuesto del símbolo.
7.1.2 Estructura de un Conjunto de Símbolos
Un conjunto de símbolos es la base para la definición de la estructura de
una regla y de un alfabeto.
La clase ConjSimb define la interfase mínima que debe tener un clase
que implemente un conjunto de símbolos e implementa las operaciones
fundamentales aplicables a un conjunto de símbolos. Esta clase es virtual pura.
La clase ConjSimbLSE implementa un conjunto de símbolos usando
una lista simple encadenada de símbolos. Se eligió lista simple encadenada
debido a que no se sabe de antemano el número de símbolos que tendrá el
conjunto, y de esta forma se ahorra memoria. Por otra parte, como siempre
habrán pocos símbolos (en promedio 4 o 5), la pérdida de tiempo por usar
búsqueda secuencial es mínima.
La clase ConjSimbLSE tiene 2 campos datos:
lse: es la lista simple encadenada de símbolos. Se usa la instancia
LSE<Simbolo> de la familia de clases LSE<X> definida como template en
lse.h. El archivo lse.h pertenece a la Biblioteca BCE cuyo autor es el mismo de
este trabajo.
pUlt:es el puntero al último elemento de la LSE de símbolos. Se mantiene el
puntero al último debido a que siempre se agregan elementos al final de la lista
58
Implementación del Generador de Analizadores Sintácticos SLR
y del Generador de Analizadores Lexicográficos
para mantener el orden de aparición de los mismos, y de esta manera se reduce
al mínimo el agregado de un elemento a la lista.
La función ConjSimbLSE::AgregarSinCad agrega un símbolo al
conjunto pero sin asignar el campo Cad del mismo, esto es, sólo se realiza una
copia de su código compuesto.
7.1.3 Estructura de una Regla de una Gramática Libre de Contexto
La estructura de una regla de una gramática libre de contexto se
implementa con la clase ReglaLC, la que deriva de ConjSimbLSE. Se agrega
un solo campo dato a esta clase:
AccSem: contiene un texto con el código de las acciones semánticas a ejecutar
cuando se reduzca por esta regla. Puede o no ser usado.
En ConjSimbLSE por defecto no se acepta redundancia de símbolos. Se
denominará redundancia de símbolo a la repetición de los mismos dentro de un
mismo conjunto. En una ReglaLC si se acepta redundancia, y es a los efectos
de contemplar la posibilidad de que un símbolo pueda aparecer varias veces en
una regla.
La flecha (o símbolo separador) no se incluye. El primer elemento de la
lista es el no terminal de la izquierda de la regla. El segundo elemento es el
primer símbolo de la parte derecha de la regla. El tercer elemento es el
segundo símbolo de la parte derecha de la regla; y así sucesivamente. Si la
regla es de la forma "A --> " ( A --> λ ) entonces la lista tendrá solamente un
elemento.
7.1.4 Estructura de un Alfabeto
La estructura de un alfabeto se implementa con la clase Alfabeto. La
misma deriva de la clase ConjSimbLSE, y no agrega nada a la misma.
7.1.5 Estructura de un Descriptor de un Terminal
La estructura de un descriptor de un terminal se implementa con la clase
DescrTerminal.
Los descriptores de terminales sirven para dar soporte a las sentencias
#IGNORAR y #TERMINAL de la especificación 2.0 de la metagramática
59
Implementación del Generador de Analizadores Sintácticos SLR
y del Generador de Analizadores Lexicográficos
usada por la función Gramatica::Reasignar para la carga de una gramática en
memoria (consulte la sección 12.3 donde se documenta la metagramática).
Los campos datos de esta clase son:
Cadena: es el identificador que aparece en las directivas IGNORAR y
TERMINAL. Si la cadena aquí almacenada no es elemento del conjunto de
símbolos terminales entonces la directiva usada fue IGNORAR.
NomArch: es el nombre del archivo donde se encuentra la expresión regular
que define la estructura de éste terminal. Si aquí hay una cadena nula entonces
se usará Cadena como nombre de archivo.
7.1.6 Estructura de un Descriptor de Acción Semántica
Un descriptor de acción semántica se usa para el caso de que se haya
usado la directiva ACCSEM. Al encontrar la directiva ACCSEM se construye
un descriptor de acción semántica que contiene:
Ident: el identificador usado en la directiva.
TxtAccSem: el texto correspondiente al bloque de código especificado en la
directiva. En donde se encuentre Ident en el texto de la gramática fuente se
deberá entender que se hace referencia a éste bloque de código.
7.1.7 Estructura de una Gramática Libre de Contexto
Una gramática libre de contexto se implementa con la clase Gramatica.
Los campos datos de esta clase son:
Term: es el alfabeto de símbolos terminales. Se usa la clase Alfabeto.
NoTerm: es el alfabeto de símbolos no terminales. Se usa la clase Alfabeto.
Reglas: es el conjunto de reglas que definen la estructura del lenguaje. Se
implementa con una lista simple encadenada de objetos ReglaLC.
BlqCodInic: contiene el texto del bloque de código que se puso antes de las
reglas en el texto fuente de esta gramática. Se usa durante la generación del
código C++ de las acciones semánticas.
60
Implementación del Generador de Analizadores Sintácticos SLR
y del Generador de Analizadores Lexicográficos
ClaseElemPila: si el analizador sintáctico usará una clase distinta a la definida
por defecto, en este campo estará el nombre de esa clase.
TablaAccSem: es el conjunto de las acciones semánticas definidas usando la
directiva ACCSEM. Contiene las acciones semánticas que son comunes a 2 o
más reglas. Se implementa usando la clase LSE (por medio de lista simple
encadenada).
TablaTerminal: si hay terminales descriptos por expresiones regulares, en
esta tabla están los nombres de archivos donde se encuentran esas expresiones
regulares. Esta tabla se construye a partir de las directivas TERMINAL e
IGNORAR. Se implementa usando la clase LSE.
MayIgualMin: si este campo es igual a 0 entonces las mayúsculas son
interpretadas como diferentes a las minúsculas (como en C++). Si es distinto a
0 entonces serán tomadas como iguales (como Pascal).
CodError: contendrá el código de error luego de haber ejecutado la operación
Gramatica::Reasignar.
Esta clase agrupa y encapsula las siguientes funciones importantes:
Anulable, Primero, Siguiente, generador del código C++ de las acciones
semánticas y al generador de analizadores lexicográficos (Gramatica::
ImprAnaLex).
7.1.8 Estructura de un Símbolo para el Analizador Sintáctico SLR
La estructura de un símbolo para cualquier analizador sintáctico SLR
generado es una versión resumida de la clase Simbolo. Se implementa con la
clase SimboloSLR, que contiene los siguientes campos:
Id: es el código del símbolo.
NoTerminal: si tiene 0 entonces éste símbolo es terminal, caso contrario es no
terminal.
61
Implementación del Generador de Analizadores Sintácticos SLR
y del Generador de Analizadores Lexicográficos
7.1.9 Estructura por defecto de los Elementos de la Pila del Analizador
Sintáctico SLR
La estructura por defecto de los elementos de la pila de cualquier
analizador sintáctico SLR generado se implementa con la clase ElemPila.
Contiene los siguientes campos:
Simb: aunque este campo es de acceso publico, sólo debe ser utilizado por el
analizador sintáctico SLR y debe ser usado como de sólo lectura. Contiene el
SimboloSLR1 correspondiente a ésta posición de la pila.
Estado: Contiene el número de estado correspondiente a ésta posición de la
pila. Aunque este campo es de acceso publico, sólo debe ser utilizado por el
analizador sintáctico SLR y debe ser usado como de sólo lectura.
CadTerm: es la cadena del terminal leído por el analizador lexicográfico y
que corresponde a ésta posición de la pila.
Si necesita campos adicionales para utilizarlos en las acciones
semánticas, se aconseja que la clase que implemente el elemento de la pila sea
una derivada de ésta.
7.1.10 Estructura de un Analizador Sintáctico SLR
La estructura de un analizador sintáctico SLR se implementa con la
clase AnalSLR1. Esta clase es una clase template, siendo el tipo de dato del
elemento de la pila el parámetro template. De esta manera, se escribió una sola
vez el código del analizador sintáctico SLR y el mismo servirá para cualquier
tipo de elemento de pila que se le pueda ocurrir a cualquier usuario en
cualquier tiempo.
La clase template AnalSLR1 en realidad define una familia de clases,
cada una de las cuales implementa un caso particular de analizador SLR, que
sólo difiere del resto en el tipo de elemento de la pila. El funcionamiento del
analizador es el mismo para todas las clases (obviamente), lo único que puede
cambiar son las tablas y la pila. El tipo de elemento de la pila y las tablas se
especificarán durante la creación del objeto AnalSLR1.
Al pedir realizar el análisis sintáctico, el analizador le pedirá que le
indique quién hará el análisis lexicográfico. De esta forma se contempla la
posibilidad que para un analizador sintáctico se puedan usar varios
analizadores lexicográficos en un mismo programa. El analizador
lexicográfico es el que realmente tratará con el texto fuente de entrada (a
62
Implementación del Generador de Analizadores Sintácticos SLR
y del Generador de Analizadores Lexicográficos
analizar sintácticamente). Se espera que el analizador lexicográfico haya sido
implementado usando la clase AnaLex.
Los campos datos de esta clase son protegidos salvo el campo
CodError. Ellos son:
ntlpd: es una tabla generada por el generador de analizadores sintácticos.
Contiene el número de terminales, el número de no terminales, y para todas las
reglas de la gramática, el código del no terminal de la regla y la longitud de la
parte derecha de la regla.
accion: es la tabla acción que se explicó en la sección 4.4. Puede haber sido
generada por el generador de analizadores sintáctico SLR.
ir_a: es la tabla ir_a cuya construcción de documenta en la sección 4.4. Puede
haber sido generada por el generador de analizadores sintáctico SLR.
fAccSem: es un puntero a la función que ejecuta las acciones semánticas.
fLimPila: es un puntero a la función que limpia la pila.
fVer: es un puntero a la función que permite ver el progreso del análisis
sintáctico.
CodError: aquí se almacena el código de error que pudiera haberse producido
durante una sesión de análisis sintáctico.
Con limpiar la pila se hace referencia a alguna posible operación
especial que a veces es necesario cuando se trabaja con objetos muy complejos
como campos de la clase que implementa los elementos de la pila. Se aconseja
no usar una función que limpie la pila, en su defecto, se debe hacer que el
destructor de la clase que implementa los elementos de la pila sea la que
realice la limpieza de ése elemento.
Consulte también la sección 12.8 que documenta esta clase desde una
perspectiva del usuario.
7.1.11 Estructura de la Pila del Analizador Sintáctico SLR
La pila del analizador sintáctico SLR se implementa usando vectores,
cuyo tamaño será indicado por el usuario al llamar a la función AnalSLR1::
Analizar.
63
Implementación del Generador de Analizadores Sintácticos SLR
y del Generador de Analizadores Lexicográficos
Por defecto, el tamaño del vector es 50 elementos, lo que es suficiente
para la mayoría de las situaciones. Si la gramática con la que se construyó éste
analizador usa mucho la recursividad por derecha entonces puede necesitar un
tamaño más grande de la pila.
La pila del analizador es local a la función AnalSLR1::Analizar, esto
quiere decir que la misma será construida y destruida cada vez que se llame a
esa función. De esta manera, mientras no se esté usando el analizador
sintáctico la pila no estará usando memoria.
Los elementos de la pila son de la clase especificada durante la creación
del objeto AnalSLR1.
Consulte también el capítulo 12 que documenta a SLR1 v 2.x desde una
perspectiva del usuario.
7.1.12 Estructura de las Tablas del Analizador Sintáctico SLR
Las tablas del analizador sintáctico SLR se implementaron en vectores,
con los elementos acomodados por fila mayor.
Aunque las tablas accion e ir_a pueden ser esparcidas. No se contempla
la posibilidad de almacenarlas en una estructura que reduzca el espacio
necesario para almacenarlas, porque para la gramática más grande con la que
se trabajó, las tablas llegaron a ocupar 4000 bytes aproximadamente. Se sabe
que cualquier computadora tiene más de 1 megabyte de RAM, entonces no se
tocó la implementación original de las tablas. Por otro lado, posiblemente sea
más conveniente perder espacio y ganar velocidad en acceso (se realizan
muchos accesos aleatorios a las tablas, durante el análisis sintáctico).
ntlpd: viene de no terminal de la izquierda - longitud de la parte derecha de la
regla.
Esta tabla contiene elementos de 2 bytes de tamaño. El primer byte es el
código del no terminal de la izquierda de la flecha de la regla. El segundo byte
contiene la cantidad de elementos de la parte derecha de la flecha de la regla, 0
si deriva en λ.
El elemento 1 contiene información de la regla 1, el elemento 2 contiene
información de la regla 2, y así sucesivamente.
64
Implementación del Generador de Analizadores Sintácticos SLR
y del Generador de Analizadores Lexicográficos
El elemento 0 contiene información especial, que difiere del resto de los
elementos de la tabla: en el primer byte (el byte alto si se está trabajando con
una PC sea cual fuere el sistema operativo) contiene el número de símbolos no
terminales de la gramática, el segundo byte (el byte bajo si se está usando una
PC) contiene el número de símbolos terminales.
accion:
Cada elemento de esta tabla debe ser visto como un entero no negativo
de 2 bytes. Los elementos de la tabla acción se acomodan por fila mayor. La
posición correspondiente al símbolo fin de archivo es la columna 0 de la
matriz, la columna 1 corresponde al primer terminal, la columna 2 al segundo
y así sucesivamente.
Los bits 15 y 14 contienen el código de acción, a saber: 00 para
desplazar, 01 para aceptar y 10 para reducir. El código 11 no se usa.
Los bits restantes se usan para especificar el nuevo estado al que debe
pasar el autómata.
Si un elemento corresponde a una posición de error de sintaxis, se
deberá almacenar un 0.
Si un elemento corresponde a una acción de desplazamiento, el número
estará en el rango de 0 y 16383, ambos inclusive. Nunca se encontrará la
acción d0 puesto que no se encontrará O' a la derecha de ninguna regla (para la
construcción de las tablas se partió de una gramática ampliada; consulte la
sección 4.4).
Para el elemento que tenga la acción aceptar se encontrará el número
16384. Habrá únicamente 1 solo elemento con ese valor.
Para los elementos que correspondan a reducciones se encontrarán
números en el rango de 32769 al 49151, ambos inclusive.
Si se encuentra un número que no haya sido especificado en los párrafos
precedentes entonces hubo problemas durante la construcción de ésta tabla.
ir_a:
Cada elemento de esta tabla debe ser visto como un entero no
negativo de 2 bytes. Los elementos de la tabla acción se acomodan por fila
65
Implementación del Generador de Analizadores Sintácticos SLR
y del Generador de Analizadores Lexicográficos
mayor. La columna 0 corresponde al primer no terminal, la columna 1 al
segundo, la columna 2 al tercero, y así sucesivamente.
Los valores que contiene cada elemento son directamente el número de
estado al que debe ir el autómata. Si la entrada de la tabla no está definida
entonces se deberá poner un 0.
7.1.13 Estructura de un Elemento del Análisis Sintáctico LR(0)
La estructura de un elemento del análisis sintáctico LR(0) se implementa
con la clase ElemCanonLR0, cuyos campos son:
pr: puntero a la regla a la que corresponde.
punto: puntero a la posición dentro de la regla, en donde se encuentra el
punto.
7.1.14 Estructura de un Conjunto de Elementos del Análisis Sintáctico LR(0)
El conjunto canónico de elementos se implementa por medio de una
lista simple encadenada de elementos ElemCanonLR0. La clase que
implementa se llama ConjElem y los campos datos son:
lse: es la lista simple encadenada de elementos.
numelem: es el número de elementos que hay en lse.
Se eligió la estructura de lista simple encadenada para implementar el
conjunto porque se desconoce de antemano el número de elementos que
resultan luego del cálculo de la función ir_a (ver sección 4.3.5).
7.1.15 Estructura de un Estado del Analizador Sintáctico SLR durante la
Construcción de las Tablas
Un estado se implementa con la clase Estado. Los campos dato de esta
clase son:
pce: es un puntero al conjunto de elementos de éste estado.
n: es el número que le tocó a éste estado.
66
Implementación del Generador de Analizadores Sintácticos SLR
y del Generador de Analizadores Lexicográficos
ves: es el vector de estados siguientes a éste estado. Contiene el resultado de la
función ir_a que se documenta en la sección 4.3.5, para cada símbolo
gramatical. El número de elementos de este vector es el número de terminales
más el número de no terminales más uno (para el fin de archivo).
7.1.16 Estructura de la Colección Canónica de Conjuntos de Elementos del
Análisis Sintáctico LR(0)
La estructura de la colección canónica de conjunto de elementos se
implementa con la clase ConjEst.
Se eligió la estructura de lista simple encadenada para el conjunto de
estado debido a que no se sabe de antemano el número de estados que habrá,
ni tampoco se hacen muchos accesos secuenciales como para justificar una
estructura de datos rara.
Los campos dato de la clase son:
lse: la lista simple encadenada de estados. El elemento 0 correspondrá al
estado 0, y así sucesivamente.
numest: es el número de estados, número de elementos que hay en lse.
Esta clase es la que actualmente está encargada de construir las tablas de
análisis sintáctico para una gramática dada. La función se llama
ConjEst::Armar, y recibe como parámetro una Gramatica.
7.2
Carga de una Gramática en Memoria
Se denominará carga de una gramática en memoria al proceso de pasar
de formato texto al formato especificado por la clase Gramatica.
La conversión de formato la realiza la función Gramatica::Reasignar,
que recibe como parámetro un texto en formato especificado por la
metagramática documentada en la sección 12.3.
Se construyó, a tal efecto, un analizador lexicográfico y un analizador
sintáctico SLR. Se usaron las clases AnaLex y AnalSLR1 respectivamente.
Las acciones semánticas escritas se encuentran en la metagramática.
67
Implementación del Generador de Analizadores Sintácticos SLR
y del Generador de Analizadores Lexicográficos
Al
finalizar
con
éxito
la
ejecución
de
la
función
Gramatica::Reasignar, la gramática está lista para ser procesada a efectos de
construir un analizador sintáctico y lexicográfico para la misma.
Si hay algún problema, el código del
Gramatica::CodError.
7.3
error se encontrará en
Generación de un Analizador Lexicográfico
La generación de un analizador lexicográfico se realiza a partir de una
lista de descriptores de terminales y del conjunto de símbolos terminales de
una gramática. La generación del analizador lexicográfico está basada en la
teoría explicada en el capítulo 5.
Se deberá construir un vector de reconocedores de símbolos a partir de
los descriptores y del conjunto de terminales usando las siguientes reglas:
1. Si un símbolo terminal se encuentra en la lista de descriptores de
terminales entonces se asume que el mismo está descripto por una
expresión regular que se encuentra en un archivo de texto cuyo nombre
está en el descriptor. Se incluirá entonces el autómata finito
determinístico generador por el programa AFD (o cualquier generador
que use la biblioteca ExpReg) a partir de ese archivo.
2. Si un símbolo terminal no se encuentra en la lista de descriptores y es un
literal (se llamará literal a un símbolo que haya sido especificado entre
comillas simples o dobles), entonces se especifica esa cadena de
caracteres en la construcción del reconocedor de símbolo respectivo.
3. Si un símbolo terminal no se encuentra en la lista de descriptores y no es
un literal entonces en la especificación de la gramática no se dio una
descripción correcta del mismo. El descriptor de estos terminales será
construido de manera similar a los del punto anterior, pero deberá ser
modificado a efectos de que el analizador lexicográfico funcione de la
manera esperada.
4. Si hay un descriptor de símbolo para el cual no hay un correspondiente
símbolo terminal, entonces se asume que hay un secuencias de
caracteres en el texto fuente que deberán ser ignorados, y la estructura
de esas secuencias están especificadas por expresiones regulares que se
encuentran en los archivos especificados por los correspondientes
68
Implementación del Generador de Analizadores Sintácticos SLR
y del Generador de Analizadores Lexicográficos
descriptores. Por ejemplo, es común ignorar blancos y comentarios en
un texto correspondiente a una oración del lenguaje.
La función que implementa los pasos anteriores se llama Gramatica::
ImprAnaLex, que es una versión que genera un fuente C++ para el analizador
lexicográfico, que se implementa usando la clase AnaLex.
En este trabajo no se contempla la construcción dinámica de
analizadores lexicográficos. Un constructor dinámico sería el que tome una
gramática y construya directamente el objeto AnaLex, dejándolo listo para ser
usado en el mismo programa en donde se encuentra el constructor dinámico.
La base para escribir el constructor dinámico la puede encontrar en el código
fuente de Gramatica::ImprAnaLex.
7.4
Generación de un Analizador Sintáctico SLR
La generación de las tablas para un analizador sintáctico SLR se resume
en los siguientes pasos:
1. Primero cargar la gramática en memoria, esto es, construir un objeto
Gramatica que contenga la gramática fuente. Se debe utilizar la función
Gramatica::Reasignar para convertir de formato texto a formato
Gramatica.
2. A partir de esa gramática se debe armar la colección canónica de
conjuntos de elementos del análisis sintáctico LR(0). Esta operación
construye además las tablas acción e ir_a que definen al analizador
sintáctico para la gramática fuente. Se debe utilizar la función
ConjEst::Armar.
3. Para generar el código C++ del analizador lexicográfico se debe utilizar
la función Gramatica::ImprAnaLex.
4. Para generar el código C++ de las acciones semánticas se debe utilizar
Gramatica::ImprAccSem.
5. Para generar el código C++ de las tablas se debe utilizar la función
ConjEst::ImprTablaC.
6. Para generar un archivo de texto con los estados y las tablas del
analizador generado se debe utilizar la función ConjEst::ImprTabla.
69
Implementación del Generador de Analizadores Sintácticos SLR
y del Generador de Analizadores Lexicográficos
La implementación de los pasos precedentes se encuentra en el módulo
genslr1.cmm. La parte independiente del sistema operativo del mismo se
transcribe a continuación:
//
//
//
//
//
Implementación de la generación de un analizador sintáctico SLR y de un
analizador lexicográfico a partir de una gramática.
El código siguiente deberá estar dentro de alguna función C++.
Si es necesario se deberá intercalar código que muestre el progreso y
los errores que pudieran ocurrir.
// Objetos utilizados:
Gramatica G;
ConjEst AutomataSLR1;
Ascii0 CadPosErr, GramTxt;
const char * nom,
cmm[] = ".cmm",
est[] = ".est",
tab[] = ".tab";
ArchivoSO a;
// Cargar la gramática en la memoria:
if ( a.Abrir(NomArch, MA_L) )
return ERROR; // imposible abrir archivo
if (! GramTxt.Reasignar(a.Tam()+1))
return ERROR; // falta memoria para cargar el texto
if ( ! a.Leer( (char *) GramTxt, a.Tam() ) )
return ERROR; // error de e/s al intentar leer el texto desde archivo
a.Cerrar();
// Realizar análisis sintáctico y reasignar a objeto Gramatica
if (! G.Reasignar(GramTxt, CadPosErr))
return ERROR; // error de sintaxis o lexicográfico en gramática
G.ArmarAlfabetos(); // terminal y no terminal
// Generar el código fuente con las acciones semánticas:
nom = NomExt(NomArch, cmm);
if (a.Abrir(nom, MA_E))
return ERROR;
G.ImprAccSem(a, Sufijo);
a << "\n";
// Generar código para el analizador léxico:
G.ImprAnaLex(a, Sufijo);
// Imprimir analizador sintáctico: se genera declaración de la forma
// AnalSLR1<ElemPila> asSufijo(ntlpdSufijo, accionSufijo, ir_aSufijo,
//
AccSemSufijo);
a << "\n// Definición del analizador sintáctico (SLR1 v 2.3).\n"
"// Cambiar de lugar la definición si es necesario.\n\n"
"# include \"" << NomExtSinDir(NomArch, tab)
<< "\" // tablas del analizador sintáctico\n\nAnalSLR1<"
<< (const char *) G.ClaseElemPila << "> as" << Sufijo
<< "(ntlpd" << Sufijo << ", accion" << Sufijo << ", ir_a" << Sufijo
<< ", AccSem" << Sufijo << ");";
a.Cerrar();
// Imprimir la gramática en archivo .est
nom = NomExt(NomArch, est);
70
Implementación del Generador de Analizadores Sintácticos SLR
y del Generador de Analizadores Lexicográficos
if ( a.Abrir(nom, MA_E, MD_TXT) )
return ERROR; // no se puede abrir el archivo .est para escritura
a << G;
// Armar las tablas de análisis sintáctico
AutomataSLR1.Armar(G, FuncError);
// Imprimir las tablas en archivo .est
a << "\n\nEstados: \n\n" << AutomataSLR1;
AutomataSLR1.ImprTabla(a, G);
a.Cerrar();
// Imprimir las tablas en archivo .tab
AutomataSLR1.ImprTablaC(NomExt(NomArch, tab), G, Sufijo);
// Fin de la implementación
7.5
Implantación del Algoritmo de Análisis Sintáctico SLR
El algoritmo de análisis sintáctico SLR que se muestra en la figura 10 de
la sección 4.2.1, se implementa con la función AnalSLR1::Analizar, que
recibe como entrada el analizador lexicográfico a usar y el tamaño de la pila.
Consulte la sección 12.8 que documenta la función AnalSLR1::
Analizar.
71
Parte 3. Documentación para el Usuario
72
Documentación de AFD versión 1.x
Capítulo 8: Documentación de AFD versión 1.x
El texto de este capítulo es la documentación de AFD v 1.x, y debe ser
tomado como un libro aparte. No se hacen referencias a otros capítulos de este
trabajo.
La última versión de AFD importante disponible es la 3.x. Su
documentación la encontrará en el capítulo 10. Si se planea usar AFD entonces
se debe usar esa versión o alguna posterior.
En el capítulo 18, donde se comenta la historia del desarrollo de las
herramientas presentadas en este trabajo, se puede encontrar información
interesante acerca de esta implementación.
8.1
Introducción
El programa AFD (por autómata finito determinístico) es un generador
de autómata finito determinístico (dado en tablas y fuente C++) a partir de una
expresión regular fuente.
Esta versión ha sido realizada para uso interno del autor solamente, para
poder mejorar el analizador lexicográfico de la versión 2. Es muy limitada en
cuanto al lenguaje fuente de especificación de una expresión regular. Además
la inclusión del AFD generado en un programa es un poco complicado.
Esta documentación puede resultar incompleta para el uso de AFD en
programación. La razón es que debe utilizar la versión 2 o posterior de AFD.
8.2
Descripción general del funcionamiento
El programa AFD v 1 funciona bajo DOS. Utiliza la salida estándar para
la comunicación de mensajes. La entrada son los argumentos pasados al
arrancar el programa.
La sintaxis de llamada es:
AFD
"expreg"
[ PostFijoObj ] [ PostFijoSubobj ]
donde:
expreg: es la expresión regular. Su sintaxis se explica más adelante.
73
Documentación de AFD versión 1.x
PostFijoObj: es la cadena postfijo a utilizar para los nombres del objeto
AutomFinDet. Es opcional.
PostFijoSubobj: es la cadena postfijo a utilizar para los nombres de las tablas.
Si éste parámetro no es dado se toma el valor de
PostFijoObj. Este parámetro también es opcional.
Si utiliza el operador > de redireccionamiento de la salida estándar
puede mandar la misma a un archivo de texto, para luego poder consultarlo en
detalle y poder usar el fuente C++ generado.
Las tablas que se generan se presentan en un formato similar utilizado
por la bibliografía que trata sobre AFDs. El fuente se da en C++, las
declaraciones importantes las puede encontrar en EXPREG.H, y si usa el
fuente C++ debe incluir la biblioteca EXPREG.LIB. El contenido de las tablas
y la estructura del fuente C++ se explica más adelante.
8.3
Sintaxis de una expresión regular
Una expresión regular reconocido por AFD versión 1 queda
perfectamente definido por las siguientes reglas:
1. La cadena nula (lambda) es una expresión regular.
2. Si a no es un caracter reservado (operador), a es una expresión regular.
3. Si r y s son expresiones regulares, entonces las siguientes son
expresiones regulares:
a. r s
(concatenación).
b. r | s
(uno u otro).
c. r *
(0 o más veces r).
d. r +
(1 o más veces r).
e. r ?
(0 o 1 vez r).
f. ( r )
(los paréntesis se utilizan para asociar).
Los operadores ( ) (paréntesis) tienen la mayor precedencia. Los
operadores *, +, y ? tienen los tres la misma precedencia y son de menor
precedencia que los paréntesis. Por último, el | junto con la concatenación (que
74
Documentación de AFD versión 1.x
no tiene carácter que lo represente, simplemente se ponen las expresiones
regulares una a la par de la otra) son los que tienen menor precedencia.
La gramática usada por AFD v 1 es la siguiente:
ExpReg --> ExpReg ExpReg2
ExpReg --> ExpReg '|' ExpReg2
ExpReg --> ExpReg2
ExpReg2 --> ExpReg3 '?'
ExpReg2 --> ExpReg3 '+'
ExpReg2 --> ExpReg3 '*'
ExpReg2 --> ExpReg3
ExpReg3 --> '(' ExpReg ')'
ExpReg3 --> Caracter
El analizador lexicográfico utilizado por esta versión es muy simple.
Reconoce sólo caracteres y operadores de la siguiente manera:
Los caracteres |, ?, +, *, ( y ) son caracteres reservados. No pueden ser
usados como simples caracteres en la expresión regular.
Si el caracter actual no es un caracter reservado, entonces se lo toma
literalmente. Por ejemplo, "a? b" es una expresión regular formado por un
espacio y una b precedido opcionalmente por una a.
8.4
Ejemplos del funcionamiento del programa
8.4.1 Ejemplo 1
En este ejemplo se da una expresión regular para reconocer blancos de
un archivo de texto. El rango de caracteres considerados blancos se simbolizan
con la letra b. A la hora de implementar el fuente, se deberá cambiar éste por
su correspondiente rango.
Expresión regular: b+
Llamada a AFD: AFD "b+" Blanco
75
Documentación de AFD versión 1.x
Salida de AFD:
Expresión regular: b+
Caracter o rango: (0, "b")
Tabla de transiciones:
0
0
1
1
1
Estado final: 1
En
//
//
//
formato fuente:
Fuente del AFD para la expresión regular "b+"
Generado por AFD versión 1 (Ene 95)
Domingo Eduardo Becker, Sgo. del Estero, (085) 22-2488/1088.
# ifndef __EXPREG_H
# include "expreg.h"
# endif
static const char erBlanco[] = "b+";
static const char * vcBlanco[] = {
"b"
};
static const unsigned tBlanco[] = {
1,
1
};
static const unsigned efBlanco[] = {
1, 1
};
AutomFinDet afdBlanco = { erBlanco, vcBlanco, 1, tBlanco, efBlanco };
8.4.2 Ejemplo 2
La siguiente expresión regular ha sido extraída del libro "Compiladores
- principios, técnicas y herramientas" de Aho, Sethi y Ullman, editorial
Addison-Wesley Iberoamericana, página 138 de la versión en Castellano,
figura 3.39. La expresión regular se la da en 3.39.a, y el autómata finito
determinístico para esa expresión regular está en 3.39.b; observe que el
autómata resultante es exactamente igual al mostrado en la figura (esto es así
porque AFD v 1 utiliza el mismo algoritmo usado para generar el de esa
figura).
Expresión regular: (a|b)*abb
Llamada a AFD: AFD "(a|b)*abb"
Salida de AFD:
Expresión regular: (a|b)*abb
Caracteres y/o rangos: (0, "a"), (1, "b")
Tabla de transiciones:
0
1
0
1
0
1
1
2
76
Documentación de AFD versión 1.x
2
1
3
3
1
0
Estado final: 3
8.4.3 Ejemplo 3
La siguiente expresión regular sirve para reconocer caracteres en
formato C++. Con la letra d se simboliza la comilla doble (que no puede ser
usada en la llamada a AFD por ser caracter reservado de DOS). Con la letra e
se simboliza un caracter usado para representar una secuencia de escape. Con
el punto se simbolizan todos los demás caracteres.
Expresión regular: '((\(\|'|d|e))|e|.)'
Llamada a AFD: AFD "'((\(\|'|d|e))|e|.)'" Caract
Salida de AFD:
Expresión regular: '((\(\|'|d|e))|e|.)'
Caracteres y/o rangos: (0, "\'"), (1, "\\"), (2, "d"), (3, "e"), (4, ".")
Tabla de transiciones:
0
1
2
3
4
0
1
1
2
3
3
2
3
3
3
3
3
4
4
Estado final: 4
En
//
//
//
formato fuente:
Fuente del AFD para la expresión regular "'((\(\|'|d|e))|e|.)'"
Generado por AFD versión 1 (Ene 95)
Domingo Eduardo Becker, Sgo. del Estero, (085) 22-2488/1088.
# ifndef __EXPREG_H
# include "expreg.h"
# endif
static const char erCaract[] = "'((\(\|'|d|e))|e|.)'";
static const char * vcCaract[] = {
"\'", "\\", "d", "e", "."
};
static const unsigned tCaract[] = {
1, TNDEF, TNDEF, TNDEF, TNDEF,
TNDEF,
2, TNDEF,
3,
3,
3,
3,
3,
3, TNDEF,
4, TNDEF, TNDEF, TNDEF, TNDEF,
TNDEF, TNDEF, TNDEF, TNDEF, TNDEF
};
static const unsigned efCaract[] = {
1, 4
};
AutomFinDet afdCaract = { erCaract, vcCaract, 5, tCaract, efCaract };
77
Documentación de AFD versión 1.x
8.4.4 Ejemplo 4
En este ejemplo se da una expresión regular para reconocer rangos de
caracteres en el formato de LEX de UNIX. Con la letra d se simboliza la
comilla doble, con la letra e se simbolizan los caracteres utilizados en las
secuencias de escape, y con el punto se simbolizan el resto de los caracteres.
Expresión regular: [((\(\|'|d|e))|e|.)+]
Llamada a AFD: AFD "[((\(\|'|d|e))|e|.)+]" Rango
Salida de AFD:
Expresión regular: [((\(\|'|d|e))|e|.)+]
Caracteres y/o rangos: (0, "["), (1, "\\"), (2, "\'"), (3, "d"), (4, "e"),
(5, "."), (6, "]")
Tabla de transiciones:
0
1
2
3
4
5
6
0
1
1
2
3
3
2
3
3
3
3
3
2
3
3
4
4
Estado final: 4
En
//
//
//
formato fuente:
Fuente del AFD para la expresión regular "[((\(\|'|d|e))|e|.)+]"
Generado por AFD versión 1 (Ene 95)
Domingo Eduardo Becker, Sgo. del Estero, (085) 22-2488/1088.
# ifndef __EXPREG_H
# include "expreg.h"
# endif
static
static
"[",
};
static
const char erRango[] = "[((\(\|'|d|e))|e|.)+]";
const char * vcRango[] = {
"\\", "\'", "d", "e", ".", "]"
const unsigned tRango[] = {
1, TNDEF, TNDEF, TNDEF, TNDEF, TNDEF, TNDEF,
TNDEF,
2, TNDEF, TNDEF,
3,
3, TNDEF,
TNDEF,
3,
3,
3,
3, TNDEF, TNDEF,
TNDEF,
2, TNDEF, TNDEF,
3,
3,
4,
TNDEF, TNDEF, TNDEF, TNDEF, TNDEF, TNDEF, TNDEF
};
static const unsigned efRango[] = {
1, 4
};
AutomFinDet afdRango = { erRango, vcRango, 7, tRango, efRango };
8.5
Descripción de la salida de AFD
La salida de AFD v 1 consta de dos partes según se especifique o no
el/los postfijo(s) en la sintaxis de llamada. La primera parte es un texto
explicativo del AFD generado a partir de la expresión regular en formato
78
Documentación de AFD versión 1.x
similar al que se usa en la bibliografía. La segunda parte es una versión C++
de la primera parte, y comienza con el mensaje "En formato fuente:".
En ambas partes se muestra primero la expresión regular, en la de C++
se usa el prefijo er por expresión regular.
Lo que sigue es la enumeración de los caracteres que aparecen en la
expresión regular. El prefijo usado en el fuente C++ es vc. En la primera parte
se muestran como una enumeración de pares ordenados en donde la primera
componente es el número asignado al caracter y la segunda componente es el
caracter. El número asignado al caracter sirve para acceder a la columna
correspondiente de la tabla de transición de estados del autómata.
Luego se presenta la tabla de transición de estados del autómata finito
determinístico generado. Por filas están los estados, comenzando por el 0. Por
columnas están los caracteres que participan en la expresión regular. En la
parte de formato texto la primera fila de esta tabla muestra los números de
caracter, y la primera columna los números de estado. El número que aparece
en la primera fila indica el número de caracter que va allí. Por ejemplo, el 0
indica que esa columna corresponde al primer caracter aparecido en la
expresión regular, que es el primero que aparece en la enumeración de
caracteres "Caracteres y/o rangos:". En el fuente C++ la tabla tiene nombre
con prefijo t, se almacena por filas en un vector de enteros sin signo. El
tamaño de este vector es: cantidad de estados por cantidad de caracteres.
Los estados finales son almacenados en el vector de enteros sin signo
que tiene prefijo vf. El primer elemento de éste vector indica el número de
estados finales, a continuación están los estados finales.
La implementación del autómata finito determinístico es realizada con la
clase AutomFinDet declarada en EXPREG.H. La declaración es como sigue:
class AutomFinDet {
public:
const char * ExpRegular;
const char * * Caracter;
unsigned NumCar;
const unsigned * Transicion,
* EstFinales;
};
en donde:
79
Documentación de AFD versión 1.x
ExpRegular: es una cadena de caracteres en formato C++ que define la
expresión regular reconocida por éste autómata.
Caracter: es un vector de cadena de caracteres que contiene los caracteres
posibles como caracteres simples o como rangos.
NumCar: es el número de caracteres, que coincide con el tamaño del vector
Caracter y con el número de columnas de la tabla de transición de estados del
autómata.
Transicion: es la tabla de transición de estados del autómata finito
determinístico que reconoce la expresión regular ExpRegular. Para una
transición no definida se debe utilizar TNDEF o el número hexa 0xffff.
EstFinales: es el conjunto de estados finales del AFD. El primer elemento de
este vector indica el número de estados finales, a continuación, en los
elementos siguientes, están los estados finales.
El número de estados no se almacena en la estructura debido a que,
como la tabla de transición de estados es generada automáticamente, su uso no
llevará a transicionar a un estado inexistente. Pero sí se almacena el número de
caracteres debido a que los mismos deberán pasar por un filtro de caracteres
para poder ser atendidos por el autómata. El filtro funciona como un
clasificador de caracteres; la clasificación (agrupación por rangos o grupos de
caracteres) sirve para minimizar la cantidad de estados necesarios.
Puede ver ejemplos de definición de objetos AutomFinDet en los
ejemplos dados previamente.
8.6
Consideraciones finales
Esta versión de AFD ha sido realizada a efectos de poder hacer una
versión más fácil de usar, en el que la entrada pueda ser dada en un formato
más amigable.
Los AFD generados pueden ser utilizados para implementar
analizadores lexicográficos. Los analizadores lexicográficos constan en
general de varios autómatas finitos determinísticos. Más información sobre la
implementación de analizadores lexicográficos usando la salida de AFD puede
encontrar en la documentación de la biblioteca ExpReg.
80
Documentación de AFD versión 1.x
Esta versión no ha sido realizada para uso de terceros, sólo para uso del
autor. Se debe utilizar alguna de las versiones siguientes.
81
Documentación de AFD versión 2.x
Capítulo 9: Documentación de AFD versión 2.x
El texto de este capítulo es la documentación de AFD v 2.x, y debe ser
tomado como un libro aparte. No se hacen referencias a otros capítulos de este
trabajo.
La última versión de AFD importante disponible es la 3.x. Su
documentación la encontrará en el capítulo 10. Si se planea usar AFD entonces
se debe usar esa versión o alguna posterior.
En el capítulo 18, donde se comenta la historia del desarrollo de las
herramientas presentadas en este trabajo, se puede encontrar información
interesante acerca de esta implementación.
La documentación que a continuación se presenta, ha sido hecha a partir
de la documentación de AFD versión 1.x.
9.1
Introducción
El programa AFD (por autómata finito determinístico) es un generador
de autómata finito determinístico (dado en tablas y fuente C++) a partir de una
expresión regular fuente.
A diferencia de la versión 1 de AFD, esta versión tiene un analizador
lexicográfico mejorado que permite el uso de caracteres en formato C++,
rangos de caracteres que incluyen secuencias de escape, y la posibilidad de
dejar espacio entre símbolos léxicos.
Aunque con esta versión se pueden realizar trabajos de programación, se
aconseja usar la versión 3, que tiene una gramática de especificación de la
entrada más completa y un analizador léxico mejorado, construido a partir de
ésta versión.
9.2
Descripción general del funcionamiento
El programa AFD v 2 funciona bajo DOS. Utiliza la salida estándar para
la comunicación de mensajes. La entrada son los argumentos pasados al
arrancar el programa.
La sintaxis de llamada es:
82
Documentación de AFD versión 2.x
AFD
"expreg"
[ PostFijoObj ] [ PostFijoSubobj ]
donde:
expreg: es la expresión regular. Su sintaxis se explica más adelante.
PostFijoObj: es la cadena postfijo a utilizar para los nombres del objeto
AutomFinDet. Es opcional.
PostFijoSubobj: es la cadena postfijo a utilizar para los nombres de las tablas.
Si éste parámetro no es dado se toma el valor de
PostFijoObj. Este parámetro también es opcional.
Si utiliza el operador > de redireccionamiento de la salida estándar
puede mandar la misma a un archivo de texto, para luego poder consultarlo en
detalle y poder usar el fuente C++ generado.
Las tablas que se generan se presentan en un formato similar utilizado
por la bibliografía que trata sobre AFDs. El fuente se da en C++, las
declaraciones importantes las puede encontrar en EXPREG.H, y si usa el
fuente C++ debe incluir la biblioteca EXPREG.LIB. El contenido de las tablas
y la estructura del fuente C++ se explica más adelante. Puede también
consultar la documentación de la biblioteca ExpReg para más información.
9.3
Sintaxis de una expresión regular
Una expresión regular reconocida por AFD versión 2 queda perfectamente definida por las siguientes reglas:
1. La cadena nula (lambda) es una expresión regular.
2. Si a no es un caracter reservado (operador), a es una expresión regular.
3. Si r y s son expresiones regulares, entonces las siguientes son
expresiones regulares:
a. r s
(concatenación).
b. r | s
(uno u otro).
c. r *
(0 o más veces r).
83
Documentación de AFD versión 2.x
d. r +
(1 o más veces r).
e. r ?
(0 o 1 vez r).
f. ( r )
(los paréntesis se utilizan para asociar).
Los operadores ( ) (paréntesis) tienen la mayor precedencia. Los
operadores *, +, y ? tienen los tres la misma precedencia y son de menor
precedencia que los paréntesis. Por último, el | es el que tiene menor
precedencia.
La gramática usada por AFD v 2 es la siguiente:
ExpReg --> ExpReg ExpReg2
ExpReg --> ExpReg '|' ExpReg2
ExpReg --> ExpReg2
ExpReg2 --> ExpReg3 '?'
ExpReg2 --> ExpReg3 '+'
ExpReg2 --> ExpReg3 '*'
ExpReg2 --> ExpReg3
ExpReg3 --> '(' ExpReg ')'
ExpReg3 --> Caracter
El analizador lexicográfico de esta versión se realizó con la versión 1 de
AFD. Los símbolos léxicos reconocidos son los siguientes: (cuando sea
aplicable se usarán expresiones regulares escritas en formato AFD v 2, por
cuanto pueden ser tomadas como ejemplo de especificación)
Operadores: | ? + * ( y )
Constante de caracter: ' ( ( \ ( \ | ' | " | [abtnvfr] ) ) | [abtnvfr] | [^\'\\\"\n] ) '
Rango: [ ( ( \ ( \ | ' | " | [abtnvfr] ) ) | [abtnvfr] | [^\'\\\"\n] ) + ]
Identificador: [a-zA-ZáéíóúñÑüÜ] ( [a-zA-ZáéíóúñÑüÜ] | [0-9] ) +
Observar que se usa + porque sino un identificador se confundiría con
un caracter que cualquiera que fuera letra o dígito. La longitud resultante de un
identificador es de por lo menos 2 caracteres.
El identificador no se usa en esta versión debido a que la entrada es la
estándar. Se usa recién en la versión 3, aunque el código que maneja
84
Documentación de AFD versión 2.x
identificadores ya está presente en esta versión. Por lo tanto no debe
especificar identificadores en la entrada.
Comentarios: / / [^\n] *
Los comentarios son iguales a los que se usan en C++, comienzan con
un doble // y terminan al final de la línea. No forman parte de la expresión
regular y son ignorados por el analizador léxico de AFD v 2.
Debido a que la entrada es una cadena de caracteres que se especifica
como argumento, se tiene solamente una línea, por lo que el comentario debe
estar siempre al final de la expresión regular de entrada, dentro de las comillas.
Blancos: [ \n\r\f\t\v] +
Los blancos no forman parte de la expresión regular y son ignorados por
el analizador lexicográfico de AFD v 2.
Otros: si un caracter que aparece en la expresión regular no cumple con
alguno de los componentes léxicos dados previamente, entonces es tomado
como un simple caracter por el analizador lexicográfico de AFD v 2. Así usted
verá que en las expresiones regulares dadas, si hay una comilla simple que
abre y no hay otra que cierra dos caracteres más adelante, entonces esa comilla
es tomada como literal. Para más detalle ver los ejemplos siguientes.
9.4
Ejemplos de funcionamiento del programa
9.4.1 Ejemplo 1
Expresión regular para un identificador reconocido por el analizador
léxico de AFD v 2.
Expresión regular: [a-zA-ZáéíóúñÑüÜ] ( [a-zA-ZáéíóúñÑüÜ] | [0-9] ) +
Llamada a AFD: AFD "[a-zA-ZáéíóúñÑüÜ] ( [a-zA-ZáéíóúñÑüÜ] | [0-9] )
+"
Salida de AFD:
Expresión regular: [a-zA-ZáéíóúñÑüÜ] ( [a-zA-ZáéíóúñÑüÜ] | [0-9] ) +
Caracteres y/o rangos: (0, "a-zA-ZáéíóúñÑüÜ"), (1, "0-9")
Tabla de transiciones:
85
Documentación de AFD versión 2.x
0
1
0
1
1
2
2
2
2
2
Estado final: 2
9.4.2 Ejemplo 2
Expresión regular para un comentario ignorado por el analizador léxico
de AFD v 2.
Expresión regular: / / [^\n] *
Llamada a AFD: AFD "/ / [^\n] * // ejemplo de comentario" Coment
Salida de AFD:
Expresión regular: / / [^\n] * // ejemplo de comentario
Caracteres y/o rangos: (0, "/"), (1, "^\n")
Tabla de transiciones:
0
1
0
1
1
2
2
2
Estado final: 2
En formato fuente:
// Fuente del AFD para la expresión regular "/ / [^\n] * // ejemplo de
comentario"
// Generado por AFD versión 2 (Ene 95)
// Domingo Eduardo Becker, Sgo. del Estero, (085) 22-2488/1088.
# ifndef __EXPREG_H
# include "expreg.h"
# endif
static
static
"/",
};
static
const char erComent[] = "/ / [^\n] * // ejemplo de comentario";
const char * vcComent[] = {
"^\n"
const unsigned tComent[] = {
1, TNDEF,
2, TNDEF,
TNDEF,
2
};
static const unsigned efComent[] = {
1, 2
};
AutomFinDet afdComent = { erComent, vcComent, 2, tComent, efComent };
9.4.3 Ejemplo 3
Expresión regular para los blancos ignorados por el analizador léxico de
AFD v 2.
86
Documentación de AFD versión 2.x
Expresión regular:
[ \n\r\f\t\v] +
Llamada a AFD: AFD "[ \n\r\f\t\v] +"
Salida de AFD:
Expresión regular: [ \n\r\f\t\v] +
Caracter o rango: (0, " \n\r\f\t\v")
Tabla de transiciones:
0
0
1
1
1
Estado final: 1
9.4.4 Ejemplo 4
Expresión regular para reconocer un caracter de manera similar al
analizador léxico de AFD v 2.
Expresión regular: ' ( ( \ ( \ | ' | " | [abtnvfr] ) ) | [abtnvfr] | [^\'\\\"\n] ) '
Debido a que la comilla doble es un caracter reservado del DOS y que la
expresión regular se la debe especificar entre comillas dobles en la llamada al
archivo, la comilla doble ha sido cambiada por la letra d en la misma.
Llamada a AFD: AFD " ' ( ( \ ( \ | ' | d | [abtnvfr] ) ) | [abtnvfr] | [^\'\\\nd] ) ' "
Salida de AFD:
Expresión regular: ' ( ( \ ( \ | ' | d | [abtnvfr] ) ) | [abtnvfr] |
[^\'\\\nd] ) '
Caracteres y/o rangos: (0, "\'"), (1, "\\"), (2, "d"), (3, "abtnvfr"), (4,
"^\'\\\nd")
Tabla de transiciones:
0
1
2
3
4
0
1
1
2
3
3
2
3
3
3
3
3
4
4
Estado final: 4
9.5
Descripción de la salida de AFD
La salida de AFD v 2 consta de dos partes según se especifique o no
el/los postfijo(s) en la sintaxis de llamada. La primera parte es un texto
explicativo del AFD generado a partir de la expresión regular en formato
87
Documentación de AFD versión 2.x
similar al que se usa en la bibliografía. La segunda parte es una versión C++
de la primera parte, y comienza con el mensaje "En formato fuente:".
En ambas partes se muestra primero la expresión regular, en la de C++
se usa el prefijo er por expresión regular.
Lo que sigue es la enumeración de los caracteres que aparecen en la
expresión regular. El prefijo usado en el fuente C++ es vc. En la primera parte
se muestran como una enumeración de pares ordenados en donde la primera
componente es el número asignado al caracter y la segunda componente es el
caracter. El número asignado al caracter sirve para acceder a la columna
correspondiente de la tabla de transición de estados del autómata.
Luego se presenta la tabla de transición de estados del autómata finito
determinístico generado. Por filas están los estados, comenzando por el 0. Por
columnas están los caracteres que participan en la expresión regular. En la
parte de formato texto la primera fila de esta tabla muestra los números de
caracter, y la primera columna los números de estado. El número que aparece
en la primera fila indica el número de caracter que va allí. Por ejemplo, el 0
indica que esa columna corresponde al primer caracter aparecido en la
expresión regular, que es el primero que aparece en la enumeración de
caracteres "Caracteres y/o rangos:". En el fuente C++ la tabla tiene nombre
con prefijo t, se almacena por filas en un vector de enteros sin signo. El
tamaño de este vector es: cantidad de estados por cantidad de caracteres.
Los estados finales son almacenados en el vector de enteros sin signo
que tiene prefijo vf. El primer elemento de éste vector indica el número de
estados finales, a continuación están los estados finales.
La implementación del autómata finito determinístico es realizada con la
clase AutomFinDet declarada en EXPREG.H. La declaración es como sigue:
class AutomFinDet {
public:
const char * ExpRegular;
const char * * Caracter;
unsigned NumCar;
const unsigned * Transicion,
* EstFinales;
};
en donde:
ExpRegular: es una cadena de caracteres en formato C++ que define la
expresión regular reconocida por éste autómata.
88
Documentación de AFD versión 2.x
Caracter: es un vector de cadena de caracteres que contiene los caracteres
posibles como caracteres simples o como rangos.
NumCar: es el número de caracteres, que coincide con el tamaño del vector
Caracter y con el número de columnas de la tabla de transición de estados del
autómata.
Transicion: es la tabla de transición de estados del autómata finito
determinístico que reconoce la expresión regular ExpRegular. Para una
transición no definida se debe utilizar TNDEF o el número hexa 0xffff.
EstFinales: es el conjunto de estados finales del AFD. El primer elemento de
este vector indica el número de estados finales, a continuación, en los
elementos siguientes, están los estados finales.
El número de estados no se almacena en la estructura debido a que,
como la tabla de transición de estados es generada automáticamente, su uso no
llevará a transicionar a un estado inexistente. Pero si se almacena el número de
caracteres debido a que los mismos deberán pasar por un filtro de caracteres
para poder ser atendidos por el autómata. El filtro funciona como un
clasificador de caracteres; la clasificación (agrupación por rangos o grupos de
caracteres) sirve para minimizar la cantidad de estados necesarios.
Puede ver ejemplos de definición de objetos AutomFinDet en los
ejemplos dados previamente.
9.6
Consideraciones finales
Los AFD generados por esta versión pueden ser utilizados para
implementar analizadores lexicográficos. Los analizadores lexicográficos
constan en general de varios autómatas finitos determinísticos. Más
información sobre la implementación de analizadores lexicográficos usando la
salida de AFD puede encontrar en la documentación de la biblioteca ExpReg.
Luego de usar esta versión de AFD observará la necesidad de tener una
sentencia tipo #define del C++ que permita definir macros, para así reducir el
esfuerzo de escribir expresiones regulares y hacerlas más legibles. La versión
3 de AFD resuelve este problema, para lo cual se cambió la gramática de
expresiones regulares.
89
Documentación de AFD versión 2.x
Esta versión no ha sido realizada para uso de terceros, sólo para uso del
autor. Se debe utilizar la versión 3 o siguiente dado que ofrecen más
prestaciones.
90
Documentación de AFD versión 3.x
Capítulo 10: Documentación de AFD versión 3.x
El texto de este capítulo es la documentación de AFD v 3.x, y debe ser
tomado como un libro aparte. No se hacen referencias a otros capítulos de este
trabajo.
En el capítulo 18, donde se comenta la historia del desarrollo de las
herramientas presentadas en este trabajo, se puede encontrar información
interesante acerca de esta implementación.
La documentación que a continuación se presenta, ha sido hecha a partir
de la documentación de AFD versión 2.x.
Esta versión de AFD trabaja conjuntamente con SLR1, el generador de
analizadores sintácticos. Los archivos .CMM generados por AFD son usados
por el analizador lexicográfico generado por SLR1.
10.1 Introducción
El programa AFD (por autómata finito determinístico) es un generador
de autómata finito determinístico (dado en tablas y fuente C++) a partir de una
expresión regular fuente.
A diferencia de la versión 2 de AFD, esta versión incluye la posibilidad
de definir macros para simplificar la escritura de expresiones regulares. Se
mencionará en adelante como AFD v 3 o AFD v 3.x.
Esta documentación describe a las versiones de DOS y Windows del
generador. La versión de OS/2 es similar a la de Windows y no es mencionada
en este documento.
10.2 Descripción general del funcionamiento
Una versión del programa AFD v 3 funciona bajo DOS. La expresión
regular se da en un archivo de texto. La salida en fuente C++ del autómata
finito determinístico se guarda en un archivo .CMM que tendrá el mismo
nombre del archivo de entrada. En la salida estándar se muestra el AFD en
formato texto.
La sintaxis de llamada al programa es:
91
Documentación de AFD versión 3.x
AFD ArchExpReg [ PostFijoObj ] [ PostFijoSubobj ]
Donde:
ArchExpReg: es un archivo de texto con la expresión regular
PostFijoObj: es la cadena postfijo a utilizar para los nombres del objeto
AutomFinDet. Es opcional, pero si lo especifica el fuente C++
será guardado en ArchExpReg.CMM.
PostFijoSubobj: es la cadena postfijo a utilizar para los nombres de las tablas.
Si éste parámetro no es dado se toma el valor de
PostFijoObj. Este parámetro también es opcional.
Si utiliza el operador > de redireccionamiento de la salida estándar
puede mandar la misma a un archivo de texto, para luego poder consultarlo en
detalle.
Otra versión de este utilitario funciona bajo Windows como un editor
multitexto (un editor que incluye la posibilidad de editar muchos textos a la
vez) con alta funcionalidad, en donde se incluye en el menú Archivo del
mismo la posibilidad de "Generar autómata" que ejecuta todo el proceso de
traducción para el texto cuya ventana es la actual. Como salida del proceso se
generan un archivo .CMM y un archivo .TXT con el mismo nombre que el de
entrada. El archivo .TXT contiene la versión en formato texto del autómata y
el archivo .CMM contiene la versión C++ del mismo.
Las tablas que se generan se presentan en un formato similar utilizado
por la bibliografía que trata sobre AFDs. El fuente se da en C++, las
declaraciones importantes las puede encontrar en EXPREG.H, y si usa el
fuente C++ debe incluir la biblioteca EXPREG.LIB. El contenido de las tablas
y la estructura del fuente C++ se explica más adelante. Puede también
consultar la documentación de la biblioteca ExpReg para más información.
10.3 Sintaxis de una expresión regular
Una expresión regular reconocida por AFD versión 3 queda
perfectamente definida por las siguientes reglas:
1. La cadena nula (lambda) es una expresión regular.
92
Documentación de AFD versión 3.x
2. Si a no es un caracter reservado (operador), a es una expresión regular.
3. Si r y s son expresiones regulares, entonces las siguientes son
expresiones regulares:
a. r s
(concatenación).
b. r | s
(uno u otro).
c. r *
(0 o más veces r).
d. r +
(1 o más veces r).
e. r ?
(0 o 1 vez r).
f. ( r )
(los paréntesis se utilizan para asociar).
La gramática usada por AFD v 3 es la siguiente:
ExpReg ----> Defs Disy
ExpReg ----> Disy
Defs ------> Defs Def
Defs ------> Def
Def -------> '#' Ident CteCar
Def -------> '#' Ident Rango
Disy ------> Disy '|' Concat
Disy ------> Concat
Concat ----> Concat Unario
Concat ----> Unario
Unario ----> Par_Car '?'
Unario ----> Par_Car '+'
Unario ----> Par_Car '*'
Unario ----> Par_Car
Par_Car ---> '(' Disy ')'
Par_Car ---> Caracter
Caracter --> Ident
Caracter --> CteCar
Caracter --> Rango
De la gramática surge que la precedencia de los operadores es la que se
muestra en la tabla siguiente:
93
Documentación de AFD versión 3.x
Orden
1
la más alta
2
Los 3 la
misma.
Operador
( )
?
+
*
4
5
|
Observaciones
Use para asociar o romper
precedencias.
0 o 1 vez.
1 o más veces.
0 o más veces.
Concatenación. No tiene caracter que
lo represente.
Disyunción.
Fig. 18 Precedencia de operadores en una expresión regular.
10.3.1 Símbolos Terminales que pueden aparecer en una Expresión Regular
El analizador lexicográfico de esta versión se realizó con la versión 2 de
AFD. Los símbolos léxicos (o terminales) reconocidos son los siguientes:
(cuando sea aplicable se usarán expresiones regulares escritas en formato AFD
v 3.x; las mismas pueden ser tomadas como ejemplo de especificación)
Operadores: | ? + * ( y )
Numeral: #
El numeral comienza una definición de macro. Para la definición de
macros consulte más adelante, en la sección 10.3.2. Ver ejemplos de su uso en
la definición de constante de caracter, rango, etc.
Constante de caracter:
# CarEsp [abtnvfr]
# Otros
[^\'\\\"\n]
' ( \ ( \ | ' | " | CarEsp ) | CarEsp | Otros ) '
Se considera constante de caracter a los que están entre comillas. Hay
constantes de caracter que pueden especificarse sin comillas; ejemplo de ello
son los que aparecen en la expresión regular dada que son la comilla simple y
la \.
Rango:
# CarEsp [abtnvfr]
# Otros [^\'\"\\\n]
'[' ( \ ( \ | ' | " | CarEsp ) | CarEsp | Otros ) + ']'
94
Documentación de AFD versión 3.x
Cualquier caracter menos nueva línea ('\n'): .
El punto es un caracter reservado de esta versión de AFD, sirve para
identificar cualquier caracter menos el '\n' (nueva línea). Expande al rango
[^\n]. Este caracter debe ser usado con mucho cuidado puesto que puede
resultar en un autómata finito no determinístico (por la intersección de rangos
de caracteres). En general es conveniente que aparezca al final de la expresión
regular, y, si hay un caracter después de éste, ese caracter debe haber aparecido
antes.
Identificador:
# Letra [a-zA-Z_á-ÑéüÜ]
# Dígito [0-9]
Letra (Letra | Dígito)+
Observar que se usa +, y esto es porque sino un identificador se
confundiría con un caracter cualquiera que fuera letra o dígito. La longitud
resultante de un identificador es de por lo menos 2 caracteres.
Los identificadores se usan en AFD para identificar macros. Un
identificador debe estar previamente definido antes de su uso. Ejemplos de
definiciones de macros son los que se dan en esta expresión regular de
identificador, en donde Letra y Dígito son los identificadores que se definen
para reemplazar a los rangos.
Comentarios:
/ / .*
Los comentarios son iguales a los que se usan en C++, comienzan con
un doble // y terminan al final de la línea, el efecto es ignorar desde el // en
adelante. Los comentarios no forman parte de la expresión regular y son
ignorados por el analizador léxico de AFD.
Blancos:
[
\n\r\f\t\v] +
Los blancos no forman parte de la expresión regular y son ignorados por
el analizador lexicográfico de AFD.
Otros: si un caracter que aparece en la expresión regular no cumple con
alguno de los componentes léxicos dados previamente, entonces es tomado
95
Documentación de AFD versión 3.x
como un simple caracter por el analizador lexicográfico de AFD. Así usted
verá que en las expresiones regulares dadas, si hay una comilla simple que
abre y no hay otra que cierra uno o dos caracteres más adelante, entonces esa
comilla es tomada como literal. Para más detalle ver los ejemplos siguientes.
10.3.2 Definición de macros
La definición de macros se realiza usando la siguiente sintaxis:
'#' Ident CteCar
o bien
'#' Ident Rango
donde:
Ident: es el identificador que reemplazará a la constante de caracter o rango de
la derecha.
CteCar: es una constante de caracter válida.
Rango: es un rango de caracteres válido.
Durante el análisis léxico, cada vez que aparezca Ident en la expresión
regular fuente, el mismo será reemplazado por la constante de caracter o rango.
No hay problemas si define dos macros en una misma línea, el
analizador sintáctico de AFD se las arregla para entenderle. Por ejemplo, la
siguiente son dos definiciones en una misma línea:
# Letra [a-zA-Z] # digito [0-9]
10.4 Ejemplos de funcionamiento del programa
10.4.1 Ejemplo 1
Expresión regular para un rango reconocido por el analizador léxico de
AFD.
96
Documentación de AFD versión 3.x
Expresión regular en archivo rango.er:
// Expresión regular para especificación de rangos
# CarEsp [abtnvfr] // las secuencias \x tienen x igual a algún
// CarEsp
# Otros [^\'\"\\\n] // Otros caracteres
// expresión:
'[' ( \ ( \ | ' | " | CarEsp ) | CarEsp | Otros ) + ']'
Llamada a AFD para DOS: AFD rango.er Rango Rng
Salida de AFD (en salida estándar del DOS o archivo .TXT si bajo Windows):
Expresión regular: // Expresión regular para especificación de rangos
# CarEsp [abtnvfr] // las secuencias \x tienen x igual a algún CarEsp
// expresión:
'['
( \ ( \ | ' | " | CarEsp ) | CarEsp | [^\'\"\\\n] ) + ']'
Caracteres y/o rangos: (0, "abtnvfr"), (1, "["), (2, "\\"), (3, "\'"), (4,
"\""), (5, "^\'\"\\\n"), (6, "]")
Tabla de transiciones:
0
1
2
3
4
5
6
0
1
1
2
3
2
2
2
3
2
4
3
2
2
2
2
4
Estado final: 4
10.4.2 Ejemplo 2
Expresión regular para identificadores válidos del C++.
Expresión regular en archivo identcmm.er:
# letra [a-zA-Z_] # digito [0-9]
letra ( letra | digito ) *
Llamada a AFD para DOS: AFD identcmm.er IdentCMM
Salida de AFD (en salida estándar si bajo DOS o archivo .TXT si bajo
Windows):
Expresión regular: # letra [a-zA-Z_] # digito [0-9]
letra ( letra | digito ) *
Caracteres y/o rangos: (0, "a-zA-Z_"), (1, "0-9")
Tabla de transiciones:
0
1
0
1
1
1
1
Estado final: 1
Salida de AFD en archivo .CMM:
// AFD generado por la versión 3.4 de ExpReg::Reasignar (Nov 95)
// Domingo Eduardo Becker, Sgo. del Estero, (085) 22-2488/1088.
97
Documentación de AFD versión 3.x
# ifndef __EXPREG_H
# include "expreg.h"
# endif
static const char erIdentCMM[] = "# letra [a-zA-Z_] # digito
[0-9]\r\nletra ( letra | digito ) *\r\n\r\n";
static const char * vcIdentCMM[] = {
"a-zA-Z_", "0-9"
};
static const Ent16ns tIdentCMM[] = {
1, TNDEF,
1,
1
};
static const Ent16ns efIdentCMM[] = {
1, 1
};
AutomFinDet afdIdentCMM = { erIdentCMM, vcIdentCMM, 2, tIdentCMM,
efIdentCMM };
10.5 Descripción de la salida de AFD
La salida de AFD v 3 consta de dos partes.
Una parte es un texto explicativo del AFD generado a partir de la
expresión regular, que aparece en formato similar al que se usa en la
bibliografía. Se mencionará como primera parte. Se da en el archivo .TXT si
trabaja con la versión de Windows o en la salida estándar si trabaja bajo DOS.
La que se muestra en formato C++ en el archivo .CMM es la
implementación del AFD para su uso en un programa. Se mencionará en
adelante como la segunda parte o fuente C++.
En ambas partes se muestra primero la expresión regular, en la de C++
se usa el prefijo er por expresión regular.
Lo que sigue es la enumeración de los caracteres que aparecen en la
expresión regular. El prefijo usado en el fuente C++ es vc. En la primera parte
se muestran como una enumeración de pares ordenados en donde la primera
componente es el número asignado al caracter y la segunda componente es el
caracter. El número asignado al caracter sirve para acceder a la columna
correspondiente de la tabla de transición de estados del autómata.
Luego se presenta la tabla de transición de estados del autómata finito
determinístico generado. Por filas están los estados, comenzando por el 0. Por
columnas están los caracteres que participan en la expresión regular. En la
parte de formato texto la primera fila de esta tabla muestra los números de
caracter, y la primera columna los números de estado. El número que aparece
en la primera fila indica el número de caracter que va allí. Por ejemplo, el 0
98
Documentación de AFD versión 3.x
indica que esa columna corresponde al primer caracter aparecido en la
expresión regular, que es el primero que aparece en la enumeración de
caracteres "Caracteres y/o rangos:". En el fuente C++ la tabla tiene nombre
con prefijo t, se almacena por filas en un vector de enteros sin signo. El
tamaño de este vector es: cantidad de estados por cantidad de caracteres.
Los estados finales son almacenados en el vector de enteros sin signo
que tiene prefijo vf. El primer elemento de éste vector indica el número de
estados finales, a continuación están los estados finales. En la primera parte se
muestran a continuación de la frase "Estado(s) final(es): ".
La implementación del autómata finito determinístico es realizada con la
clase AutomFinDet declarada en EXPREG.H. La declaración es como sigue:
class AutomFinDet {
public:
const char * ExpRegular;
const char * * Caracter;
Ent16ns NumCar;
const Ent16ns * Transicion,
* EstFinales;
};
en donde:
ExpRegular: es una cadena de caracteres en formato C++ que define la
expresión regular reconocida por éste autómata.
Caracter: es un vector de cadena de caracteres que contiene los caracteres
posibles como caracteres simples o como rangos.
NumCar: es el número de caracteres, que coincide con el tamaño del vector
Caracter y con el número de columnas de la tabla de transición de estados del
autómata.
Transicion: es la tabla de transición de estados del autómata finito
determinístico que reconoce la expresión regular ExpRegular. Para una
transición no definida se debe utilizar TNDEF o el número hexa 0xffff.
EstFinales: es el conjunto de estados finales del AFD. El primer elemento de
este vector indica el número de estados finales, a continuación, en los
elementos siguientes, están los estados finales.
El número de estados no se almacena en la estructura debido a que,
como la tabla de transición de estados es generada automáticamente, su uso no
llevará a transicionar a un estado inexistente. Pero si se almacena el número de
99
Documentación de AFD versión 3.x
caracteres debido a que los mismos deberán pasar por un filtro de caracteres
para poder ser atendidos por el autómata. El filtro funciona como un
clasificador de caracteres; la clasificación (agrupación por rangos o grupos de
caracteres) sirve para minimizar la cantidad de estados necesarios.
El tipo Ent16ns es un typedef definido en TIPOS.H para obtener la
portabilidad del código escrito usando compiladores de 16 bits a compiladores
de 32 bits. La definición se hizo de la siguiente manera:
typedef
unsigned short int
Ent16ns ;
El tipo unsigned short int tiene un tamaño de 2 bytes (16 bits) en todas las
implementaciones del C++ de la empresa Borland (los usados para el
desarrollo de AFD). Si usted proyecta usar un compilador que no es de
Borland, revise la implementación de ese tipo de dato para verificar que sea de
2 bytes. Si es de más de 2 bytes ocupará más espacio del necesario; si es
menor, busque un tipo entero no signado que ocupe 2 bytes y cambie el
typedef en TIPOS.H. Al cambiar de compilador no olvide recompilar la
biblioteca ExpReg (expreg.lib).
Puede ver ejemplos de definición de objetos AutomFinDet en el ejemplo
2 dado previamente, en la sección archivo .CMM generado.
10.6 Consideraciones finales
Los AFD generados por esta versión pueden ser utilizados para
implementar analizadores lexicográficos. Los analizadores lexicográficos
constan en general de varios autómatas finitos determinísticos. Más
información sobre la implementación de analizadores lexicográficos usando la
salida de AFD puede encontrar en la documentación de la biblioteca ExpReg.
Esta versión de AFD puede ser usada junto con el generador de
analizadores sintácticos SLR1 para el desarrollo de herramientas de traducción
(compiladores, intérpretes, traductor de un idioma a otro, etc.). La versión 2 de
SLR1 genera automáticamente un analizador lexicográfico, dejándole como
trabajo al usuario el de procesar todos los archivos .ER con las expresiones
regulares. Consulte la documentación de SLR1 v 2 o posterior para más
detalle.
100
Documentación de SLR1 versión 1.x
Capítulo 11: Documentación de SLR1 versión 1.x
El texto de este capítulo es la documentación de SLR1 v 1.x, y debe ser
tomado como un libro aparte. No se hacen referencias a otros capítulos de este
trabajo.
En el capítulo 18, donde se comenta la historia del desarrollo de las
herramientas presentadas en este trabajo, se puede encontrar información
interesante acerca de esta implementación.
Aunque esta versión del generador está disponible para el uso de
terceros, el autor aconseja usar la versión 2.x o posterior (ver el capítulo 12).
11.1 Introducción
SLR1 es un programa para generar tablas de análisis sintáctico LR(1)
simples a partir de la especificación de la gramática del lenguaje. Las tablas
generadas por este programa serán usadas pasa la realización del análisis
sintáctico de oraciones de ese lenguaje.
11.2 Descripción general del funcionamiento
SLR1 es un programa que funciona bajo el sistema operativo DOS. No
se prevee el desarrollo de una versión con la funcionalidad de esta versión para
otro sistema operativo. Pero si se prevee una versión nueva de SLR1 para
varios sistemas operativos, cuya sintaxis de entrada es distinta a ésta, y la
funcionalidad altamente superior.
La entrada de SLR1 v 1 es un archivo de texto plano con la gramática
que se desea tratar.
La salida del programa son 2 archivos: un archivo .CMM con las tablas
que serán utilizadas para el análisis sintáctico en formato de fuente de C++ y
un archivo .TXT con las tablas de análisis sintáctico en formato similar al que
se presenta en la bibliografía, con los estados y con los códigos asignados a los
símbolos terminales y no terminales.
El archivo .CMM es el que luego se utiliza para realizar el análisis
sintáctico, incluyéndolo en la compilación junto con otros módulos fuentes del
proyecto en desarrollo.
101
Documentación de SLR1 versión 1.x
Sintaxis de la especificación de una gramática
La metagramática que a continuación se presenta, describe la sintaxis
que se debe usar para especificar una gramática que se usará como entrada de
SLR1.
Gramática ---> Reglas
Reglas ---> Reglas Regla
Reglas ---> Regla
Regla ---> IdentIzq Flecha ListaSímbolos
ListaSímbolos ---> ListaSímbolos Símbolo
ListaSímbolos --->
FinLínea
Las reglas se numeran de arriba a abajo de 1 a N si hay N reglas.
Una gramática está formada por un conjunto de reglas (regla 1) no vacío
(regla 3), es decir, al menos debe haber una regla.
Una regla está formada por un identificador, una flecha y una lista de
símbolos (regla 4), y cada regla ocupará una y sólo una línea (regla 4). La lista
de símbolos que aparece entre la flecha y el fin de línea puede ser vacía (regla
6).
Los identificadores que no aparecen a la izquierda de alguna regla en la
gramática previamente dada son símbolos terminales, y serán explicados a
continuación, como parte de la lexicografía a utilizar para la especificación de
la gramática. La sintaxis que se usará es la de expresiones regulares.
Identificador:
[_a-zA-Zá-Ñü-Ü] [_a-zA-Zá-Ñü-Ü0-9] *
Flecha:
(-)+>
Uno o más guiones o signos menos seguido de un signo mayor que.
Símbolo:
[^ \t] +
Símbolo es una concatenación no vacía de caracteres distintos al espacio y al
tabulado.
102
Documentación de SLR1 versión 1.x
11.3 Ejemplos de gramáticas
11.3.1 Ejemplo 1
La gramática dada previamente, usada para explicar la estructura de una
gramática (i.e. metagramática), es un ejemplo de gramática que se puede usar
como entrada para SLR1.
La regla 6 de esta gramática es una regla que deriva en lambda, es decir,
ListaSímbolos es anulable.
Archivo .CMM:
unsigned noterm_long_pd[] = {
0x404,
0x101, 0x202, 0x201, 0x304,
};
unsigned
0,
0,
16384,
32769,
32771,
0,
32770,
0,
32772,
0,
};
0x402,
0x400
accion[] = {
1,
0,
0,
0,
0,
5,
0,
0,
0,
0,
0,
0,
1,
0,
0,
0,
32771,
0,
0,
0,
0,
0, 32774, 32774,
32770,
0,
0,
0,
0,
0,
8,
9,
32772,
0,
0,
0,
0,
0, 32773, 32773
unsigned ir_a[] = {
2,
3,
4,
0,
0,
0,
0,
0,
0,
0,
0,
6,
0,
0,
0,
0,
0,
0,
0,
0,
0,
0,
0,
0,
0,
0,
0,
0,
0,
0,
};
0,
0,
0,
0,
0,
7,
0,
0,
0,
0
Archivo .TXT:
N = { (Gramática, 1), (Reglas, 2), (Regla, 3), (ListaSímbolos, 4) }
T = { (IdentIzq, 1), (Flecha, 2), (FinLínea, 3), (Símbolo, 4) }
(Gramática, 1) es el símbolo inicial.
Seglas:
Gramática' ---> Gramática
Gramática ---> Reglas
Reglas ---> Reglas Regla
Reglas ---> Regla
Regla ---> IdentIzq Flecha ListaSímbolos FinLínea
ListaSímbolos ---> ListaSímbolos Símbolo
ListaSímbolos --->
103
Documentación de SLR1 versión 1.x
Estado 0:
Gramática' ---> . Gramática
Gramática ---> . Reglas
Reglas ---> . Reglas Regla
Reglas ---> . Regla
Regla ---> . IdentIzq Flecha ListaSímbolos FinLínea
Estado 1:
Segla ---> IdentIzq . Flecha ListaSímbolos FinLínea
Estado 2:
Gramática' ---> Gramática .
Estado 3:
Gramática ---> Reglas .
Reglas ---> Reglas . Regla
Regla ---> . IdentIzq Flecha ListaSímbolos FinLínea
Estado 4:
Reglas ---> Regla .
Estado 5:
Regla ---> IdentIzq Flecha . ListaSímbolos FinLínea
ListaSímbolos ---> . ListaSímbolos Símbolo
ListaSímbolos ---> .
Estado 6:
Seglas ---> Reglas Regla .
Estado 7:
Segla ---> IdentIzq Flecha ListaSímbolos . FinLínea
ListaSímbolos ---> ListaSímbolos . Símbolo
Estado 8:
Segla ---> IdentIzq Flecha ListaSímbolos FinLínea .
Estado 9:
ListaSímbolos ---> ListaSímbolos Símbolo .
Funciones
0
1
2
3
4
5
6
7
8
9
acción(estado, simbolo)
IdentIzq Flecha FinLínea Símbolo
d1
.
.
.
.
d5
.
.
.
.
.
.
d1
.
.
.
r3
.
.
.
.
.
r6
r6
r2
.
.
.
.
.
d8
d9
r4
.
.
.
.
.
r5
r5
FA
.
.
a
r1
r3
.
r2
.
r4
.
e
ir_a (estado, símbolo):
Gramática Reglas Regla ListaSímbolos
2
3
4
.
.
.
.
.
.
.
.
.
.
.
6
.
.
.
.
.
.
.
.
7
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11.3.2 Ejemplo 2
La gramática que se da a continuación especifica la sintaxis de una
expresión aritmética.
E
E
T
T
F
-->
-->
-->
-->
-->
E '+' T
T
T '*' F
F
'(' E ')'
104
Documentación de SLR1 versión 1.x
F --> id
Archivo .CMM:
unsigned noterm_long_pd[] = {
0x305,
0x103, 0x101, 0x203, 0x201,
};
unsigned
0,
0,
32774,
16384,
32770,
32772,
0,
0,
0,
32773,
32769,
32771,
};
accion[] = {
0,
0,
0,
0,
32774, 32774,
7,
0,
32770,
8,
32772, 32772,
7,
0,
0,
0,
0,
0,
32773, 32773,
32769,
8,
32771, 32771,
1,
1,
0,
0,
0,
0,
0,
1,
1,
0,
0,
0,
0x303,
0,
0,
32774,
0,
32770,
32772,
9,
0,
0,
32773,
32769,
32771,
0x301
2,
2,
0,
0,
0,
0,
0,
2,
2,
0,
0,
0
unsigned ir_a[] = {
3,
4,
5,
6,
4,
5,
0,
0,
0,
0,
0,
0,
0,
0,
0,
0,
0,
0,
0,
0,
0,
0,
10,
5,
0,
0,
11,
0,
0,
0,
0,
0,
0,
0,
0,
0
};
Archivo .TXT:
N = { (E, 1), (T, 2), (F, 3) }
T = { ('+', 1), ('*', 2), ('(', 3), (')', 4), (id, 5) }
(E, 1) es el símbolo inicial.
Reglas:
E' ---> E
E ---> E '+' T
E ---> T
T ---> T '*' F
T ---> F
F ---> '(' E ')'
F ---> id
Estado 0:
E' ---> . E
E ---> . E '+' T
E ---> . T
T ---> . T '*' F
T ---> . F
F ---> . '(' E ')'
F ---> . id
105
Documentación de SLR1 versión 1.x
Estado
F --->
E --->
E --->
T --->
T --->
F --->
F --->
1:
'(' . E
. E '+'
. T
. T '*'
. F
. '(' E
. id
')'
T
F
')'
Estado 2:
F ---> id .
Estado 3:
E' ---> E .
E ---> E . '+' T
Estado 4:
E ---> T .
T ---> T . '*' F
Estado 5:
T ---> F .
Estado 6:
F ---> '(' E . ')'
E ---> E . '+' T
Estado
E --->
T --->
T --->
F --->
F --->
7:
E '+' . T
. T '*' F
. F
. '(' E ')'
. id
Estado
T --->
F --->
F --->
8:
T '*' . F
. '(' E ')'
. id
Estado 9:
F ---> '(' E ')' .
Estado 10:
E ---> E '+' T .
T ---> T . '*' F
Estado 11:
T ---> T '*' F .
Funciones
0
1
2
3
4
5
6
7
8
9
10
11
acción(estado, simbolo)
'+' '*' '(' ')'
.
. d1
.
.
. d1
.
r6 r6
. r6
d7
.
.
.
r2 d8
. r2
r4 r4
. r4
d7
.
. d9
.
. d1
.
.
. d1
.
r5 r5
. r5
r1 d8
. r1
r3 r3
. r3
id
d2
d2
.
.
.
.
.
d2
d2
.
.
.
FA
.
.
r6
a
r2
r4
.
.
.
r5
r1
r3
e
ir_a(estado, símbolo):
E T F
3 4 5
6 4 5
. . .
. . .
. . .
. . .
. . .
. 10 5
. . 11
. . .
. . .
. . .
106
Documentación de SLR1 versión 1.x
11.3.3 Ejemplo 3
La gramática siguiente reconoce expresiones aritméticas similares a la
dada en el ejemplo 2, pero tiene el problema de que es ambigua.
La ambigüedad de una gramática hace que la misma no sea LR(1)
simple, por lo tanto no es directamente tratable con SLR1 ni con cualquier
programa generador que trabaje con la técnica LR. El programa SLR1, al igual
que otros como el YACC, permiten resolver la ambigüedad de la gramática
permitiendo al usuario decidir qué es lo que el analizador sintáctico debería
hacer en el momento de presentarse un conflicto. A tal efecto, el usuario de
esos programas debe tener un conocimiento avanzado del algoritmo de análisis
LR, lo que puede consultar en la bibliografía dada al final de este documento.
E -> E '+' E
E -> E '*' E
E -> id
Archivo .CMM:
unsigned noterm_long_pd[] = {
0x103,
0x103, 0x103, 0x101
};
unsigned
0,
32771,
16384,
0,
0,
32769,
32770,
};
accion[] = {
0,
0,
32771, 32771,
3,
4,
0,
0,
0,
0,
32769,
4,
32770, 32770,
1,
0,
0,
1,
1,
0,
0
unsigned ir_a[] = {
2,
0,
0,
5,
6,
0,
0
};
Archivo .TXT:
N = { (E, 1) }
T = { ('+', 1), ('*', 2), (id, 3) }
(E, 1) es el símbolo inicial.
Reglas:
E' ---> E
107
Documentación de SLR1 versión 1.x
E ---> E '+' E
E ---> E '*' E
E ---> id
Estado 0:
E' ---> . E
E ---> . E '+' E
E ---> . E '*' E
E ---> . id
Estado 1:
E ---> id .
Estado 2:
E' ---> E .
E ---> E . '+' E
E ---> E . '*' E
Estado
E --->
E --->
E --->
E --->
3:
E '+' . E
. E '*' E
. id
. E '+' E
Estado
E --->
E --->
E --->
E --->
4:
E '*' . E
. E '+' E
. E '*' E
. id
Estado
E --->
E --->
E --->
5:
E '+' E .
E . '*' E
E . '+' E
Estado
E --->
E --->
E --->
6:
E '*' E .
E . '+' E
E . '*' E
Funciones
0
1
2
3
4
5
6
acción(estado, simbolo)
'+' '*' id FA
.
. d1 .
r3 r3 . r3
d3 d4 . a
.
. d1 .
.
. d1 .
r1 d4 . r1
r2 r2 . r2
e
ir_a(estado, símbolo):
E
2
.
.
5
6
.
.
En este ejemplo, las reglas 1 y 2 plantean un problema de ambigüedad
(dos o más posibles análisis sintáctico para una misma oración). El programa
SLR1 emitirá 4 mensajes de errores y dos posibles alternativas de solución
pasa cada situación de conflicto, a saber:
Mensaje 1: "En el estado 5 se debe elegir entre desplazar '+' y pasar a 3 y
reducir por regla 1 con ese símbolo."
108
Documentación de SLR1 versión 1.x
El mensaje significa que en la tabla, en la fila correspondiente al estado
5 (la que tiene el 5 a la izquierda), en la columna correspondiente al '+', se
debe elegir entre colocar d5 o r1. De las dos opciones se eligió la segunda.
Mensaje 2: "En el estado 5 se debe elegir entre desplazar '*' y pasar a 4 y
reducir por regla 1 con ese símbolo."
Las alternativas aquí son colocar d4 o r1 en la fila del estado 5, columna
del símbolo '*'. En este caso se eligió desplazar y pasar al estado 4.
Mensaje 3: "En el estado 6 se debe elegir entre desplazar '+' y pasar a 3 y
reducir por regla 2 con ese símbolo."
Las opciones son d3 o r2 con '+' en el estado 6. Se eligió reducir por
regla 2.
Mensaje 4: "En el estado 6 se debe elegir entre desplazar '*' y pasar a 4 y
reducir por regla 2 con ese símbolo."
Las opciones son d4 o r2 con '*' en el estado 6. Se eligió reducir por
regla 2.
11.4 Consideraciones a tener el cuenta para el uso de gramáticas
ambiguas
El uso de gramáticas ambiguas puede dar como resultado tablas más
pequeñas, lo que reduce el espacio de memoria necesario para almacenarlas.
Pero el nivel de conocimiento necesario para poder resolver los conflictos es
demasiado elevado.
En la automatización de la generación de programas el objetivo es que
el usuario (en este caso el programador) no pierda tiempo aprendiendo cosas
que no hacen falta, ya que el generador hace ese trabajo y lo hace bien. El uso
de gramáticas ambiguas imposibilita cumplir ese objetivo, y por lo general, el
resultado no es "mucho mejor" que el de usar gramáticas no ambiguas. Para el
ejemplo dado, la diferencia es infinitesimal, dada la disponibilidad de memoria
en las computadoras actuales y la velocidad de procesamiento de las mismas.
Hay gramáticas que no son ambiguas, pero presenta conflictos pasa la
técnica LR(1) simple debido a la forma de trabajo del algoritmo (es decir, es
ambigua para la técnica SLR(1) ). La gramática para la sentencia
si...entonces...sino... es no ambigua pero presenta un conflicto de
109
Documentación de SLR1 versión 1.x
desplazamiento-reducción con el símbolo sino y la regla SentSi --> si Expr
entonces Sent. (Nota: en este caso se elige desplazar sino). El conflicto de
desplazamiento-reducción que provoca esta gramática hace que SLR1 genere
un analizador sintáctico para esa gramática que pueda generar 2 posibles
árboles de análisis sintáctico para una oración que tenga la parte sino..., y es
por eso que decimos que es ambigua para la técnica LR(1) simple.
11.5 Descripción de la estructura de las tablas generadas
Las tablas del analizador sintáctico están implementadas en vectores en
el archivo fuente .CMM generado.
La documentación que aquí se incluye es a los efectos de que cualquier
programador pueda hacer las modificaciones necesarias al archivo
ANALIZAR.CMM donde se encuentra la función Analizar que realiza el
análisis sintáctico. O bien, para que escriba una función nueva de análisis
sintáctico, si la dada no satisface sus necesidades. (El archivo
ANALIZAR.CMM así como los archivos ELEM.H y SLR1.H se incluyen al
final de este documento, junto con los módulos fuentes del ejemplo 4.)
Los vectores que se generan son 3.
11.5.1 unsigned noterm_long_pd[ ];
Este vector de enteros sin signo de 2 bytes (para compiladores C++ de
16 bits), contiene:
En el elemento 0, el byte alto es el número de símbolos no terminales y
el byte bajo es el número de terminales. Por ejemplo, en el ejemplo 2
noterm_long_pd[0] tiene el número 0x0305, que significa que hay 3 no
terminales y 5 terminales.
Estos números son usados para calcular el número de columnas de las
tablas accion e ir_a (ver las tablas en archivos .TXT, las columnas se indexan
por símbolos terminal/no terminal).
En los elementos 1 en adelante, el byte alto es el código del no terminal
que se halla a la izquierda de la regla cuyo número es el índice del elemento
actual, y el byte bajo de éste elemento especifica el número de símbolos que
hay a la derecha de la flecha (las reglas se numeran de 1 en adelante, en el
orden en que aparecen en el archivo fuente). Por ejemplo, en el ejemplo 1, el
110
Documentación de SLR1 versión 1.x
elemento noterm_long_pd[6] que corresponde a la regla 6 "ListaSímbolos --->
" tiene el número 0x0400, que significa que el no terminal de la izquierda en
la regla 6 es el que tiene el código 4 (ListaSímbolos, ver conjunto N del
archivo .TXT de salida), y que el número de elementos a retirar de la pila del
analizador al hacer una reducción por regla 6 es 0 (ver que la regla deriva en
lambda, esto es, ListaSímbolos es anulable).
En el momento de ejecutar una reducción, se necesita la información
contenida en estos elementos, para desapilar la cantidad adecuada de
elementos y poder indexar la columna de la tabla ir_a que requiere el código
del no terminal de la izquierda.
11.5.2 unsigned accion[ ];
Este vector de enteros sin signo de 2 bytes (para compiladores C++ de
16 bits), es la transcripción de la tabla acción que se muestra en el archivo
.TXT en formato más legible. La tabla acción mostrada en ese archivo
comienza en el primer terminal y termina en el símbolo FA, que también es
considerado terminal. Por filas se indexa por estado, y por columna se indexa
por símbolo terminal.
En este vector los elementos se codifican de la siguiente manera, lo que
se muestra en formato C++:
class Accion { // estructura de una acción
public:
unsigned n
: 14;
unsigned cod : 2;
};
La clase Accion es una estructura de 16 bits, en los cuales los 14 bits
menos significativos son los números que aparecen luego de la letra d o r en la
tabla accion, y se acceden usando el campo n de esta estructura. El campo cod
contiene el código de acción a ejecutar: 00 para desplazar, 01 para aceptar y 10
para reducir. El 11 no se utiliza. En el vector observará que: el elemento que
tiene el 16384 es el que corresponde a aceptar, todos los elementos menores
que ese número son los de desplazamiento (aparecen con la letra d en la tabla
en el archivo .TXT) y todos los mayores que ese número son los de reducción
(aparecen con la letra r en la tabla en el archivo .TXT).
111
Documentación de SLR1 versión 1.x
11.5.3 unsigned ir_a[ ];
Este vector implementa la tabla ir_a, que en el archivo .TXT se muestra
a la par de la tabla accion a continuación del símbolo FA. Las columnas de
esta tabla se indexan por símbolos no terminales y las filas por estados.
La tabla se almacena en el vector por filas (fila mayor). Cada elemento
contiene directamente el número que se muestra en la tabla ir_a del archivo
.TXT.
11.6 Descripción de la función Analizar
La función Analizar que se encuentra en el archivo ANALIZAR.CMM y
cuyo prototipo se da en el archivo SLR1.H a efectos de ser incluidos en el
archivo que realizará el análisis sintáctico.
El prototipo de la función es el siguiente:
int Analizar( unsigned * ntlpd, unsigned * accion,
unsigned * ir_a,
unsigned char ( * analex)(),
void (* accion_sem)( unsigned NumRegla ),
void (* fver)( char * mensaje ) );
La función recibe 6 parámetros. Los tres primeros son las tres tablas que
devuelve el programa SLR1 v 1. ntlpd es noterm_long_pd, accion es accion
del .CMM e ir_a es ir_a, que ya fueron documentados. Los demás parámetros
se documentan a continuación.
1. analex
El parámetro analex es una función cuyo prototipo es similar a:
unsigned char AnalizadorLexico();
es decir, una función que no recibe parámetros y que devuelve un unsigned
char (entre 0 y 255). Esta función debe ser dada ya que es la que realiza el
análisis léxico. Los dispositivos de E/S para obtener el fuente a esta función
deben ser elegidos por el usuario de SLR1.
Los códigos que debe devolver la función son:
a. 0 para fin de archivo fuente.
112
Documentación de SLR1 versión 1.x
b. 1 a N donde N es el número de símbolos terminales de la gramática.
Los códigos a devolver deben coincidir con los dados en el conjunto
T que se muestra en el archivo .TXT de salida, según corresponda.
c. Un número mayor que N si el símbolo que aparece a continuación es
un símbolo desconocido.
2. accion_sem
El parámetro accion_sem es la función que realizará las acciones
semánticas para cada reducción de regla. El prototipo de la función es similar a
la siguiente:
void
AccionSemantica( unsigned NumRegla );
En NumRegla viene el número de regla que se está por reducir. La función no
devuelve nada. La intercomunicación entre esta función y la que realiza el
análisis lexicográfico puede ser realizada usando variables globales, pero la
mejor técnica es la del uso de la pila del analizador.
En algunos casos es necesario modificar el prototipo de esta función a
efectos de poder modificar los elementos de la pila del analizador. En este
caso, el prototipo podría ser como sigue:
void AccionSemantica( unsigned NumRegla,
ElemPila * Pila, unsigned PuntPila );
Debe modificar el prototipo de Analizar en SLR1.H y en ANALIZAR.
CMM (agregar los dos parámetros a la declaración del parámetro
accion_sem). También debe pasar los parámetros nuevos en la llamada a esa
función, dentro del código de Analizar; en el código figura:
if (accion_sem != 0) (*accion_sem)(a.n);
y luego de modificarla debe figurar:
if (accion_sem != 0) (*accion_sem)(a.n, pila, pp);
en donde pila y pp son variables internas de la función Analizar.
113
Documentación de SLR1 versión 1.x
Al ser llamada la función accion_sem, los elementos de la regla figuran
en la pila de la siguiente manera: sea la regla que se está por reducir (cuyo
número viene en el parámetro NumRegla) la siguiente:
A --> B C D
entonces:
A y B se encuentran en pila[pp + 1].
C se encuentra en pila[pp + 2].
D se encuentra en pila[pp + 3].
y así sucesivamente, para reglas de mayor número de símbolos. Observar que
el no terminal de la izquierda de la regla y el primer símbolo de la derecha
comparten la misma posición de la pila.
El parámetro accion_sem puede ser ignorado en caso de no ser
necesario.
3. fver
El parámetro fver es una función que sirve para depurar analizadores
sintácticos generados por medio de SLR1. Permite ver la pila y muestra las
acciones que se van realizando en cada paso. El prototipo de la función es
similar a la siguiente:
void FuncionVer( char * ExplicacionDelPaso );
ExplicacionDelPaso es una cadena de caracteres en donde se explica la acción
ejecutada o se muestra el estado de la pila del analizador sintáctico. Dentro de
la FuncionVer usted puede incluir código que imprima esa cadena en pantalla,
para ir viendo el progreso del análisis sintáctico.
El parámetro fver puede ser ignorado.
La función Analizar devuelve 0 si hay problemas en las tablas o error de
sintaxis, y 1 si la oración analizada es sintácticamente correcta.
114
Documentación de SLR1 versión 1.x
La función no modifica las tablas, y puede ser llamada las cantidades de
veces que desee en el programa que se la incluya, inclusive puede usar varios
juegos de tablas, las que podrían ser leídos desde un archivo binario.
11.7 La pila del analizador sintáctico SLR1
La pila del analizador sintáctico SLR1 está implementada en un vector,
y se declara dentro de la función Analizar. La estructura de los elementos de
esta pila es por defecto la que define la clase ElemPila declarada en ELEM.H,
declaración que se transcribe:
class ElemPila {
public:
Simbolo s;
unsigned e;
ElemPila( ) { s.cod = s.noterminal = 0; e = 0; }
};
El campo s sirve para identificar el símbolo que se encuentra en ese
elemento de la pila. El campo e sirve para identificar el estado correspondiente
a esa posición; bajo ningún concepto debe modificar este campo. Esta clase
usa la clase Simbolo que también se declara en ELEM.H.
No es aconsejable eliminar esos campos de la clase ElemPila, así como
tampoco la implementación de la misma (la pila está implementada como
vector). Pero si es necesario, puede agregar elementos en la declaración de la
clase según necesite para las acciones semánticas. La siguiente es una
declaración ejemplo:
class ElemPila { // estructura de un elemento de la pila del analizador
public:
Simbolo s;
unsigned e;
char Cadena[30]; // a efectos de guardar la cadena de texto que
// devuelve el analizador lexicográfico
ElemPila( ) { s.cod = s.noterminal = 0; e = 0; }
};
El acceso al campo Cadena en la función de acciones semánticas sería:
pila[pp + X].Cadena, donde X es el número del símbolo de la izquierda de la
regla que se desea acceder.
115
Documentación de SLR1 versión 1.x
11.8 Uso del programa SLR1 v 1
Para iniciar SLR1 debe ejecutar el programa SLR1.EXE, desde
cualquier directorio usando sintaxis de posicionamiento de archivo absoluta o
bien desde el directorio donde éste se encuentra.
El menú que se muestra luego de cargar el programa tiene dos opciones:
cargar gramática y salir.
Al elegir cargar gramática, en una ventana de diálogo se pide el nombre
del archivo donde se encuentra la gramática. Debe ingresar cualquier nombre
de archivo válido para el DOS, y, si no incluye extensión, se asumirá que la
extensión es .GLC (por gramática libre de contexto). Los archivos de salida
.CMM y .TXT serán generados en el mismo directorio donde se encuentra el
archivo de entrada, para facilitar su localización.
En el menú que se muestra luego de aceptar el nombre del archivo de
entrada, la opción proceder realiza la traducción, la opción volver atrás cancela
la operación sin hacer nada, y las demás opciones son banderas que controlan
la salida del programa.
La gramática, los estados, las tablas y los códigos de los símbolos se
muestran en el archivo .TXT, y el código fuente en el archivo .CMM. Si por
ejemplo desactiva la impresión del código fuente, no se generará el archivo
.CMM. Para que no se genere el archivo .TXT debe desactivar las opciones de
toda la información que se imprime en ese archivo (debe desactivar todas las
opciones menos la de imprimir fuente).
En el caso de que se presente un conflicto, la información se presenta en
una ventana de diálogo, y el usuario deberá elegir entre dos opciones para
resolver el conflicto. Para la resolución de conflictos debe consultar la
bibliografía.
Al finalizar la generación de las tablas, el programa vuelve al menú
principal a efectos de proceder con otro archivo, si es que así lo desea.
11.9 Ejemplo 4: Desarrollo de un proyecto.
El proyecto a desarrollar es un sistema para la verificación de la validez
de un esquema deductivo del cálculo proposicional.
116
Documentación de SLR1 versión 1.x
Para que un esquema deductivo sea válido debe primero ser
sintácticamente correcto. Luego, la validez puede ser demostrada de dos
maneras: utilizando la teoría de la demostración o utilizando la teoría
semántica del cálculo proposicional. En este ejemplo se utilizará la teoría
semántica del cálculo proposicional.
En la teoría semántica del cálculo proposicional, un sistema deductivo
es válido cuando la implicación asociada a éste es tautología.
Entonces, para verificar la validez de un esquema deductivo se
ejecutarán las siguientes operaciones:
1. Primero se realizará el análisis sintáctico del esquema deductivo fuente,
a efectos de detectar errores sintácticos.
2. Luego se traducirá el esquema deductivo a su implicación asociada, la
que será internamente almacenada en un vector en notación postfijo, a
efectos de facilitar su posterior evaluación. Al traducir se generará una
tabla con todas las variables que figuran en la fórmula.
3. A continuación se comprueba si la implicación asociada es una
tautología, para lo cual se van generando las interpretaciones posibles
para las variables que aparecen en la fórmula, y para cada una se
comprueba el valor de verdad de la fórmula. Si para alguna
interpretación la fórmula da falso, la misma no es tautología. Si ocurre
que la fórmula si es tautología, el esquema deductivo es válido.
4. Se informa el resultado del paso 3.
Los archivos importantes que componen el proyecto son los que se
enumeran a continuación, y son independientes del sistema operativo en el que
se implemente la aplicación:
ED.GLC: entrada para SLR1 v 1. La salida de SLR1 son los archivos
ED.CMM que debe ser compilado y encadenado con el proyecto y el
archivo ED.TXT en donde se encuentran los comentarios.
ED.CMM: salida de SLR1 al especificar como entrada a ED.GLC. Este
archivo contiene la gramática en formato C++.
EVALUAR.CMM: en este módulo se dan las funciones para evaluar una
fórmula bien formada del cálculo proposicional dada en notación postfijo.
117
Documentación de SLR1 versión 1.x
ASIGINT.CMM: en este módulo se da una función que traduce una
interpretación codificada en binario, cargando en cada variable de la tabla
de símbolos dada el valor de verdad correspondiente.
TAUTO.CMM: en este módulo se da una función que verifica si una
fórmula dada en notación postfijo es o no tautología.
VESQDED.CMM: en este módulo se da una función que verifica un
esquema deductivo dado como entrada. Se podría considerar a este módulo
como el principal.
ALED.CMM: en este módulo están el analizador lexicográfico y la función
de acciones semánticas que realizan la traducción.
ANALIZAR.CMM: este módulo viene provisto junto con SLR1 v 1, y
contiene la función Analizar que realiza el análisis sintáctico usando las
tablas generadas por SLR1 a partir de la gramática.
ESQDED.H: este es un archivo cabecera en donde se declaran las clases y
prototipos de las funciones desarrolladas, a los efectos de poder reusar
fácilmente los módulos fuentes escritos.
SLR1.H: declaración (prototipo) de la función Analizar. Viene provisto
junto con SLR1 v 1.
ELEM.H: declaración de las clases usadas para manejar las estructuras de
datos utilizadas durante el análisis sintáctico. Viene provisto junto con
SLR1 v 1.
La interfase con el usuario final de la aplicación ha sido generada con el
Application Expert (AppExpert) del Turbo C++ 4.5 para Windows; la
aplicación correrá sin problemas en Windows 3.1 en adelante, incluyendo a
Windows NT. El código generado puede ser recompilado sin problemas
usando el Borland C++ 2.0 para OS/2, y obtener así una versión que correrá en
OS/2 2.1 y OS/2 Warp, pero se debe tener cuidado con ese C++ puesto que es
de 32 bits (en C++ no se dan especificaciones sobre la implementación de los
tipos de datos fundamentales, la misma queda a elección del fabricante del
compilador; por ejemplo, en C++ para Win16 el tamaño del tipo int es de 16
bits y en C++ para OS/2 y Win32 es de 32 bits).
La aplicación generada es un editor multitexto (se pueden editar varios
textos a la vez) con todas las funciones de un editor de textos, y en el menú
archivo se agregó una opción para "Verificar validez" del esquema deductivo
que se encuentra en la ventana de texto actual (la que se encuentre activa). La
generación de la aplicación es en realidad más simple de lo que se pueda
118
Documentación de SLR1 versión 1.x
entender a partir de la lectura de este documento (fue muy fácil), y es esa la
razón por la que se eligió AppExpert para diseñar la interfase.
Los archivos generados son:
EDAPP.CMM: módulo principal.
EDEDITVW.CMM: clase que maneja un objeto editor de texto. A este
módulo se lo modificó para procesar la opción "Verificar validez".
EDMDICLN.CMM: clase para manejar un objeto cliente de un objeto MDI.
EDMDICHL.CMM: clase para manejar un objeto hijo de un objeto MDI.
APXPREV.CPP: presentación preliminar de un documento editado.
APXPRINT.CPP: objeto para imprimir un documento.
EDABTDLG.CPP: ventana Acerca de... de la aplicación.
APXPREV.H: cabecera de APXPREV.CPP.
APXPRINT.H: cabecera de APXPRINT.CPP.
EDABTDLG.H: cabecera de EDABTDLG.CPP
EDAPP.H: cabecera de EDAPP.CMM.
EDEDITVW.H: cabecera de EDEDITVW.CMM.
EDMDICLN.H: cabecera de EDMDICLN.CMM.
EDMDICHL.H: cabecera de EDMDICHL.CMM.
Además se utilizó la biblioteca de clases BCE, la que se encuentra
disponible para DOS, Windows y OS/2 (para modo caracter y Presentation
Manager). Los módulos no se enumeran por ser un producto comercial. Se
usaron únicamente la clase Ascii0 (en EDEDITVW.CMM para almacenar el
texto) y la función SimbSig en el analizador lexicográfico (en ALED.CMM,
para simplificar el mismo).
La clase EDEditView, cuya definición está en EDEDITVW.CMM, y
que sirve para manejar una vista de un documento de texto (el generador
AppExpert da soporte al modelo documento/vista introducido por Borland en
sus C++ desde la versión 4.0 para Windows y 2.0 para OS/2), fue modificada
para manejar el evento CM_VERIFICAR que se genera al seleccionar la
opción "Verificar validez". La función agregada es la VerificarValidez de esta
119
Documentación de SLR1 versión 1.x
clase, cuya declaración y prototipado inicial fue realizado por ClassExpert, el
administrador de clases de AppExpert. La función se transcribe a
continuación, y el código agregado es el que está después del comentario //
INSERT>>... y termina en la llamada a MessageBox final. (Se aclara
nuevamente que el resto del código, salvo dos líneas que se encuentran al
comienzo de éste módulo, no ha sido escrito por el autor).
void EDEditView::VerificarValidez ()
{
// INSERT>> Your code here.
// Primero sacar el texto del EditView de Windows
Ent16ns tam = GetTextLen() + 1;
Ascii0 cad(tam);
if (! GetText(cad, tam)) return; // si no hay texto editado
// Luego llamar a la función que verifica validez:
int r = ValidarEsqDed(cad);
// y finalmente se informa el resultado:
const char * msj = "CODIGO DESCONOCIDO";
uint icono = MB_OK;
switch (r) {
case EDVAL:
msj = "El esquema deductivo es VALIDO.";
icono |= MB_ICONINFORMATION;
break;
case EDINVAL:
msj = "El esquema deductivo es INVALIDO.";
icono |= MB_ICONEXCLAMATION;
break;
case EDERROR:
msj = "Error sintáctico en el fuente.";
icono |= MB_ICONQUESTION;
break;
}
MessageBox(msj, "Resultado del análisis", icono);
}
La única sentencia importante en esta función es la llamada a
ValidarEsqDed, que es la función que actualmente ejecuta toda la operación
de validación. Todas las sentencias antes de ésta sirven para extraer el texto
del objeto ventana editor del Windows (a través de la clase TEdit, clase base
de TEditView y EDEditView). El código siguiente a la llamada a
ValidarEsqDed es el que presenta el resultado en una ventana de mensajes. El
problema de obtener el texto de entrada e informar el resultado de la
validación es un problema aparte, y se puede realizar como uno quiera y en el
sistema operativo que desee.
También se agregaron dos líneas más al comienzo del módulo
EDEDITVW.CMM, que son las siguientes:
# include <ascii0.h> // de BCE
# include "esqded.h" // de esta aplicación
120
Documentación de SLR1 versión 1.x
Los .h incluidos hacen posible la utilización de la clase Ascii0 (para
obtener el texto) y de la función ValidarEsqDed (que no está definida en este
módulo).
El código restante (enumerado en el primer grupo de módulos fuentes)
es el que realiza todo el trabajo de validación. No contempla la forma de
obtener el texto ni la forma de emitir mensajes (ambas dependientes del
sistema operativo). Este conjunto de módulos fuentes son independientes del
sistema operativo, inclusive son independiente de si trabaja con código ANSI
u OEM (los editores de Windows trabajan con OEM, los de DOS y algunos de
OS/2 con ANSI).
La gramática que se dará de entrada a SLR1 en el archivo de texto plano
ED.GLC es la siguiente:
E
Prem
Prem
F
F
I
I
D
D
C
C
Prop
Prop
Prop
Prop
-->
-->
-->
-->
-->
-->
-->
-->
-->
-->
-->
-->
-->
-->
-->
Prem '#' F
Prem ',' F
F
F '<==>' I
I
I '==>' D
D
D '+' C
C
C '*' Prop
Prop
c
v
'(' F ')'
- Prop
En esta gramática, el símbolo # sirve para decir que a continuación
viene la conclusión, la coma separa a las premisas (debe haber por lo menos
una). Cada premisa debe ser una fórmula bien formada del cálculo
proposicional. El símbolo <==> se utiliza para la doble implicación, el ==> se
utiliza para el la implicación, el + para la disyunción, el * para la conjunción,
el - para la negación y los ( ) para la asociatividad y ruptura de precedencia.
Los tres siguientes son ejemplos de esquemas deductivos reconocibles por la
gramática dada:
Ejemplo 1:
p ==> q,
p
# q
Ejemplo 2:
121
Documentación de SLR1 versión 1.x
-p + q,
p
#q
Ejemplo 3:
- ( p * r ), q ==> r, q # -p
Los esquemas dados le pueden ser familiares. Los puede encontrar en
algún libro de lógica.
La forma en que se escriban las fórmulas no debe ser importante,
inclusive los espacios que se dejan entre ellas. Este problema será resuelto por
el analizador lexicográfico que se da en el archivo ALED.CMM. El prototipo
del analizador lexicográfico es similar al dado en páginas anteriores. Los
códigos que devuelven coinciden con los indicados por SLR1 v 1 en el
conjunto T de símbolos terminales, el cual se transcribe:
T = { ('#', 1), (',', 2), ('<==>', 3), ('==>', 4), ('+', 5),
('*', 6), (c, 7), (v, 8), ('(', 9), (')', 10), (-, 11) }
En el conjunto se muestra cada terminal como un par ordenado en donde
el primer componente es la cadena de caracteres usado en la gramática fuente y
el número dado en el segundo componente es el código asignado.
Debido a que los códigos que se le asignan a los terminales pueden
cambiar con sólo cambiar el orden de las reglas, se #definen macros para tener
independencia entre código fuente y los códigos asignados (ver ALED.CMM).
El analizador lexicográfico mantiene el último identificador de variable
o constante en la variable global ult_c_v definida en ALED.CMM a los
efectos de no tener que modificar la estructura de los elementos de la pila para
acceder a la cadena de caracteres usada en el fuente, durante el análisis
sintáctico.
La entrada al analizador sintáctico es una cadena de caracteres que se
fija con la función FijarFuente definida en ALED.CMM. La función de
análisis lexicográfico será llamada por la función Analizar a medida que se
necesite un símbolo de entrada.
La función de acciones semánticas cuyo nombre es AccSemEsqDed y
está definida en ALED.CMM, traduce el esquema deductivo en notación
entrefijo del fuente a notación postfijo. La fórmula resultante se guarda en el
vector fnp, desde el elemento 0 en adelante; la variable global ifnp tiene el
122
Documentación de SLR1 versión 1.x
tamaño de fnp. En una tabla de símbolos que se implementa en un vector con
nombre tds y tamaño itds se almacenan las variables que aparecen en la
fórmula, una copia por variable. Esta tabla de símbolos se utiliza para asignar
la interpretación a las variables y poder luego evaluar la fórmula.
Observar en el código de AccSemEsqDed que al reducir por regla 1
(E---> Prem # F ) o 6 ( I --> I '==>' D ), a los operadores '#' y '==>' se los
traduce a '==>'. En este caso, el '#' puede interpretarse como un '==>' de menor
precedencia. Lo mismo ocurre con la reducción por reglas 2 ( Prem --> Prem ','
F ) o 10 ( C --> C '*' Prop ), en donde los operadores ',' y '*' se traducen a '*',
esto es, ',' tiene el mismo significado (semántica) que '*', sólo que es un
operador de menor precedencia. (Como ejercicio para el lector se propone
hacer la tabla de precedencia de operadores para la gramática dada.)
Observar también que en la reducción de las reglas 12 y 13, el símbolo
que nos interesa es exactamente el anterior al actual, y se usa la variable
ult_c_v para accederlo.
La función que verifica si la fórmula proposicional en notación postfijo
es tautología se llama Tautologia y se encuentra definida en el módulo
TAUTO.CMM. La misma genera interpretaciones de las variables que
aparecen en la fórmula hasta encontrar alguna interpretación para la que la
fórmula dé falso. La interpretación (un juego de valores de verdad asignado a
las variables de la fórmula) se codifica en un número binario de 16 bits, en
donde el bit 0 tiene el valor de verdad de la variable tds[0], el bit 1 a tds[1], y
así sucesivamente. Como el número tiene 16 bits, a lo sumo pueden haber 16
variables distintas posibles. El pasaje de binario a la tabla de símbolos de una
interpretación lo realiza la función AsigInterp definida en ASIGINT.CMM.
La función Evaluar realiza la evaluación de una fórmula proposicional dada
en postfijo para una interpretación dada.
Más documentación puede encontrar en los archivos fuente. A
continuación se transcriben los módulos fuentes enumerados en el primer
grupo de módulos fuentes, que son los que realmente se escribieron para esta
aplicación. Los demás módulos fueron generados automáticamente, y sólo son
importantes las líneas transcriptas a éste documento, y por tal razón no se
incluyen aquí.
123
Documentación de SLR1 versión 1.x
11.10 Módulos fuentes escritos para el ejemplo 4
11.10.1 ED.GLC
E
Prem
Prem
F
F
I
I
D
D
C
C
Prop
Prop
Prop
Prop
-->
-->
-->
-->
-->
-->
-->
-->
-->
-->
-->
-->
-->
-->
-->
Prem '#' F
Prem ',' F
F
F '<==>' I
I
I '==>' D
D
D '+' C
C
C '*' Prop
Prop
c
v
'(' F ')'
- Prop
11.10.2 ED.CMM
?????????
No se incluye por ser salida de SLR1 v 1 y generable a partir de
ED.GLC.
11.10.3 EVALUAR.CMM
//
//
//
//
//
evaluar.cmm
Copyright © 1993 by Domingo Eduardo Becker.
All rights reserved.
Creación: 26 May 93
Ult Mod: 01 Nov 95
# include "esqded.h"
# include <string.h>
//
//
//
//
//
//
int ValorDe( const char * s, const SimbFormProp * tds, unsigned ttds );
Esta función busca el símbolo cuya cadena es s en el vector tds cuyo
tamaño es ttds.
Debido a que para la comparación de cadenas se usa strcmp, se hace
diferencia entre mayúsculas y minúsculas.
La función devuelve el valor de verdad asignado a la variable.
static int ValorDe( const char * s, const SimbFormProp * tds,
unsigned ttds ) {
register int i;
for (i = 0; i < ttds; ++i)
if (! strcmp(s, tds[i].var)) break;
if (i == ttds) return 0;
else return tds[i].valor;
}
124
Documentación de SLR1 versión 1.x
//
//
//
//
//
//
//
//
//
//
//
//
//
//
int Evaluar( char p, char q, int operacion );
Evaluar evalúa la operacion pasada como parámetro a partir de los
operandos p y q.
En p y q debe venir 0 si es falso o distinto a 0 si es verdadero.
La función devuelve 0 si el resultado de la operación es falso y
distinto a 0 si el resultado de la operación es verdadero.
La operación se codifica con la enumeración dada en simbolo.h dentro
de la clase SimbFormProp, y se acceden desde cualquier lugar usando el
operador :: para romper ámbitos. Ellos son:
DOBLEIMPL: <==> doble implicación, binario, p <==> q
IMPLIC:
==>
implicación,
binario, p ===> q
DISYUN:
+
disyunción,
binario, p + q
CONJUN:
*
conjunción,
binario, p * q
NEGAR:
negación,
unario, - p
int Evaluar( char p, char q, int operacion ) {
p = p ? 1 : 0; // llevar a 0 o 1
q = q ? 1 : 0;
register int r = 0;
switch (operacion) {
case SimbFormProp::DOBLEIMPL: // <==>
r = ! (p ^ q);
break;
case SimbFormProp::IMPLIC: //
r = ! p | q;
break;
==>
case SimbFormProp::DISYUN: // + (disyunción)
r = p | q;
break;
case SimbFormProp::CONJUN: // * (conjunción)
r = p & q;
break;
case SimbFormProp::NEGAR: // - (negación)
r = ! p;
break;
}
return r;
}
// int Evaluar( const SimbFormProp * fnp, unsigned tfnp,
//
const SimbFormProp * tds, unsigned ttds );
// Evaluar evalúa la expresión en postfijo pasado en el vector fnp, cuyo
// tamaño es tfnp.
// La interpretación a utilizar es la que viene en la tabla de símbolos
tds,
// cuyo tamaño es ttds.
// La función devuelve 0 si la fórmula bien formada en notación postfijo
fnp
// es falsa para la interpretación dada, y distinto a 0 si es verdadera.
// El algoritmo que se usa para evaluar la expresión en notación postfijo
// puede ser encontrado en cualquier libro de Estructuras de datos y
// Algoritmos.
int Evaluar( const SimbFormProp * fnp, unsigned tfnp,
const SimbFormProp * tds, unsigned ttds ) {
char pila[20], pp = 0;
register unsigned ifnp;
for (ifnp = 0; ifnp < tfnp; ++ifnp) {
if (fnp[ifnp].cod > SimbFormProp::MAXVAR &&
125
Documentación de SLR1 versión 1.x
fnp[ifnp].cod < SimbFormProp::ULTIMOOPERADOR) { // efectuar
operación
if (fnp[ifnp].cod == SimbFormProp::NEGAR) {
// operación unaria, desapila 1 y apila el resultado
pila[pp - 1] = Evaluar(pila[pp-1], 0, fnp[ifnp].cod);
}
else {
// operación binaria, desapila 2 y apila el resultado
pila[pp - 2] = Evaluar(pila[pp-2], pila[pp-1], fnp[ifnp].cod);
--pp;
}
}
else pila[pp++] = ! fnp[ifnp].cod ? fnp[ifnp].valor
: ValorDe(fnp[ifnp].var, tds, ttds);
}
return pila[pp-1];
}
11.10.4 ASIGINT.CMM
//
//
//
//
//
asigint.cmm
Copyright © 1993 by Domingo Eduardo Becker.
All rights reserved.
Creación: 26 May 93
Ult Mod: 01 Nov 95
# include "esqded.h"
//
//
//
//
//
//
//
void AsigInterp( SimbFormProp * tds, unsigned ttds, int vv );
AsigInterp asigna a la tabla de símbolos la interpretación que viene
codificada en vv.
Si numeramos los bits de vv de 0 a 15, el bit 0 corresponde a tds[0],
el bit 1 a tds[1], ..., y el bit 15 a tds[15].
El valor de verdad de cada variable se asigna al campo valor de cada
elemento de tds.
void AsigInterp( SimbFormProp * tds, unsigned ttds, int vv ) {
register int i, bit;
for (i = 0, bit = 1; i < ttds; ++i, bit <<= 1)
tds[i].valor = vv & bit;
}
11.10.5 TAUTO.CMM
//
//
//
//
//
tauto.cmm
Copyright © 1993 by Domingo Eduardo Becker.
All rights reserved.
Creación: 26 May 93
Ult Mod: 01 Nov 95
# include "esqded.h"
//
//
//
//
//
//
//
//
int Tautologia( const SimbFormProp * fnp, unsigned tfnp,
SimbFormProp * tds, unsigned ttds );
Tautologia chequea si la fórmula bien formada del cálculo proposicional
que viene en fnp en formato notación postfijo es una tautología.
El tamaño de la fórmula es tfnp (número de elementos del vector).
La tabla de símbolos que se recibe como parámetros es a los efectos de
poder generar las interpretaciones posibles. El tamaño de la tabla de
símbolos (vector) viene dado en ttds.
126
Documentación de SLR1 versión 1.x
// La función devuelve 0 si no es tautología y distinto a 0 si lo es.
int Tautologia( const SimbFormProp * fnp, unsigned tfnp,
SimbFormProp * tds, unsigned ttds ) {
int i, t;
t = (1 << ttds) - 1; // 2 elevado a la número de variables menos 1
for (i = 0; i <= t; ++i) {
AsigInterp(tds, ttds, i);
if (! Evaluar(fnp, tfnp, tds, ttds)) // si alguno es falso
break;
// entonces no es tautología
}
return i > t; // si se probaron todas las interpretaciones
}
// entonces es tautología
11.10.6 VESQDED.CMM
// vesqded.cmm
//
//
//
//
validación de esquemas deductivos.
Copyright © 1993 by Domingo Eduardo Becker.
All rights reserved.
Creación: 26 May 93
Ult Mod: 01 Nov 95
# include "esqded.h"
# include "slr1.h"
// función Analizar
// Variables definidas en aled.cmm
extern SimbFormProp fnp[ ], tds[ ];
extern unsigned ifnp, itds;
// Los siguientes se encuentan en ed.cmm (generado por SLR1 v 1)
extern unsigned noterm_long_pd[ ], accion[ ], ir_a[ ];
// AccSemEsqDed son las acciones semánticas que traducen a postfijo a la
// fórmula. Ver documentación en aled.cmm.
void AccSemEsqDed( unsigned numregla );
int ValidarEsqDed( const char * EsqDed ) {
FijarFuente(EsqDed);
if ( Analizar(noterm_long_pd, accion, ir_a, AnaLexEsqDed, AccSemEsqDed)
)
return Tautologia(fnp, ifnp, tds, itds) ? EDVAL : EDINVAL;
else
return EDERROR;
}
11.10.7 ALED.CMM
//
//
//
//
//
//
aled.cmm
Funciones para el analizador lexicográfico.
Copyright © 1993 by Domingo Eduardo Becker.
All rights reserved.
Creación: 26 May 93
Ult Mod: 01 Nov 95
# include "esqded.h"
# include <string.h>
# include <fvarias.h> // de la biblioteca BCE se usa SimbSig
const char * cadena = 0,
* psimb = 0;
127
Documentación de SLR1 versión 1.x
SimbFormProp fnp[50], // fórmula en notación postfijo
tds[16]; // tabla de símbolos
unsigned ifnp = 0, itds = 0;
//
//
//
//
//
//
void FijarFuente( const char * cad );
FijarFuente fija a cad como el texto fuente a analizar.
El texto puede ser cargado por una simple lectura binaria a un archivo
de texto, pidiendo que lea tantos bytes como la longitud del archivo y
recibirlo en un bloque de caracteres de ese tamaño más uno. Al último
elemento le debe poner un 0.
void FijarFuente( const char * cad ) {
psimb = (char *) ( cadena = cad );
ifnp = itds = 0;
}
// int AgregarTDS( const char * s );
// Agrega s a la tabla de símbolo. s es la cadena que identifica al
símbolo.
// Si la variable ya existe en la tabla entonces no lo agrega.
// Siempre devuelve el código asignado a la variable, que es un número
// entre 1 y 16.
int AgregarTDS( const char * s ) {
register int i;
for (i = 0; i < itds; ++i)
if (! strcmp(tds[i].var, s)) break;
if (i == itds) {
strncpy(tds[itds].var, s, 10);
tds[itds].valor = 0;
++itds;
tds[itds].cod = itds;
return itds; // devuelve el código que se le asigna
}
return tds[i].cod; // dev. el cód. asignado anteriormente
}
// Las cadenas de caracteres siguientes sirven para trabajar con SimbSig.
// El ^ del comienzo significa cualquier caracter menos los que se
enumeran
// a la derecha. La sintaxis de las cadenas dadas es la misma que usa LEX
// de UNIX para la especificación de rangos de caracteres.
// Puede consultar la documentación de la función SimbSig de BCE o la
// documentación del LEX en cualquier manual de UNIX, XENIX o LINUX.
static char *
*
*
*
*
*
*
*
*
*
*
*
//
//
//
//
//
blanco = "^ \n\r\t",
ident
= "^0-9_a-zA-ZáéíóúñÑüÜ",
cons
= "^01", // 0 falso, 1 verdadero
neg
= "^-",
disy
= "^+",
conj
= "^*",
impl
= "^=>",
doblimp = "^<=>",
a_par
= "^(",
c_par
= "^)",
coma
= "^,",
conclu = "^#";
SLR1 v1 informó en el archivo ed.txt (luego de procesar a ed.glc) que
los símbolos terminales deben tener asignados los siguientes códigos:
T = { ('#', 1), (',', 2), ('<==>', 3), ('==>', 4), ('+', 5),
('*', 6), (c, 7), (v, 8), ('(', 9), (')', 10), (-, 11) }
Se utilizan sentencias #define para trabajar independientemente de
128
Documentación de SLR1 versión 1.x
// los códigos que asigne SLR1 v1 (puede cambiarlos si cambiamos la
gramática).
#
#
#
#
#
#
#
#
#
#
#
#
define
define
define
define
define
define
define
define
define
define
define
define
IDENT
CONS
NEG
DISY
CONJ
IMPL
DOBLIMP
A_PAR
C_PAR
COMA
CONCLU
NO_SE
8
7
11
5
6
4
3
9
10
2
1
12
char simbolo[100], // aquí devuelve el analizador léxico la cadena
encontrada
ult_c_v[100]; // último constante o variable. Se usa para las
acciones
// a efectos de no implementar una pila especial.
// unsigned char AnaLexEsqDed();
// Realiza el análisis lexicográfico de un esquema deductivo del cálculo
// proposicional.
// El prototipo de esta función coincide con el requerido por la SLR1 v 1.
// Devuelve el código del símbolo léxico encontrado, 0 si es fin de
archivo.
// Previo al uso de la función, las variables internas deben ser
// inicializadas llamando a la función FijarFuente y pasando como
parámetro
// la cadena de texto a analizar (la que contiene el esquema deductivo).
unsigned char AnaLexEsqDed() {
psimb = SimbSig(psimb, simbolo, blanco); // saltear blancos
if (psimb = SimbSig(psimb, simbolo, cons), *simbolo)
{
strcpy(ult_c_v, simbolo);
return CONS;
}
if (psimb = SimbSig(psimb, simbolo, ident), *simbolo)
{
strcpy(ult_c_v, simbolo);
return IDENT;
}
if (psimb = SimbSig(psimb, simbolo, neg), *simbolo)
return
if (psimb = SimbSig(psimb, simbolo, disy), *simbolo)
return
if (psimb = SimbSig(psimb, simbolo, conj), *simbolo)
return
if (psimb = SimbSig(psimb, simbolo, impl), *simbolo)
return
if (psimb = SimbSig(psimb, simbolo, doblimp), *simbolo) return
if (psimb = SimbSig(psimb, simbolo, a_par), *simbolo)
return
if (psimb = SimbSig(psimb, simbolo, c_par), *simbolo)
return
if (psimb = SimbSig(psimb, simbolo, coma), *simbolo)
return
if (psimb = SimbSig(psimb, simbolo, conclu), *simbolo) return
if (psimb != 0 && *psimb) return NO_SE;
else return 0;
}
NEG;
DISY;
CONJ;
IMPL;
DOBLIMP;
A_PAR;
C_PAR;
COMA;
CONCLU;
// void AccSemEsqDed( unsigned numregla );
// Esta función realiza las acciones semánticas durante el análisis
sintáctico.
// La forma de trabajo de estas acciones semánticas se basa en la
traducción
// a postfijo de la expresión fuente. Es similar a la que se hace como
// ejercicio en los cursos de compiladores y la puede encontrar en la
// bibliografía de construcción de compiladores e intérpretes.
// Fundamentos de las acciones semánticas dadas:
// - Un esquema deductivo puede ser traducido a una fórmula bien formada
129
Documentación de SLR1 versión 1.x
//
del cálculo proposicional, concatenando las premisas con conjunciones
//
y hacer que la fórmula resultante implique la conclusión.
// - A tal efecto, el # se considera como un ==> con precedencia mucho
menor
//
que todos los demás operadores, y la coma (,) como el * (conjunción)
//
pero con precedencia mayor que el # y menor que el resto de los
//
operadores.
// - A partir de los dos puntos previos, el esquema deductivo ya viene con
//
la forma de la implicación asociada, y el único trabajo que queda
//
es traducirla a notación postfijo para poder evaluarla.
void AccSemEsqDed( unsigned numregla ) {
switch (numregla) {
case 1: // E ---> Prem '#' F
case 6: // I ---> I '==>' D
fnp[ifnp].cod = SimbFormProp::IMPLIC;
fnp[ifnp].valor = 0;
strcpy(fnp[ifnp].var, "==>");
++ifnp;
break;
case 2: // Prem ---> Prem ',' F
case 10: // C ---> C '*' Prop
fnp[ifnp].cod = SimbFormProp::CONJUN;
fnp[ifnp].valor = 0;
strcpy(fnp[ifnp].var, "*");
++ifnp;
break;
case 4: // F ---> F '<==>' I
fnp[ifnp].cod = SimbFormProp::DOBLEIMPL;
fnp[ifnp].valor = 0;
strcpy(fnp[ifnp].var, "<==>");
++ifnp;
break;
case 8: // D ---> D '+' C
fnp[ifnp].cod = SimbFormProp::DISYUN;
fnp[ifnp].valor = 0;
strcpy(fnp[ifnp].var, "+");
++ifnp;
break;
case 12: // Prop ---> c
fnp[ifnp].cod = SimbFormProp::CONSTANTE;
fnp[ifnp].valor = *ult_c_v == '0' ? 0 : 1;
strncpy(fnp[ifnp].var, ult_c_v, 10);
fnp[ifnp].var[9] = 0; // asegura terminación en 0
++ifnp;
break;
case 13: // Prop ---> v
// Escribir en la expresión en notación postfijo
fnp[ifnp].cod = AgregarTDS(ult_c_v); // agrega a tds y asigna el
código
fnp[ifnp].valor = 0;
strncpy(fnp[ifnp].var, ult_c_v, 10);
fnp[ifnp].var[9] = 0; // asegura terminación en 0
++ifnp;
break;
case 15: // Prop ---> - Prop
fnp[ifnp].cod = SimbFormProp::NEGAR;
fnp[ifnp].valor = 0;
strcpy(fnp[ifnp].var, "-");
130
Documentación de SLR1 versión 1.x
++ifnp;
break;
}
}
11.10.8 ANALIZAR.CMM
Este módulo viene provisto con SLR1 v 1. Se lo incluye a modo de
ilustración.
// Analizar()
# include "slr1.h"
# include "elem.h"
# include <ascii0.h>
void MostrarPila( void (* fver)( char * mensaje ),
ElemPila * p, unsigned pp ) {
if (fver == 0) return;
(*fver)("Pila: ");
Ascii0 cad;
unsigned c = 0;
while (c <= pp) {
cad.printf("%u%c,%u ", p[c].s.cod, p[c].s.noterminal ? 'n' : 't',
p[c].e);
(*fver)(cad);
++c;
}
(*fver)("\n");
}
int Analizar( unsigned * ntlpd, unsigned * accion, unsigned * ir_a,
unsigned char (* analex)(),
void (* accion_sem)( unsigned numregla ),
void (* fver)( char * mensaje ) ) {
if (analex == 0) return 0;
ElemPila pila[100];
Accion a;
unsigned x1,x2,x3; // variables auxiliares
unsigned numiter;
unsigned pp = 0; // puntero de pila
pila[0].e = 0;
// estado inicial.
Ascii0 msj;
unsigned char s,
nt = ntlpd[0] >> 8,
t = ntlpd[0] + 1;
// pila[pp].e es el estado actual.
int salir = 0, cumple;
s = (*analex)(); // pide un s¡mbolo de entrada
if (s > t) return 0; // s¡mbolo inesperado
numiter = 0;
while ( ! salir ) {
if (fver != 0) {
msj.printf("Iter: %4u ", ++numiter);
(*fver)(msj);
MostrarPila(fver, pila, pp);
msj.printf("Est: %u, S¡mb: %u, ", pila[pp].e, (unsigned) s);
(*fver)(msj);
}
131
Documentación de SLR1 versión 1.x
a = x1 = accion[pila[pp].e * t + s];
if (! x1) { // error
salir = 1;
cumple = 0;
if (fver != 0) (*fver)("ERROR.\n");
}
else {
switch (a.cod) {
case 0: // desplazar s e ir a a.n
pila[++pp].s.cod = s;
pila[pp].s.noterminal = 0;
pila[pp].e = a.n;
if (fver != 0) {
msj.printf("d%u\n", a.n);
(*fver)(msj);
}
s = (*analex)(); // pide otro s¡mbolo de entrada
if (s > t) { // s¡mbolo inesperado
salir = 1;
cumple = 0;
}
break;
case 1: // aceptar
salir = cumple = 1;
if (fver != 0) (*fver)("Aceptar.\n");
break;
case 2: // reducir por a.n
x1 = ntlpd[a.n];
x2 = x1 & 0x00FF; // apaga el byte alto
pp = x2 > pp ? 0 : pp - x2; // desapila x2 elementos
x1 >>= 8; // c¢d del no terminal
x3 = ir_a[ pila[pp].e * nt + x1 - 1 ];
if (accion_sem != 0) (*accion_sem)(a.n);
pila[++pp].s.cod = x1;
pila[pp].s.noterminal = 1;
pila[pp].e = x3;
if (fver != 0) {
msj.printf("r%u, lpdr: %u, EstExp: %u, NT: %u\n", a.n, x2,
pila[pp-1].e, x1);
(*fver)(msj);
}
break;
default: // problemas
salir = 1;
cumple = 0;
if (fver != 0) (*fver)("PROBLEMAS EN LAS TABLAS.\n");
}
} // else
} // while
return cumple;
}
11.10.9 ESQDED.H
# ifndef __ESQDED_H
# define __ESQDED_H
// Copyright © 1993 by Domingo Eduardo Becker.
// All rights reserved.
// Creación: 26 May 93
132
Documentación de SLR1 versión 1.x
// Ult Mod: 01 Nov 95
// clase SimbFormProp: implementa un símbolo de una fórmula del cálculo
// proposicional. Un símbolo puede ser una constante (V o F), una variable
// o un operador lógico.
class SimbFormProp {
public:
unsigned cod;
char valor;
char var[10];
enum { CONSTANTE = 0, MAXVAR = 999, DOBLEIMPL, IMPLIC,
DISYUN, CONJUN, NEGAR, ULTIMOOPERADOR };
};
// Funciónes de operaciones lógicas:
// Evaluación de una fórmula con 1 o 2 operandos:
int Evaluar( char p, char q, int operacion );
//
//
//
//
//
Evaluación de una fórmula compleja dada en notación postfijo.
fnp es la fórmula (en vector), tfnp el número de elementos.
tds es la tabla de variables de la fórmula de ttds elementos.
En el campo valor de cada elemento de tds está el valor de verdad
asignado a la variable (==0 falso, !=0 verdadero).
int Evaluar( const SimbFormProp * fnp, unsigned tfnp,
const SimbFormProp * tds, unsigned ttds );
// Asignación de una interpretación (ver doc en asigint.cmm):
void AsigInterp( SimbFormProp * tds, unsigned ttds, int vv );
// Verificación de si una fórmula es tautología o no:
// La fórmula a comprobar viene en notación postfijo en fnp, representado
// como vector de tamaño tfnp. La tabla de variables viene en tds, un
vector
// de tamaño ttds. El campo valor de los elementos de tds son modificados.
int Tautologia( const SimbFormProp * fnp, unsigned tfnp,
SimbFormProp * tds, unsigned ttds );
// Funciones para el análisis léxico y traducción del esquema deductivo a
// implicación asociada:
// FijarFuente debe ser llamado previo a llamar a la función Analizar.
// El parámetro es una cadena de caracteres con el esquema deductivo.
// Ver documentación en aled.cmm.
void FijarFuente( const char * cad );
// AgregarTDS agrega a s como variable en la tabla de símbolos interna.
// Devuelve el código asignado a la variable.
int AgregarTDS( const char * s );
// AnaLexEsqDed es la función que realizará el análisis lexicográfico
// del esquema deductivo. Se pasa como parámetro a la función Analizar.
unsigned char AnaLexEsqDed();
// Validar un esquema deductivo dado en formato texto:
// la función devuelve:
// EDVAL si es válido.
133
Documentación de SLR1 versión 1.x
// EDINVAL si es inválido.
// EDERROR si hay error léxico o de sintaxis.
int ValidarEsqDed( const char * EsqDed );
# define EDVAL
0
# define EDINVAL 1
# define EDERROR 2
# endif
11.10.10SLR1.H
Este módulo viene provisto con SLR1 v 1. Se lo incluye a modo de
ilustración.
#ifndef __SLR1_H
#define __SLR1_H
// slr1.h: declaraci¢n de la funci¢n que realiza el an lisis sint ctico.
//
// Copyright (c) 1992 by Domingo Becker.
// All rights reserved.
int Analizar( unsigned * ntlpd, unsigned * accion, unsigned * ir_a,
unsigned char (* analex)(),
void (* accion_sem)( unsigned numregla ) = 0,
void (* fver)( char * mensaje ) = 0 );
#endif
11.10.11ELEM.H
Este módulo viene provisto con SLR1 v 1. Se lo incluye a modo de
ilustración.
#ifndef __ELEM_H
#define __ELEM_H
// elem.h: definici¢n de las clases para las tablas que maneja el
analizador
//
sint ctico slr(1)
//
// Copyright (c) 1992 by Domingo E. Becker.
// All rights reserved.
#ifndef __ASCII0_H
#include "ascii0.h"
#endif
class Simbolo {
public:
unsigned char cod;
unsigned char noterminal;
};
class SimbCad : public Simbolo {
public:
Ascii0 cad;
134
Documentación de SLR1 versión 1.x
};
class ElemPila { // estructura de un elemento de la pila del analizador
public:
Simbolo s;
unsigned e;
ElemPila() { s.cod = s.noterminal = 0; e = 0; }
};
class Accion { // estructura de una acci¢n
public:
unsigned n
: 14;
unsigned cod : 2; // 00=d, 01=a, 10=r
Accion() { *(unsigned *) this = 0; }
Accion( unsigned a ) { *(unsigned *) this = a; }
Accion & operator = ( unsigned a );
int operator == ( unsigned a ) { return *(unsigned *) this == a; }
};
inline Accion & Accion::operator = ( unsigned a ) {
*(unsigned *) this = a;
return *this;
}
#endif // #ifndef __ELEM_H
135
Documentación de SLR1 versión 2.x
Capítulo 12: Documentación de SLR1 versión 2.x
El texto de este capítulo es la documentación de SLR1 v 2.x, y debe ser
tomado como un libro aparte. No se hacen referencias a otros capítulos de este
trabajo.
En el capítulo 18, donde se comenta la historia del desarrollo de las
herramientas presentadas en este trabajo, se puede encontrar información
interesante acerca de esta implementación.
12.1 Introducción
SLR1 es un programa para generar tablas de análisis sintáctico LR(1)
Simples a partir de la especificación de la gramática del lenguaje. Las tablas
generadas por este programa serán usadas para la realización del análisis
sintáctico de oraciones de ese lenguaje.
Este documento es la guía del usuario y manual de referencia del
generador SLR1 v 2.x. Su lectura presupone conocimientos básicos de la
Teoría de los Lenguajes Formales. Además se aconseja leer la documentación
de AFD v 3.x.
Lo que más adelante se menciona como metagramática tiene un
significado análogo al término metalenguaje en lingüística. En lingüística,
metalenguaje significa un lenguaje para hablar de lenguajes. Aquí,
metagramática significa una gramática para hablar de gramáticas.
12.2 Descripción general del funcionamiento
Se desarrollaron 3 implementaciones de SLR1 v 2, una para DOS, otra
para Windows y otra para OS/2 (Presentation Manager).
La entrada de SLR1 v 2 es un archivo de texto plano con la gramática
que se desea tratar, en donde se incluyen las acciones semánticas
(opcionalmente) para las reglas, entre otras cosas.
La salida del programa son 3 archivos: un archivo .CMM con las
acciones semánticas y el analizador léxico (en C++), un archivo .TAB con las
tablas en formato C++ que serán utilizadas para el análisis sintáctico, y un
archivo .EST con las tablas de análisis sintáctico en formato similar al que se
136
Documentación de SLR1 versión 2.x
presenta en la bibliografía, con los estados y con los códigos asignados a los
símbolos terminales y no terminales.
Los archivos .CMM y .TAB son los que luego se utilizan para realizar el
análisis sintáctico, incluyéndolo en la compilación junto con otros módulos
fuentes del proyecto en desarrollo.
12.3 Especificación de una gramática
La gramática debe ser escrita usando un archivo de texto plano con un
editor adecuado para el sistema operativo con el que se trabaja (al archivo que
contiene la gramática de entrada se lo mencionará en adelante como archivo
.GLC). El editor debe trabajar con código ANSI si es de Windows y con OEM
si es de DOS u OS/2. Si usa un editor que trabaja con OEM y procesa la
gramática con la versión de Windows entonces tendrá problemas con los
acentos y la ñ.
12.3.1 Especificación 2.0 de la metagramática
La metagramática que a continuación se presenta, describe la sintaxis
que se debe usar para especificar una gramática que se usará como entrada de
SLR1. La puede encontrar en el archivo GRAM.GLC, en donde además se
especifican las acciones semánticas para cada regla.
Gram ---> Fuentes Directivas Reglas ;
Fuentes ---> BlqCod ;
Fuentes ---> ;
Directivas ---> Directivas Directiva ;
Directivas ---> ;
Directiva ---> '#' 'ACCSEM' Ident BlqCod ;
Directiva ---> '#' 'TERMINAL' Ident ':' Ident ;
Directiva ---> '#' 'TERMINAL' Ident ;
Directiva ---> '#' 'IGNORAR' Ident ':' Ident ;
Directiva ---> '#' 'IGNORAR' Ident ;
Directiva ---> '#' 'ELEMPILA' Ident ;
Reglas ---> Reglas Regla ;
Reglas ---> Regla ;
Regla ---> ParteIzq SimbSep ListaAltern ';' ;
ParteIzq ---> Ident ;
SimbSep ---> Flecha ;
SimbSep ---> ':' ;
ListaAltern ---> ListaAltern '|' Altern ;
ListaAltern ---> Altern ;
Altern ---> ListaSimb CodAccSem ;
ListaSimb ---> ListaSimb Simb ;
ListaSimb ---> ;
CodAccSem ---> '*' Ident ;
CodAccSem ---> BlqCod ;
CodAccSem ---> ;
Simb ---> Ident ;
137
Documentación de SLR1 versión 2.x
Simb ---> Cadena ;
Las reglas se numeran de arriba a abajo de 1 a N, si hay N reglas.
Una gramática está formada por un conjunto no vacío de reglas, es decir,
al menos debe haber una regla.
12.3.2 Lexicografía del lenguaje de especificación de gramáticas v 2.0
A continuación se documentarán los componentes léxicos que pueden
usarse en la escritura de una gramática según la especificación 2.0 de la
metagramática (ver GRAM.GLC o página anterior). El analizador
lexicográfico fue construido usando la versión 3 de AFD, junto con la
biblioteca expreg.lib de soporte.
El analizador lexicográfico busca todas las especificaciones léxicas que
reconocen al símbolo léxico actual (la expresión regular es un ejemplo de
especificación léxica, una palabra clave es otro ejemplo). Si hay más de una
especificación léxica que reconoce al símbolo léxico actual se procede según
las siguientes reglas:
1. Si hay una especificación que reconoce una secuencia de caracteres más
larga que el resto de las especificaciones entonces se elige ésa. En caso
de empate entre dos o más especificaciones se procede según las reglas
siguientes.
2. Si el grupo de especificaciones son expresiones regulares, se elige la que
fue listada primero en el analizador léxico (ver más adelante).
3. Si en el grupo hay una palabra clave o un caracter reservado, se elige
éste. Así, TERMINAL puede ser un identificador, pero el analizador
léxico da prioridad a la palabra clave y lo reconoce como tal.
A continuación se enumeran los componentes léxicos. Los que fueron
especificados por medio de expresiones regulares aparecen en el orden en el
que fueron dados en el analizador léxico (a efectos de poder aplicar las 3
reglas anteriores para la resolución de conflictos).
Palabras claves: únicamente en mayúsculas, se reservan las siguientes
palabras: ACCSEM, TERMINAL, IGNORAR y ELEMPILA. No es posible
mezclar mayúsculas con minúsculas.
138
Documentación de SLR1 versión 2.x
Caracteres reservados: se reserva el uso de los siguientes caracteres:
# para escritura de directivas al generador
: para escritura de las directivas TERMINAL, IGNORAR y como reemplazo
de la flecha
; para finalizar una o más reglas.
| para la especificación de alternativas
* para referenciar a un bloque de código definido previamente con ACCSEM.
Bloque de código: un bloque de código es una porción de texto (de una o más
líneas) que comienza con el par de caracteres %{ y termina con }%.
Identificador: según la siguiente expresión regular:
# Letra [a-zA-Z_áéíóúñÑüÜ]
# Digito [0-9]
Letra (Letra | Digito)*
Flecha: uno o más guiones o signos menos seguido de un signo mayor que:
- + >
Cadena: según la siguiente expresión regular:
# CarEsp [abtnvfr]
# Otros [^\'\\\"\n]
'\'' ( ( '\\' ( '\\' | '\'' | '\"' | CarEsp ) ) | CarEsp | Otros ) + '\''
|
'\"' ( ( '\\' ( '\\' | '\'' | '\"' | CarEsp ) ) | CarEsp | Otros ) + '\"'
Una cadena de caracteres es similar a las que se dan en C++, a excepción de
que como delimitadores pueden usarse las comillas simples además de las
dobles. Las secuencias de escape son las mismas que las del C++ (\a, \b, \t, \n,
\v, \f, \r, \', \" y \\).
Blancos: los blancos se ignoran:
[ \n\r\f\t\v] +
Comentarios: los comentarios se ignoran. Son similares a los // del C++:
/ / .*
139
Documentación de SLR1 versión 2.x
12.3.3 Semántica subyacente en la especificación 2.0 de la Metagramática
La sintaxis a usar en la escritura de una gramática es la definida por la
metagramática dada previamente. La semántica se documenta a continuación.
La estructura de un archivo que contiene una gramática según la
especificación 2.0 se define por:
1. Partes del archivo .GLC
El archivo de gramática consta de tres partes a saber:
Bloque de código fuente previo a las acciones semánticas.
Directivas al generador de analizadores sintácticos.
Conjunto de reglas con sus correspondientes acciones semánticas.
2. Bloques de código previo a las acciones semánticas
Al comienzo del archivo .GLC se puede incluir un bloque de código
fuente C++ que será transcripto literalmente al archivo .CMM (el bloque es
opcional, ver en páginas previas cómo se escribe un bloque de código).
3. Directivas al generador de analizadores sintácticos.
Las directivas al generador son sentencias similares a las del C++ que
comienzan con # (en el C++ están el #define, #include, #pragma, etc.). Las
directivas tienen como objetivo dar información adicional al generador y
simplificar la escritura de la gramática. Son opcionales.
En total son 4 las directivas disponibles en esta versión del generador:
ACCSEM
'#'
'ACCSEM'
Ident
BlqCod
Ejemplo:
# ACCSEM Bloque1 %{
// hacer algo aquí
}%
El Ident que se define aquí puede servir posteriormente para referenciar
al bloque de código definido. Se debe usar *Ident para referenciar al bloque,
140
Documentación de SLR1 versión 2.x
caso contrario Ident será tomado como un símbolo (terminal o no terminal,
según corresponda).
El objetivo de esta directiva es ahorrar escribir varias veces el mismo
bloque de acciones semánticas en distintas reglas, ahorrando espacio y tiempo
de escritura; el fuente .CMM generado es también más pequeño.
TERMINAL
dos posibilidades:
'#'
'TERMINAL'
Ident
'TERMINAL'
Ident
':'
Ident
ó
'#'
Esta directiva define a Ident como un símbolo terminal. Si se usa la
primera versión (la que tiene ':') entonces el Ident de más a la derecha es el
nombre del archivo que contiene la expresión regular que lo define, el cual
deberá ser procesado por AFD v 3.x. Si se usa la segunda versión, el archivo
tiene nombre Ident. Ejemplo:
# TERMINAL
# TERMINAL
Cadena // archivo con expresión regular: cadena.er
BloqueDeCodigo : BlqCod // archivo con expr reg: blqcod.er
Al generar el analizador lexicográfico, se agregarán líneas que
#incluirán al archivo .CMM generado por AFD. Para los ejemplos dados se
genera:
# include "Cadena.cmm" // afdCadena
# include "BlqCod.cmm" // afdBloqueDeCodigo
Si usa acentos o ñ en el primer Ident entonces luego tendrá problemas al
compilar el C++ generado.
IGNORAR
dos posibilidades:
'#'
'IGNORAR'
Ident
'IGNORAR'
Ident
':'
Ident
ó
'#'
Esta directiva define a Ident como un componente léxico que puede
aparecer en el archivo fuente que analizará el analizador sintáctico generado,
141
Documentación de SLR1 versión 2.x
pero que deberá ser ignorado por el analizador lexicográfico que utilizará ése
analizador sintáctico. Si se usa la primera versión (la que tiene ':') entonces el
Ident de más a la derecha es el nombre del archivo que contiene la expresión
regular que lo define, el cual deberá ser procesado por AFD v 3.x. Si se usa la
segunda versión, el archivo tiene nombre Ident. Ejemplo:
# IGNORAR
# IGNORAR
Cadena // archivo con expresión regular: cadena.er
BloqueDeCodigo : BlqCod // archivo con expr reg: blqcod.er
Al generar el analizador lexicográfico, se agregarán líneas que
#incluirán al archivo .CMM generado por AFD. Para los ejemplos dados se
generará:
# include "Cadena.cmm" // afdCadena
# include "BlqCod.cmm" // afdBloqueDeCodigo
Si usa acentos o ñ en el primer Ident entonces luego tendrá problemas al
compilar el C++ generado.
ELEMPILA
'#'
'ELEMPILA'
Ident
Esta directiva define a Ident como la clase que implementará el
elemento de la pila del analizador sintáctico generado. Por ejemplo, si en el
archivo .GLC se define:
# ELEMPILA ClaseElementoDeLaPila
En el archivo .CMM generado, en el prototipo de la función que realiza
las acciones semánticas se cambiará el parámetro Pila así:
void AccSem( Ent16ns NumRegla, ClaseElementoDeLaPila * Pila, Ent16ns PP )
Debe recordar #incluir la declaración de la ClaseElementoDeLaPila al
comienzo del archivo .CMM, ya sea a través del bloque previo a las acciones
semánticas o bien a través de un #include del archivo .H agregado a mano en
el archivo .CMM. En teoría, el #include o la definición de la clase debe estar
en el bloque de código previo a las acciones semánticas.
4. Conjunto de reglas con sus correspondientes acciones semánticas.
Las reglas dadas en la metagramática son ejemplos de escritura de las
mismas, comienzan con un identificador a la izquierda y terminan con un
punto y coma. Si hay varias reglas que tienen el mismo identificador a la
142
Documentación de SLR1 versión 2.x
izquierda, pueden ser agrupadas usando el símbolo | de separación de
alternativa. Por ejemplo, el grupo de reglas siguiente:
CodAccSem ---> '*' Ident ;
CodAccSem ---> BlqCod ;
CodAccSem ---> ;
puede ser agrupado así:
CodAccSem ---> '*' Ident
|
BlqCod
|
;
que son tres reglas escritas de manera simplificada.
Las acciones semánticas se especifican usando bloques de códigos o
*IdentBlqCod donde IdentBlqCod es un identificador definido con la
sentencia #ACCSEM. Como ejemplo se incluye una porción del archivo
GRAM.GLC:
Directiva
---> '#' 'ACCSEM' Ident BlqCod
%{
NodoLSE<DescrAccSem> * p;
p = new NodoLSE<DescrAccSem>;
if (p == 0) return;
p->Dato.Ident << $3.CadTerm;
// inicializa nodo descriptor
p->Dato.TxtAccSem << $4.CadTerm;
p->pSig = pGram->TablaAccSem.Entrada; // engancha al comienzo
pGram->TablaAccSem.Entrada = p;
}%
|
'#' 'TERMINAL' Ident ':' Ident *ExpRegIdNom
|
'#' 'TERMINAL' Ident *ExpRegId
|
'#' 'IGNORAR' Ident ':' Ident *ExpRegIdNom
|
'#' 'IGNORAR' Ident *ExpRegId
|
'#' 'ELEMPILA' Ident %{
pGram->ClaseElemPila << $3.CadTerm;
}%
;
En el ejemplo dado hay 6 reglas resumidas usando el símbolo |. Hay bloques
de códigos (entre %{ y }%) que especifican acciones semánticas que deben
ejecutarse al reducir por esa regla, también se usa *Ident, donde Ident fue
definido previamente usando la sentencia #ACCSEM (ver archivo
GRAM.GLC).
Para el acceso a los símbolos actuales de la regla se debe utilizar el
símbolo $ dentro del bloque de código. Por ejemplo, para la primera regla del
ejemplo:
Directiva
---> '#' 'ACCSEM' Ident BlqCod
$$ referencia Directiva,
$3 referencia a Ident, y
143
Documentación de SLR1 versión 2.x
$4 referencia a BlqCod.
En general, $N, con 1 <= N <= Longitud de la regla, referencia al
símbolo que está en la posición N de la parte derecha de la regla. No se
efectúan chequeos de contorno, por lo que debe tener cuidado de que N no sea
mayor que la longitud de la regla. En particular, $$ referencia a la parte
izquierda de la regla, posición que es compartida con $1.
La expansión de $X a código C++ es como sigue:
$$ expande a Pila[PP+1] dentro de la función AccSemXXX.
$N expande a Pila[PP+N] dentro de la función AccSemXXX.
Vea como ejemplo el archivo GRAM.GLC, donde se ilustra la escritura
de una gramática.
12.4 Descripción del archivo .CMM generado
El archivo .CMM generado consta de 3 partes:
Bloque de código previo a las acciones semánticas.
Función de acciones semánticas.
Definición del analizador léxico.
El bloque de código previo a las acciones semánticas es una
transcripción literal del que se especificó en la gramática fuente (archivo
.GLC), sólo que se quitaron los %{ y }%.
La función de acciones semánticas agrupa las acciones semánticas
definidas en el archivo .GLC. El prototipo es el siguiente:
void AccSemXXX( Ent16ns NumRegla, ElemPila * Pila, Ent16ns PP );
donde:
XXX: es el sufijo usado durante la generación.
Ent16ns: es un typedef que corresponde a un tipo entero no signado de 16 bits.
Se define en TIPOS.H que se incluye más adelante.
144
Documentación de SLR1 versión 2.x
NumRegla: es el número de regla por la que se va a reducir.
ElemPila: es el tipo de elementos de la pila del analizador sintáctico.
Pila: es la pila, implementada en vector.
PP: es el puntero de pila, índice para acceder al vector Pila.
La función consta de una sola sentencia switch, que pregunta por el
número de regla por la que se va a reducir. Dentro del mismo verá cases con el
número de regla, y a la par, como comentario, la regla en formato texto para
que cualquiera lo pueda leer sin necesidad de conocimientos profundos. En el
caso de que se haya usado la sentencia ACCSEM, verá varios cases seguidos
(uno en cada línea), que significa que todas esas reglas tienen la misma acción
semántica. Los $X dentro de las acciones semánticas se expandieron a
Pila[PP+X]; ya fueron documentados más atrás.
Esta función será usada en la construcción del analizador sintáctico.
Para la definición del analizador lexicográfico, se generan #includes
para los símbolos terminales que serán reconocidos por autómatas finitos
determinísticos (obtenidos a partir de expresiones regulares).
A continuación se define un vector de reconocedores de símbolos que
define al analizador lexicográfico. Cada reconocedor de símbolo ocupa una
línea de la declaración, la que comienza con "static RecSimb vrs[ ] = {". El
objeto vrs es estático (conocido sólo en éste módulo). Los reconocedores de
símbolos son cuádruplas ordenadas, en donde:
a. La primera componente es el código asignado a ése símbolo terminal,
0 si el símbolo léxico debe ser ignorado. El código no debe ser tocado
ya que es asignado por SLR1 y de su valor depende el correcto uso de
las tablas generadas.
b. La segunda componente es un entero. Si tiene un 0 significa que el
símbolo léxico es un literal, será tratado por el analizador léxico con
una simple comparación de cadena de caracteres. Si tiene un 1
significa que hay un autómata finito determinístico que reconoce al
símbolo léxico, el que será usado por el analizador lexicográfico.
c. La tercera componente es un puntero al analizador lexicográfico, que
se supone fue generado por AFD v 3.x o posterior. La definición de
cada autómata se encuentra en el archivo .CMM que genera AFD y
cuyos include se dieron previamente en éste archivo. Usted puede
145
Documentación de SLR1 versión 2.x
construir sus propios autómatas finitos determinísticos, pero debe
tener cuidado de no producir errores. Si la segunda componente tenía
0, esta componente tendrá 0.
d. La cuarta componente es una cadena de caracteres C++ que contiene
el literal del símbolo léxico. Si la segunda componente tenía 1
entonces encontrará un 0 en esta componente. Si tenía un 0 entonces
encontrará una cadena. En el caso de que un terminal no haya sido
correctamente definido usando la sentencia #TERMINAL, aparecerá
luego de ésta componente un mensaje que le indicará que debe
construir/modificar éste reconocedor de símbolo para que no se tome
a ése terminal como palabra clave.
Una vez definido el conjunto de reconocedores de símbolos se define el
número de elementos del mismo (NUMRECSIMB) y seguidamente el
analizador léxico a usar durante el análisis sintáctico. El mismo se construye
usando la biblioteca ExpReg de soporte de AFD v 3.x .
12.5 Descripción del archivo .EST generado
El archivo .EST generado es un archivo de texto que contiene una
versión legible de las tablas generadas. En él se muestran en ese orden lo
siguiente:
1. El conjunto de símbolos no terminales junto con sus respectivos códigos
de uso interno del analizador sintáctico.
2. El conjunto de símbolos terminales junto con sus respectivos códigos de
uso interno del analizador sintáctico. Observe que los códigos coinciden
con los que aparecen como primera componente de cada elemento del
vector de reconocedores de símbolos definido en el archivo .CMM.
3. A continuación se escribe la gramática. (Aparecerá sin los ';' de fin de
regla).
4. Luego el conjunto de estados a partir de los cuales se construyen las
tablas.
5. Finalmente las funciones acción(estado, símbolo) e ir_a(estado,
símbolo), una a la par de la otra, en formato similar el que se usa en la
bibliografía. Si desea imprimir la tabla bajo Windows u OS/2 utilice una
146
Documentación de SLR1 versión 2.x
fuente en la que el ancho de todos los caracteres es el mismo, por
ejemplo Courier.
12.6 Descripción del archivo .TAB generado
El archivo .TAB es un archivo C++ que contiene las tablas de análisis
sintáctico LR(1) Simple. Debe ser #incluido en el módulo en donde se realiza
la definición del analizador sintáctico.
El archivo contiene 3 vectores. Los mismos pueden tener un sufijo XXX
que es el mismo usado durante la generación del analizador sintáctico.
12.6.1 Ent16ns ntlpdXXX[ ];
Este vector de enteros sin signo de 2 bytes, contiene:
1. En el elemento 0, el byte alto es el número de símbolos no terminales y
el byte bajo es el número de terminales.
Estos números son usados para calcular el número de columnas de las
tablas accion e ir_a (ver las tablas en archivos .EST, las columnas se
indexan por símbolos terminal/no terminal).
2. En los elementos 1 en adelante, el byte alto es el código del no terminal
que se halla a la izquierda de la regla cuyo número es el índice del
elemento actual, y el byte bajo de éste elemento especifica el número de
símbolos que hay a la derecha de la flecha (las reglas se numeran de 1 en
adelante, en el orden en que aparecen en el archivo fuente .GLC).
En el momento de ejecutar una reducción, se necesita la información
contenida en estos elementos, para desapilar la cantidad adecuada de
elementos y poder indexar la columna de la tabla ir_a que requiere el
código del no terminal de la izquierda.
12.6.2 Ent16ns accionXXX[ ];
Este vector de enteros sin signo de 2 bytes, es la transcripción de la tabla
acción que se muestra en el archivo .EST en formato más legible. La tabla
acción mostrada en ese archivo comienza en el primer terminal y termina en el
símbolo FA, que también es considerado terminal. Las filas se indexan por
estado, y las columnas se indexan por símbolo terminal.
147
Documentación de SLR1 versión 2.x
En este vector los elementos se codifican de la siguiente manera, lo que
se muestra en formato C++:
class Accion { // estructura de una acción
public:
unsigned n
: 14;
unsigned cod : 2;
};
La clase Accion es una estructura de 16 bits, en los cuales los 14 bits
menos significativos son los números que aparecen luego de la letra d o r en la
tabla accion, y se acceden usando el campo n de esta estructura. El campo cod
contiene el código de acción a ejecutar (en binario): 00 para desplazar, 01 para
aceptar y 10 para reducir. El 11 no se utiliza. En el vector observará que: el
elemento que tiene el 16384 es el que corresponde a aceptar, todos los
elementos menores que ese número son los de desplazamiento (aparecen con
la letra d en la tabla en el archivo .EST) y todos los mayores que ese número
son los de reducción (aparecen con la letra r en la tabla en el archivo .EST).
12.6.3 Ent16ns ir_aXXX[ ];
Este vector implementa la tabla ir_a, que en el archivo .EST se muestra
a la par de la tabla acción a continuación del símbolo FA. Las columnas de
esta tabla se indexan por símbolos no terminales y las filas por estados.
La tabla se almacena en el vector por filas (fila mayor). Cada elemento
contiene directamente el número que se muestra en la tabla ir_a del archivo
.EST.
12.7 Definición de un analizador sintáctico
Si la versión de SLR1 disponible es menor que 2.3, entonces la
definición del analizador sintáctico se debe realizar a mano, si es igual o
mayor entonces la definición la realiza el mismo generador en el archivo
.CMM generado.
148
Documentación de SLR1 versión 2.x
12.7.1 Definición a mano del objeto Analizador Sintáctico
Definición en C++ significa que el objeto es declarado y reside en el
ámbito del lugar donde se declara.
Para definir el objeto analizador sintáctico debe #incluir el archivo
.TAB con las tablas y el archivo .CMM, ambos generados por SLR1. Ejemplo:
suponga que el archivo fuente con la gramática se llamaba gram.glc y que el
sufijo usado fue Gram, entonces, en el módulo donde se necesite el analizador
sintáctico se hará:
// código previo del usuario
...
// inclusión de los módulos generados por SLR1 v 2
# include "gram.cmm" // acciones semánticas y analizador lexicográfico
# include "gram.tab" // tablas del analizador sintáctico SLR(1)
// más código del usuario
...
// función donde se requiere el analizador:
int f( const char * TxtFuente ) {
// ...
// definición del analizador sintáctico:
AnalSLR1<ElemPila> analizador(ntlpdGram, accionGram, ir_aGram,
AccSemGram);
alGram.Reiniciar(TxtFuente);
Ascii0 CadPosErr;
if (! analizador.Analizar(alGram, CadPosErr)) {
return CODIGO_DE_ERROR;
}
// ...
} // fin de la función f
// más código del usuario
....
El parámetro TxtFuente de la función f es una cadena de caracteres
válida del C++, puede ser obtenida de la manera que se desee. Es tratada por el
analizador lexicográfico generado, que se encuentra en el archivo .CMM
generado por SLR1 v 2.
El uso de cadenas C++ para la especificación de la entrada al analizador
sintáctico no impone obligaciones sobre el esquema de E/S a usar, que no es el
caso del YACC, el cual impone la entrada/salida estándar (stdin y stdout en C,
su redireccionamiento es criptográfico y difícil de tratar).
Dado que la clase que implementa al analizador sintáctico es una clase
template, el parámetro ElemPila que se da entre < > es el que implementa el
tipo de elemento de la pila del analizador sintáctico. Si usted usó la sentencia
149
Documentación de SLR1 versión 2.x
#ELEMPILA entonces debe usar el mismo Ident allí indicado dentro de los <
> en la definición del objeto analizador.
Ver el ejemplo que se incluye en este documento para más detalle de
una implementación adecuada.
12.7.2 Definición automática por versiones 2.3 o posterior
Si se usa las versiones 2.3 o posterior, la definición del analizador
sintáctico es realizada por el generador. Sólo si su aplicación lo requiere,
deberá mover la definición del objeto a otro ámbito.
En estas versiones sólo se debe #incluir el archivo .CMM generado y
usar los analizadores.
12.8 La clase template AnalSLR1
La clase template AnalSLR1 implementa el analizador sintáctico. El
argumento template de la clase es el tipo del elemento de la pila del
analizador. Esta clase está declarada en SLR1.H.
Lo que caracteriza al analizador sintáctico son las tablas, las que deben
ser dadas en el momento de la construcción del objeto analizador. El
analizador lexicográfico no caracteriza al analizador sintáctico, por lo que se
lo da como parámetro al momento de realizar un análisis sintáctico, llamando a
la función Analizar de esta clase.
12.8.1 Funciones miembro públicas:
AnalSLR1( Ent16ns * ntlpd, Ent16ns * accion, Ent16ns * ir_a,
void (* fAccSem)( Ent16ns numregla, ELEMPILA * pila, Ent16ns pp ) = 0,
void (* fLimPila)( ELEMPILA * pila, Ent16ns pp, Ent8 cumple ) = 0,
void (* fVer)( const char * mensaje ) = 0 );
Este es el único constructor de la clase. Los tres primeros parámetros
(ntlpd, accion e ir_a) son los objetos que aparecen en el archivo .TAB
generado. Si se especificó un sufijo al procesar la gramática, el prefijo
utilizado es exactamente igual a éstos (por ejemplo, si el sufijo era Expr
entonces tenemos ntlpdExpr, accionExpr e ir_aExpr, respectivamente).
El parámetro fAccSem es la función que realizará el análisis semántico,
debe especificar aquí la función que fue generada en el archivo .CMM
150
Documentación de SLR1 versión 2.x
generado. Por defecto este parámetro vale 0, lo que significa que no hay
acciones semánticas. Puede no especificarlo.
fLimPila es una función que limpia la pila del analizador sintáctico. Si
ELEMPILA es una clase distinta de ElemPila entonces puede ser necesario
efectuar ciertas acciones especiales para la correcta destrucción de los
elementos de la pila. Esas acciones especiales lo puede realizar esta función,
aunque siempre es preferible que el trabajo de la correcta destrucción de los
elementos sea hecho por el destructor de su clase. El parámetro cumple tiene 0
si la cadena analizada sintácticamente no cumple con la estructura definida por
la gramática del lenguaje, y distinto a 0 si es sintácticamente correcta.
fVer esta función sirve para mostrar las distintas acciones que se van
ejecutando durante el análisis sintáctico. La función recibe un parámetro que
es una cadena de texto con la descripción de la acción.
Ent8 Analizar( AnaLex & analex, Ascii0 & CadErr, Ent16ns MaxPila = 50 );
Esta función es la que realiza el análisis sintáctico. El parámetro analex
es el analizador lexicográfico, el cual debe estar previamente inicializado.
El analizador lexicográfico puede ser cambiado en tiempo de ejecución,
pero debe tener cuidado de que los códigos de símbolos que devuelva la
función AnaLex::Examinar sean los que espera este analizador sintáctico.
CadErr es el objeto donde se devuelve la cadena con la posición donde
se produjo el error léxico. Debido a que el acceso al objeto pasado en analex
es posible en éste ámbito, se puede tener un completo informe de la posición
donde se produjo el error a través del mismo. Consulte la documentación de la
biblioteca ExpReg.
TamPila es el tamaño de la pila del analizador sintáctico LR(1) simple.
Por defecto es 50, si hace falta una más grande o más chica entonces
especifique un valor nuevo.
La función devuelve 1 si la oración es sintácticamente correcta, 0 si es
sintácticamente incorrecta. En el miembro dato CodError devuelve un código
de error. Los códigos son los siguientes (acceder desde otro ámbito usando la
sintaxis AnalSLR1<ELEMPILA>:: ):
0: no hay problemas.
151
Documentación de SLR1 versión 2.x
ERRORLEX: error léxico, puede utilizar el analizador lexicográfico para
obtener mayor información.
TERMINESP: terminal inesperado. El terminal siguiente es válido pero está en
una posición sintácticamente incorrecta.
PILACHICA: el tamaño de la pila del analizador sintáctico especificado por
TamPila es chico. Pruebe pasar un valor mayor que el que fue especificado.
ERRORENTABLAS: hay un problema en las tablas (puede haber sido
provocado por una modificación manual de las mismas).
12.8.2 Campos dato públicos:
Ent16ns CodError;
En este campo se devuelve el código de error devuelto luego de realizar
el análisis sintáctico, un valor entero sin signo.
12.8.3 Campos dato protegidos:
Ent16ns
Ent16ns
Ent16ns
void (*
void (*
void (*
* ntlpd,
* accion,
* ir_a;
fAccSem)( Ent16ns numregla, ELEMPILA * pila, Ent16ns pp );
fLimPila)( ELEMPILA * pila, Ent16ns pp, Ent8 cumple );
fVer)( const char * mensaje );
ntlpd, accion, e ir_a son las tablas del analizador sintáctico que fueron
generadas en el archivo .CMM.
fAccSem es un puntero a la función que realiza las acciones semánticas.
fLimPila es un puntero a una función auxiliar que ayuda a una correcta
limpieza de los elementos de la pila.
fVer es una función que sirve para seguir paso a paso el trabajo
efectuado por el analizador sintáctico.
152
Documentación de SLR1 versión 2.x
12.9 Clase SimboloSLR1
Esta clase está declarada en SLR1.H. Implementa un símbolo de una
gramática. La declaración es muy pequeña y se transcribe a efectos de
simplificar la documentación:
class SimboloSLR1 {
public:
Ent8ns Id;
Ent8ns NoTerminal;
SimboloSLR1() { Id = NoTerminal = 0; }
};
El campo Id es el código asignado al símbolo terminal/no terminal. Los
códigos son asignados por SLR1.
El campo NoTerminal tiene 0 si el símbolo es terminal, distinto a 0 si
es no terminal.
Por defecto ambos campos valen 0, valores reservados para el símbolo
terminal Fin de Archivo.
12.10 Clase ElemPila
Esta clase define la estructura por defecto del elemento de la pila del
analizador sintáctico SLR(1). Está declarada en SLR1.H y su declaración se
transcribe:
class ElemPila {
public:
SimboloSLR1 Simb;
Ent16ns Estado;
Ascii0 CadTerm;
ElemPila( ) { Estado = 0; }
};
Simb es el símbolo que se encuentra en esta posición de la pila.
Estado es el estado del analizador en esta posición de la pila.
CadTerm es la cadena de caracteres del terminal apilado (sólo si el
símbolo de ésta posición de la pila era terminal). Al hacer un desplazamiento
se guarda en este campo una copia de la cadena de caracteres devuelta por el
analizador lexicográfico. Debido a que el destructor de Ascii0 hace la correcta
devolución de la memoria dinámica usada por la cadena es que no hace falta
utilizar la función fLimPila para la limpieza de la pila.
153
Documentación de SLR1 versión 2.x
Si va a usar una definición alternativa de la clase que implementa el
elemento de la pila del analizador, recuerde que:
1. el símbolo debe ser implementado por una clase derivada de
SimboloSLR1 y el nombre del campo debe ser Simb.
2. el campo Estado debe ser declarado exactamente igual a como se declara
en esta clase.
3. el campo CadTerm debe ser declarado exactamente igual a como se
declara en esta clase.
4. incluir SLR1.H, no modificar este archivo.
12.11 Consideraciones a tener el cuenta para el uso de gramáticas
ambiguas
El uso de gramáticas ambiguas puede dar como resultado tablas más
pequeñas, lo que reduce el espacio de memoria necesario para almacenarlas.
Pero el nivel de conocimiento necesario para poder resolver los conflictos es
demasiado elevado.
En la automatización de la generación de programas el objetivo es que
el usuario (en este caso el programador) no pierda tiempo aprendiendo cosas
que no hacen falta, ya que el generador hace ese trabajo y lo hace bien. El uso
de gramáticas ambiguas imposibilita cumplir ese objetivo, y por lo general, el
resultado no es "mucho mejor" que el de usar gramáticas no ambiguas. En
general, la diferencia obtenida es infinitesimal y no justifica perder el tiempo
dada la disponibilidad de memoria en las computadoras actuales y la velocidad
de procesamiento de las mismas.
Hay gramáticas que no son ambiguas, pero presentan conflictos pasa la
técnica de análisis LR(1) Simple debido a la forma de trabajo del algoritmo (es
decir, es ambigua para la técnica SLR(1) ). La gramática para la sentencia
si...entonces...sino... es no ambigua pero presenta un conflicto de
desplazamiento/reducción con el símbolo sino y la regla SentSi --> si Expr
entonces Sent. (Nota: en este caso se debe elegir desplazar sino). El conflicto
de desplazamiento/reducción que provoca esta gramática hace que SLR1
genere un analizador sintáctico para esa gramática que pueda construir 2
posibles árboles de análisis sintáctico para una oración que tenga la parte
sino..., y es por eso que decimos que es ambigua para la técnica LR(1) Simple.
154
Documentación de SLR1 versión 2.x
12.12 Desarrollo de un proyecto de programación con SLR1 v 2.x
El proyecto a desarrollar es un sistema para la verificación de la validez
de un esquema deductivo del cálculo proposicional.
Para que un esquema deductivo sea válido debe primero ser
sintácticamente correcto (aquí usaremos SLR1). Luego, la validez puede ser
demostrada de dos maneras: utilizando la Teoría de la Demostración o
utilizando la Teoría Semántica del Cálculo Proposicional. En este ejemplo se
utilizará la Teoría Semántica del Cálculo Proposicional.
En la Teoría Semántica del Cálculo Proposicional, un sistema deductivo
es válido cuando la implicación asociada a éste es tautología.
Entonces, para verificar la validez de un esquema deductivo se
ejecutarán las siguientes operaciones:
1. Primero se realizará el análisis sintáctico del esquema deductivo fuente,
a efectos de detectar errores sintácticos.
2. Luego se traducirá el esquema deductivo a su implicación asociada, la
que será internamente almacenada en un vector en notación postfijo, a
efectos de facilitar su posterior evaluación. Al traducir se generará una
tabla con todas las variables que figuran en la fórmula.
3. A continuación se comprueba si la implicación asociada es una
tautología, para lo cual se van generando las interpretaciones posibles
para las variables que aparecen en la fórmula, y para cada una se
comprueba el valor de verdad de la fórmula. Si para alguna
interpretación la fórmula da falso, la misma no es tautología. Si ocurre
que la fórmula si es tautología, el esquema deductivo es válido.
4. Se informa el resultado del paso 3.
La secuencia de pasos que se siguieron para la escritura y utilización de
la gramática fue:
a. Primero se escribe el archivo ED.GLC que tiene la gramática con las
correspondientes acciones semánticas en cada regla y con las
especificaciones necesarias para la construcción automática del
analizador lexicográfico.
b. Se procesa ED.GLC con SLR1 v 2 usando "EsqDed" como sufijo y se
obtienen así los archivos ED.CMM y ED.TAB. En ED.CMM están
155
Documentación de SLR1 versión 2.x
las acciones semánticas y el analizador lexicográfico. En ED.TAB
están las tablas a incluir.
c. Se procesan los archivos .ER con las expresiones regulares para
obtener los correspondientes .CMM, cuyos #includes están en
ED.CMM y fueron automáticamente escritos por SLR1 v 2.
d. Se escribe el archivo VESQDED.CMM que valida un esquema
deductivo. En ese archivo se incluyen las líneas que se indicaron
anteriormente para el correcto compilamiento.
e. Se compila VESQDED.CMM y, eureka, eso es todo.
Los archivos importantes que componen el proyecto son los que se
enumeran a continuación, y son independientes del sistema operativo en el que
se implemente la aplicación:
ED.GLC: entrada para SLR1 v 2.x. La salida de SLR1 son los archivos
ED.CMM y ED.TAB que deben ser incluidos en el módulo donde será
utilizado el analizador sintáctico (VESQDED.CMM).
ED.CMM: salida de SLR1 al especificar como entrada a ED.GLC.
ED.TAB: salida de SLR1 al especificar como entrada a ED.GLC.
EVALUAR.CMM: en este módulo se dan las funciones para evaluar una
fórmula bien formada del cálculo proposicional dada en notación postfijo.
ASIGINT.CMM: en este módulo se da una función que traduce una
interpretación codificada en binario, cargando en cada variable de la tabla
de símbolos dada el valor de verdad correspondiente.
TAUTO.CMM: en este módulo se da una función que verifica si una
fórmula dada en notación postfijo es o no tautología.
VESQDED.CMM: en este módulo se da una función que verifica un
esquema deductivo dado como entrada. Se podría considerar a este módulo
como el principal.
ESQDED.H: este es un archivo cabecera en donde se declaran las clases y
prototipos de las funciones desarrolladas, a los efectos de poder reusar
fácilmente los módulos fuentes escritos.
SLR1.H: declaración las clases necesarias para realizar el análisis sintáctico.
Viene provisto junto con SLR1 v 2.x.
156
Documentación de SLR1 versión 2.x
EXPREG.H: declaración de las clases necesarias para realizar el análisis
lexicográfico. Viene provisto junto con AFD v 3.x.
EXPREG.LIB: biblioteca de soporte de AFD v 3.x.
BCE.LIB: biblioteca auxiliar. Se usa la clase Ascii0 únicamente. Su
inclusión es además requerida por EXPREG.LIB.
La interfase con el usuario final de la aplicación ha sido generada con el
Application Expert (AppExpert) del Turbo C++ 4.5 para Windows; la
aplicación correrá sin problemas en Windows 3.1 en adelante, incluyendo a
Windows NT. El código generado puede ser recompilado sin problemas
usando el Borland C++ 2.0 para OS/2, y obtener así una versión que correrá en
OS/2 2.1 y OS/2 Warp, pero se debe tener cuidado con ese C++ puesto que es
de 32 bits (en C++ no se dan especificaciones sobre la implementación de los
tipos de datos fundamentales, la misma queda a elección del fabricante del
compilador; por ejemplo, en C++ para Win16 el tamaño del tipo int es de 16
bits y en C++ para OS/2 y Win32 es de 32 bits).
La aplicación generada es un editor multitexto (se pueden editar varios
textos a la vez) con todas las funciones de un editor de textos, y en el menú
archivo se agregó una opción para "Verificar validez" del esquema deductivo
que se encuentra en la ventana de texto actual (la que se encuentre activa). La
generación de la aplicación es en realidad más simple de lo que se pueda
entender a partir de la lectura de este documento (fue muy fácil), y es esa la
razón por la que se eligió AppExpert para diseñar la interfase.
Los archivos generados son:
EDAPP.CMM: módulo principal.
EDEDITVW.CMM: clase que maneja un objeto editor de texto. A este
módulo se lo modificó para procesar la opción "Verificar validez".
EDMDICLN.CMM: clase para manejar un objeto cliente de un objeto MDI.
EDMDICHL.CMM: clase para manejar un objeto hijo de un objeto MDI.
APXPREV.CPP: presentación preliminar de un documento editado.
APXPRINT.CPP: objeto para imprimir un documento.
EDABTDLG.CPP: ventana Acerca de... de la aplicación.
APXPREV.H: cabecera de APXPREV.CPP.
157
Documentación de SLR1 versión 2.x
APXPRINT.H: cabecera de APXPRINT.CPP.
EDABTDLG.H: cabecera de EDABTDLG.CPP
EDAPP.H: cabecera de EDAPP.CMM.
EDEDITVW.H: cabecera de EDEDITVW.CMM.
EDMDICLN.H: cabecera de EDMDICLN.CMM.
EDMDICHL.H: cabecera de EDMDICHL.CMM.
La clase EDEditView, cuya definición está en EDEDITVW.CMM, y
que sirve para manejar una vista de un documento de texto (el generador
AppExpert da soporte al modelo documento/vista introducido por Borland en
sus C++ desde la versión 4.0 para Windows y 2.0 para OS/2), fue modificada
para manejar el evento CM_VERIFICAR que se genera al seleccionar la
opción "Verificar validez". La función agregada es la VerificarValidez de esta
clase, cuya declaración y prototipado inicial fue realizado por ClassExpert, el
administrador de clases de AppExpert. La función se transcribe a
continuación, y el código agregado es el que está después del comentario //
INSERT>>... y termina en la llamada a MessageBox final. (Se aclara
nuevamente que el resto del código, salvo dos líneas que se encuentran al
comienzo de éste módulo, no ha sido escrito por el autor).
void EDEditView::VerificarValidez ()
{
// INSERT>> Your code here.
// Primero sacar el texto del EditView de Windows
Ent16ns tam = GetTextLen() + 1;
Ascii0 cad(tam);
if (! GetText(cad, tam)) return; // si no hay texto editado
// Luego llamar a la función que verifica validez:
int r = ValidarEsqDed(cad);
// y finalmente se informa el resultado:
const char * msj = "CODIGO DESCONOCIDO";
uint icono = MB_OK;
switch (r) {
case EDVAL:
msj = "El esquema deductivo es VALIDO.";
icono |= MB_ICONINFORMATION;
break;
case EDINVAL:
msj = "El esquema deductivo es INVALIDO.";
icono |= MB_ICONEXCLAMATION;
break;
case EDERROR:
msj = "Error sintáctico en el fuente.";
icono |= MB_ICONQUESTION;
break;
}
MessageBox(msj, "Resultado del análisis", icono);
}
158
Documentación de SLR1 versión 2.x
La única sentencia importante en esta función es la llamada a
ValidarEsqDed, que es la función que actualmente ejecuta toda la operación
de validación. Todas las sentencias antes de ésta sirven para extraer el texto
del objeto ventana editor del Windows (a través de la clase TEdit, clase base
de TEditView y EDEditView). El código siguiente a la llamada a
ValidarEsqDed es el que presenta el resultado en una ventana de mensajes. El
problema de obtener el texto de entrada e informar el resultado de la
validación es un problema aparte, y se puede realizar como uno quiera y en el
sistema operativo que desee.
También se agregaron dos líneas más al comienzo del módulo
EDEDITVW.CMM, que son las siguientes:
# include <ascii0.h> // de BCE
# include "esqded.h" // de esta aplicación
Los .h incluidos hacen posible la utilización de la clase Ascii0 (para
obtener el texto) y de la función ValidarEsqDed (que no está definida en este
módulo).
El código restante (enumerado en el primer grupo de módulos fuentes)
es el que realiza todo el trabajo de validación. No contempla la forma de
obtener el texto ni la forma de emitir mensajes (ambas dependientes del
sistema operativo). Este conjunto de módulos fuentes son independientes del
sistema operativo, inclusive son independiente de si trabaja con código ANSI
u OEM (los editores de Windows trabajan con OEM, los de DOS y algunos de
OS/2 con ANSI).
En el lenguaje de entrada cuya gramática está dada en ED.GLC, el
símbolo # sirve para indicar que a continuación viene la conclusión, la coma
separa a las premisas (debe haber por lo menos una). Cada premisa debe ser
una fórmula bien formada del cálculo proposicional. El símbolo <==> se
utiliza para la doble implicación, el ==> se utiliza para el la implicación, el +
para la disyunción, el * para la conjunción, el - para la negación y los ( ) para
la asociatividad y ruptura de precedencia. Los tres siguientes son ejemplos de
esquemas deductivos reconocibles por la gramática dada:
Ejemplo 1:
p ==> q,
p
# q
159
Documentación de SLR1 versión 2.x
Ejemplo 2:
-p + q,
p
#q
Ejemplo 3:
- ( p * r ), q ==> r, q # -p
Los esquemas dados le pueden ser familiares. Los puede encontrar en
cualquier libro de lógica.
La forma en que se escriban las fórmulas no debe ser importante,
inclusive los espacios que se dejan entre ellas. Este problema será resuelto por
el analizador lexicográfico generado.
La función que verifica si la fórmula proposicional en notación postfijo
es tautología se llama Tautologia y se encuentra definida en el módulo
TAUTO.CMM. La misma genera interpretaciones de las variables que
aparecen en la fórmula hasta encontrar alguna interpretación para la que la
fórmula dé falso. La interpretación (un juego de valores de verdad asignado a
las variables de la fórmula) se codifica en un número binario de 16 bits, en
donde el bit 0 tiene el valor de verdad de la variable tds[0], el bit 1 a tds[1], y
así sucesivamente. Como el número tiene 16 bits, a lo sumo pueden haber 16
variables posibles. El pasaje de binario a la tabla de símbolos de una
interpretación lo realiza la función AsigInterp definida en ASIGINT.CMM.
La función Evaluar realiza la evaluación de una fórmula proposicional dada
en postfijo para una interpretación dada.
Más documentación puede encontrar en los archivos fuente. A
continuación se transcriben los módulos fuentes enumerados en el primer
grupo de módulos fuentes, que son los que realmente se escribieron para esta
aplicación. Los demás módulos fueron generados automáticamente, y sólo son
importantes las líneas transcriptas a éste documento, y por tal razón no se
incluyen aquí.
160
Documentación de SLR1 versión 2.x
12.13 Módulos fuentes escritos para el proyecto
12.13.1 ED.GLC
//
//
//
//
Gramática para la carga en memoria en notación postfijo de
un esquema deductivo del cálculo proposicional.
Creación: 04 Dic 95 - Versión 2 - Para SLR1 v 2.x
Especificar EsqDed como sufijo en SLR1.
%{
# include <string.h>
# ifndef __ESQDED_H
# include "esqded.h"
# endif
SimbFormProp fnp[50], // fórmula en notación postfijo
tds[16]; // tabla de símbolos
unsigned ifnp = 0, itds = 0; // primer elemento libre en fnp y tds
respectivamente.
// int AgregarTDS( const char * s );
// Agrega s a la tabla de símbolo. s es la cadena que identifica al
símbolo.
// Si la variable ya existe en la tabla entonces no lo agrega.
// Siempre devuelve el código asignado a la variable, que es un número
// entre 1 y 16.
int AgregarTDS( const char * s ) {
register int i;
for (i = 0; i < itds; ++i)
if (! strcmp(tds[i].var, s)) break;
if (i == itds) {
strncpy(tds[itds].var, s, 10);
tds[itds].valor = 0;
++itds;
tds[itds].cod = itds;
return itds; // devuelve el código que se le asigna
}
return tds[i].cod; // dev. el cód. asignado anteriormente
}
}%
#
#
#
#
#
TERMINAL
TERMINAL
TERMINAL
IGNORAR
IGNORAR
Variable
DobleImpl
Implica
Blancos
Comentarios
:
:
:
:
:
Var
DImpl
Impl
Blanco
Coment
//
//
//
//
//
Expr
Expr
Expr
Expr
Expr
regular
regular
regular
regular
regular
en
en
en
en
en
var.er
dimpl.er
impl.er
blanco.er
coment.er
// Para las reglas
// E
--> Prem '#' F ;
// I
--> I Implica D ;
# ACCSEM ACImplicación %{
fnp[ifnp].cod = SimbFormProp::IMPLIC;
fnp[ifnp].valor = 0;
strcpy(fnp[ifnp].var, "==>");
++ifnp;
}%
// Para las reglas
// Prem --> Prem ',' F ;
161
Documentación de SLR1 versión 2.x
// C
--> C '*' Prop ;
# ACCSEM ACConjunción %{
fnp[ifnp].cod = SimbFormProp::CONJUN;
fnp[ifnp].valor = 0;
strcpy(fnp[ifnp].var, "*");
++ifnp;
}%
E
--> Prem '#' F
Prem --> Prem ',' F
*ACImplicación;
*ACConjunción;
Prem --> F ;
F
--> F DobleImpl I %{
fnp[ifnp].cod = SimbFormProp::DOBLEIMPL;
fnp[ifnp].valor = 0;
strcpy(fnp[ifnp].var, "<==>");
++ifnp;
}%;
F
--> I ;
I
--> I Implica D *ACImplicación;
I
--> D ;
D
--> D '+' C %{
fnp[ifnp].cod = SimbFormProp::DISYUN;
fnp[ifnp].valor = 0;
strcpy(fnp[ifnp].var, "+");
++ifnp;
}%;
D
C
--> C ;
--> C '*' Prop *ACConjunción;
C
--> Prop ;
Prop --> Constante %{
fnp[ifnp].cod = SimbFormProp::CONSTANTE;
fnp[ifnp].valor = strcmp($1.CadTerm, "0");
strncpy(fnp[ifnp].var, $1.CadTerm, 10);
fnp[ifnp].var[9] = 0; // asegura terminación en 0
++ifnp;
}%;
Prop --> Variable %{
// Escribir en la expresión en notación postfijo
fnp[ifnp].cod = AgregarTDS($1.CadTerm); // agrega a tds y asigna el
código
fnp[ifnp].valor = 0;
strncpy(fnp[ifnp].var, $1.CadTerm, 10);
fnp[ifnp].var[9] = 0; // asegura terminación en 0
++ifnp;
}%;
Prop --> '(' F ')' ;
Prop --> '-' Prop %{
fnp[ifnp].cod = SimbFormProp::NEGAR;
fnp[ifnp].valor = 0;
strcpy(fnp[ifnp].var, "-");
++ifnp;
}%;
162
Documentación de SLR1 versión 2.x
Constante --> '0' | '1';
12.13.2 ED.CMM
// Código fuente generado por SLR1 versión 2.1 (Nov 95)
// Domingo Eduardo Becker, Sgo. del Estero, Tel (085) 22-2488
// Código de acciones semánticas.
// Código generado por Gramatica::ImprAccSem versión 2.
// Domingo Eduardo Becker.
# ifndef __SLR1_H
# include "slr1.h"
# endif
// Código fuente previo a las acciones semánticas.
# include <string.h># ifndef __ESQDED_H
# include "esqded.h"
# endif
SimbFormProp fnp[50], // fórmula en notación postfijo
tds[16];
// tabla de símbolos
unsigned ifnp = 0, itds = 0; // primer elemento libre en fnp y tds
respectivamente.
//
es
//
//
//
int AgregarTDS( const char * s );// Agrega s a la tabla de símbolo. s
la cadena que identifica al símbolo.
Si la variable ya existe en la tabla entonces no lo agrega.
Siempre devuelve el código asignado a la variable, que es un número
entre 1 y 16.
int AgregarTDS( const char * s ) {
register int i;
for (i = 0; i < itds; ++i)
if (! strcmp(tds[i].var, s)) break;
if (i == itds) {
strncpy(tds[itds].var, s, 10);
tds[itds].valor = 0;
++itds;
tds[itds].cod = itds;
return itds; // devuelve el código que se le asigna
}
return tds[i].cod; // dev. el cód. asignado anteriormente
}
// Fin del código fuente previo ...
void AccSemEsqDed( Ent16ns NumRegla, ElemPila * Pila, Ent16ns PP ) {
switch (NumRegla) {
case 4: // F ---> F DobleImpl I
{
fnp[ifnp].cod = SimbFormProp::DOBLEIMPL;
fnp[ifnp].valor = 0;
strcpy(fnp[ifnp].var, "<==>");
++ifnp;
} break;
case 8: // D ---> D '+' C
{
fnp[ifnp].cod = SimbFormProp::DISYUN;
fnp[ifnp].valor = 0;
strcpy(fnp[ifnp].var, "+");
++ifnp;
} break;
163
Documentación de SLR1 versión 2.x
case 12: // Prop ---> Constante
{
fnp[ifnp].cod = SimbFormProp::CONSTANTE;
fnp[ifnp].valor = strcmp(Pila[PP+1].CadTerm, "0");
strncpy(fnp[ifnp].var, Pila[PP+1].CadTerm, 10);
fnp[ifnp].var[9] = 0; // asegura terminación en 0
++ifnp;
} break;
case 13: // Prop ---> Variable
{
// Escribir en la expresión en notación postfijo
fnp[ifnp].cod = AgregarTDS(Pila[PP+1].CadTerm); // agrega a tds y
asigna el código
fnp[ifnp].valor = 0;
strncpy(fnp[ifnp].var, Pila[PP+1].CadTerm, 10);
fnp[ifnp].var[9] = 0; // asegura terminación en 0
++ifnp;
} break;
case 15: // Prop ---> '-' Prop
{
fnp[ifnp].cod = SimbFormProp::NEGAR;
fnp[ifnp].valor = 0;
strcpy(fnp[ifnp].var, "-");
++ifnp;
} break;
case 2: // Prem ---> Prem ',' F
case 10: // C ---> C '*' Prop
{
fnp[ifnp].cod = SimbFormProp::CONJUN;
fnp[ifnp].valor = 0;
strcpy(fnp[ifnp].var, "*");
++ifnp;
} break;
case 1: // E ---> Prem '#' F
case 6: // I ---> I Implica D
{
fnp[ifnp].cod = SimbFormProp::IMPLIC;
fnp[ifnp].valor = 0;
strcpy(fnp[ifnp].var, "==>");
++ifnp;
} break;
} // switch (NumRegla)
} // Fin de AccSemEsqDed
// Fin del código de acciones semánticas.
// Analizador lexicográfico para la gramática.
// Generado por Gramatica::ImprAnaLex versión 2.
// Domingo Eduardo Becker.
# ifndef __EXPREG_H
# include "expreg.h"
# endif
#
#
#
#
#
include
include
include
include
include
"Coment.cmm" // afdComentarios
"Blanco.cmm" // afdBlancos
"Impl.cmm" // afdImplica
"DImpl.cmm" // afdDobleImpl
"Var.cmm" // afdVariable
static RecSimb vrs[] = {
1, 0, 0, "#",
2, 0, 0, ",",
3, 1, & afdDobleImpl, 0,
4, 1, & afdImplica, 0,
5, 0, 0, "+",
164
Documentación de SLR1 versión 2.x
6, 0, 0, "*",
7, 1, & afdVariable, 0,
8, 0, 0, "(",
9, 0, 0, ")",
10, 0, 0, "-",
11, 0, 0, "0",
12, 0, 0, "1",
0, 1, & afdComentarios, 0,
0, 1, & afdBlancos, 0
};
# define NUMRECSIMB 14
AnaLex alEsqDed(vrs, NUMRECSIMB);
12.13.3 ED.TAB
No se incluye porque su lectura es complicada y es un archivo generable
a partir de ED.GLC listado previamente.
12.13.4 EVALUAR.CMM
//
//
//
//
//
evaluar.cmm
Copyright © 1993 by Domingo Eduardo Becker.
All rights reserved.
Creación: 26 May 93
Ult Mod: 01 Nov 95
# include "esqded.h"
# include <string.h>
//
//
//
//
//
//
int ValorDe( const char * s, const SimbFormProp * tds, unsigned ttds );
Esta función busca el símbolo cuya cadena es s en el vector tds cuyo
tamaño es ttds.
Debido a que para la comparación de cadenas se usa strcmp, se hace
diferencia entre mayúsculas y minúsculas.
La función devuelve el valor de verdad asignado a la variable.
static int ValorDe( const char * s, const SimbFormProp * tds,
unsigned ttds ) {
register int i;
for (i = 0; i < ttds; ++i)
if (! strcmp(s, tds[i].var)) break;
if (i == ttds) return 0;
else return tds[i].valor;
}
//
//
//
//
//
//
//
//
//
//
int Evaluar( char p, char q, int operacion );
Evaluar evalúa la operacion pasada como parámetro a partir de los
operandos p y q.
En p y q debe venir 0 si es falso o distinto a 0 si es verdadero.
La función devuelve 0 si el resultado de la operación es falso y
distinto a 0 si el resultado de la operación es verdadero.
La operación se codifica con la enumeración dada en simbolo.h dentro
de la clase SimbFormProp, y se acceden desde cualquier lugar usando el
operador :: para romper ámbitos. Ellos son:
DOBLEIMPL: <==> doble implicación, binario, p <==> q
165
Documentación de SLR1 versión 2.x
//
//
//
//
IMPLIC:
DISYUN:
CONJUN:
NEGAR:
==>
+
*
-
implicación,
disyunción,
conjunción,
negación,
binario,
binario,
binario,
unario,
p
p
p
-
===> q
+ q
* q
p
int Evaluar( char p, char q, int operacion ) {
p = p ? 1 : 0; // llevar a 0 o 1
q = q ? 1 : 0;
register int r = 0;
switch (operacion) {
case SimbFormProp::DOBLEIMPL: // <==>
r = ! (p ^ q);
break;
case SimbFormProp::IMPLIC: //
r = ! p | q;
break;
==>
case SimbFormProp::DISYUN: // + (disyunción)
r = p | q;
break;
case SimbFormProp::CONJUN: // * (conjunción)
r = p & q;
break;
case SimbFormProp::NEGAR: // - (negación)
r = ! p;
break;
}
return r;
}
// int Evaluar( const SimbFormProp * fnp, unsigned tfnp,
//
const SimbFormProp * tds, unsigned ttds );
// Evaluar evalúa la expresión en postfijo pasado en el vector fnp, cuyo
// tamaño es tfnp.
// La interpretación a utilizar es la que viene en la tabla de símbolos
tds,
// cuyo tamaño es ttds.
// La función devuelve 0 si la fórmula bien formada en notación postfijo
fnp
// es falsa para la interpretación dada, y distinto a 0 si es verdadera.
// El algoritmo que se usa para evaluar la expresión en notación postfijo
// puede ser encontrado en cualquier libro de Estructuras de datos y
// Algoritmos.
int Evaluar( const SimbFormProp * fnp, unsigned tfnp,
const SimbFormProp * tds, unsigned ttds ) {
char pila[20], pp = 0;
register unsigned ifnp;
for (ifnp = 0; ifnp < tfnp; ++ifnp) {
if (fnp[ifnp].cod > SimbFormProp::MAXVAR &&
fnp[ifnp].cod < SimbFormProp::ULTIMOOPERADOR) { // efectuar
operación
if (fnp[ifnp].cod == SimbFormProp::NEGAR) {
// operación unaria, desapila 1 y apila el resultado
pila[pp - 1] = Evaluar(pila[pp-1], 0, fnp[ifnp].cod);
}
else {
// operación binaria, desapila 2 y apila el resultado
pila[pp - 2] = Evaluar(pila[pp-2], pila[pp-1], fnp[ifnp].cod);
--pp;
}
}
else pila[pp++] = ! fnp[ifnp].cod ? fnp[ifnp].valor
166
Documentación de SLR1 versión 2.x
: ValorDe(fnp[ifnp].var, tds, ttds);
}
return pila[pp-1];
}
12.13.5 ASIGINT.CMM
//
//
//
//
//
asigint.cmm
Copyright © 1993 by Domingo Eduardo Becker.
All rights reserved.
Creación: 26 May 93
Ult Mod: 01 Nov 95
# include "esqded.h"
//
//
//
//
//
//
//
void AsigInterp( SimbFormProp * tds, unsigned ttds, int vv );
AsigInterp asigna a la tabla de símbolos la interpretación que viene
codificada en vv.
Si numeramos los bits de vv de 0 a 15, el bit 0 corresponde a tds[0],
el bit 1 a tds[1], ..., y el bit 15 a tds[15].
El valor de verdad de cada variable se asigna al campo valor de cada
elemento de tds.
void AsigInterp( SimbFormProp * tds, unsigned ttds, int vv ) {
register int i, bit;
for (i = 0, bit = 1; i < ttds; ++i, bit <<= 1)
tds[i].valor = vv & bit;
}
12.13.6 TAUTO.CMM
//
//
//
//
//
tauto.cmm
Copyright © 1993 by Domingo Eduardo Becker.
All rights reserved.
Creación: 26 May 93
Ult Mod: 01 Nov 95
# include "esqded.h"
//
//
//
//
//
//
//
//
//
int Tautologia( const SimbFormProp * fnp, unsigned tfnp,
SimbFormProp * tds, unsigned ttds );
Tautologia chequea si la fórmula bien formada del cálculo proposicional
que viene en fnp en formato notación postfijo es una tautología.
El tamaño de la fórmula es tfnp (número de elementos del vector).
La tabla de símbolos que se recibe como parámetros es a los efectos de
poder generar las interpretaciones posibles. El tamaño de la tabla de
símbolos (vector) viene dado en ttds.
La función devuelve 0 si no es tautología y distinto a 0 si lo es.
int Tautologia( const SimbFormProp * fnp, unsigned tfnp,
SimbFormProp * tds, unsigned ttds ) {
int i, t;
t = (1 << ttds) - 1; // 2 elevado a la número de variables menos 1
for (i = 0; i <= t; ++i) {
AsigInterp(tds, ttds, i);
if (! Evaluar(fnp, tfnp, tds, ttds)) // si alguno es falso
break;
// entonces no es tautología
}
return i > t; // si se probaron todas las interpretaciones
}
// entonces es tautología
167
Documentación de SLR1 versión 2.x
12.13.7 VESQDED.CMM
// vesqded.cmm
//
//
//
//
validación de esquemas deductivos.
Copyright © 1993 by Domingo Eduardo Becker.
All rights reserved.
Creación: 26 May 93
Ult Mod: 04 Dic 95
# include "ed.cmm"
# include "ed.tab"
int ValidarEsqDed( const char * EsqDed ) {
alEsqDed.Reiniciar(EsqDed);
ifnp = itds = 0; // variables globales
AnalSLR1<ElemPila> analizador(ntlpdEsqDed, accionEsqDed, ir_aEsqDed,
AccSemEsqDed);
Ascii0 CadPosErr;
if (analizador.Analizar(alEsqDed, CadPosErr))
return Tautologia(fnp, ifnp, tds, itds) ? EDVAL : EDINVAL;
else
return EDERROR;
}
12.13.8 ESQDED.H
# ifndef __ESQDED_H
# define __ESQDED_H
//
//
//
//
Copyright © 1993 by Domingo Eduardo Becker.
All rights reserved.
Creación: 26 May 93
Ult Mod: 04 Dic 95
// clase SimbFormProp: implementa un símbolo de una fórmula del cálculo
// proposicional. Un símbolo puede ser una constante (V o F), una variable
// o un operador lógico.
class SimbFormProp {
public:
unsigned cod;
char valor;
char var[10];
enum { CONSTANTE = 0, MAXVAR = 999, DOBLEIMPL, IMPLIC,
DISYUN, CONJUN, NEGAR, ULTIMOOPERADOR };
};
// Funciónes de operaciones lógicas:
// Evaluación de una fórmula con 1 o 2 operandos:
int Evaluar( char p, char q, int operacion );
//
//
//
//
//
Evaluación de una fórmula compleja dada en notación postfijo.
fnp es la fórmula (en vector), tfnp el número de elementos.
tds es la tabla de variables de la fórmula de ttds elementos.
En el campo valor de cada elemento de tds está el valor de verdad
asignado a la variable (==0 falso, !=0 verdadero).
168
Documentación de SLR1 versión 2.x
int Evaluar( const SimbFormProp * fnp, unsigned tfnp,
const SimbFormProp * tds, unsigned ttds );
// Asignación de una interpretación (ver doc en asigint.cmm):
void AsigInterp( SimbFormProp * tds, unsigned ttds, int vv );
// Verificación de si una fórmula es tautología o no:
// La fórmula a comprobar viene en notación postfijo en fnp, representado
// como vector de tamaño tfnp. La tabla de variables viene en tds, un
vector
// de tamaño ttds. El campo valor de los elementos de tds son modificados.
int Tautologia( const SimbFormProp * fnp, unsigned tfnp,
SimbFormProp * tds, unsigned ttds );
// Funciones para el análisis léxico y traducción del esquema deductivo a
// implicación asociada:
// AgregarTDS agrega a s como variable en la tabla de símbolos interna.
// Devuelve el código asignado a la variable.
int AgregarTDS( const char * s );
// AnaLexEsqDed es la función que realizará el análisis lexicográfico
// del esquema deductivo. Se pasa como parámetro a la función Analizar.
unsigned char AnaLexEsqDed();
//
//
//
//
//
Validar un esquema deductivo dado en formato texto:
la función devuelve:
EDVAL si es válido.
EDINVAL si es inválido.
EDERROR si hay error léxico o de sintaxis.
int ValidarEsqDed( const char * EsqDed );
# define EDVAL
0
# define EDINVAL 1
# define EDERROR 2
# endif
12.13.9 SLR1.H
Este módulo viene provisto con SLR1 v 2.x. Se lo incluye más adelante
en este mismo documento (en la sección 12.14).
12.13.10EXPREG.H
Este módulo viene provisto con AFD v 3.x. Se lo incluye más adelante
en este mismo documento a modo de ilustración (en la sección 12.14).
169
Documentación de SLR1 versión 2.x
12.14 Archivos provistos con SLR1 v 2.x
12.14.1 SLR1.H
# ifndef __SLR1_H
# define __SLR1_H
// slr1.h: definición de las clases para las tablas que maneja el
analizador
//
sintáctico SLR(1)
// Copyright (c) 1995 by Domingo Becker.
// All rights reserved.
# ifndef __TIPOS_H
# include "tipos.h"
# endif
# ifndef __ASCII0_H
# include "ascii0.h"
# endif
# ifndef __EXPREG_H
# include "expreg.h"
# endif
// Clase SimboloSLR1: es una versión simplificada de la clase SimboloSLR1
// declarada en gramlc.h. Aquí Codigo tiene 8 bits en vez de 15 y
NoTerminal
// tiene 8 bits en vez de 1. Esto hace que el código funcione más rápido.
class SimboloSLR1 {
public:
Ent8ns Id;
Ent8ns NoTerminal;
SimboloSLR1() { Id = NoTerminal = 0; }
};
class SimbCad : public SimboloSLR1 {
public:
Ascii0 cad;
};
class ElemPila { // estructura de un elemento de la pila del analizador
public:
SimboloSLR1 Simb;
Ent16ns Estado;
Ascii0 CadTerm;
ElemPila() { Estado = 0; }
};
class Accion { // estructura de una acción
public:
Ent16ns n
: 14;
// puede tener el número de regla o número de
estado
Ent16ns Codigo : 2; // 00=d, 01=a, 10=r
Accion() { *(Ent16ns *) this = 0; }
Accion( Ent16ns a ) { *(Ent16ns *) this = a; }
Accion & operator = ( Ent16ns a );
Ent8 operator == ( Ent16ns a ) { return *(Ent16ns *) this == a; }
};
170
Documentación de SLR1 versión 2.x
inline Accion & Accion::operator = ( Ent16ns a ) {
*(Ent16ns *) this = a;
return *this;
}
template <class ELEMPILA>
class AnalSLR1 {
protected:
Ent16ns * ntlpd, * accion, * ir_a;
void (* fAccSem)( Ent16ns numregla, ELEMPILA * pila, Ent16ns pp );
void (* fLimPila)( ELEMPILA * pila, Ent16ns pp, Ent8 cumple );
void (* fVer)( const char * mensaje );
public:
AnalSLR1( Ent16ns * ntlpd, Ent16ns * accion, Ent16ns * ir_a,
void (* fAccSem)( Ent16ns numregla,
ELEMPILA * pila, Ent16ns pp ) = 0,
void (* fLimPila)( ELEMPILA * pila, Ent16ns pp,
Ent8 cumple ) = 0,
void (* fVer)( const char * mensaje ) = 0 );
~AnalSLR1() { }
Ent8 Analizar( AnaLex & analex, Ascii0 & CadErr, Ent16ns MaxPila = 50 );
Ent16ns CodError;
enum { ERRORLEX = 1, TERMINESP, PILACHICA, ERRORENTABLAS };
};
template <class ELEMPILA>
AnalSLR1<ELEMPILA>::AnalSLR1( Ent16ns * _ntlpd, Ent16ns * _accion,
Ent16ns * _ir_a,
void (* _fAccSem)( Ent16ns numregla, ELEMPILA * pila,
Ent16ns pp ),
void (* _fLimPila)( ELEMPILA * pila, Ent16ns pp, Ent8 cumple
),
void (* _fVer)( const char * mensaje ) ) {
ntlpd = _ntlpd;
accion = _accion;
ir_a = _ir_a;
fAccSem = _fAccSem;
fLimPila = _fLimPila;
fVer = _fVer;
}
template <class ELEMPILA>
Ent8 AnalSLR1<ELEMPILA>::Analizar( AnaLex & analex, Ascii0 & CadErr,
Ent16ns MaxPila ) {
Ent16ns idTerm;
Ascii0 cadTerm;
Accion a;
Ent16ns x1,x2,x3; // variables auxiliares
Ent16ns numiter;
Ascii0 msj;
Ent8ns nt = ntlpd[0] >> 8,
t = ntlpd[0] + 1;
// pila[pp].Estado es el estado actual.
Ent8 salir = 0, cumple;
idTerm = analex.Examinar(cadTerm); // pide un símbolo de entrada
if (idTerm > t) { // error léxico
analex.CadError(CadErr);
CodError = ERRORLEX;
return 0; // carácter o símbolo inesperado
}
ELEMPILA * pila;
171
Documentación de SLR1 versión 2.x
pila = new ELEMPILA[MaxPila]; // se def aquí para que el constructor no
se
// ejecute si no va a ser usado.
if (pila == 0) return 0; // falta memoria
Ent16ns pp;
pp = 0; // puntero de pila
pila[0].Estado = 0;
// estado inicial.
numiter = 0;
while ( ! salir ) {
if (fVer != 0) {
msj.printf("Iter: %4u ", ++numiter);
(*fVer)(msj);
// MostrarPila(fVer, pila, pp);
msj.printf("Est: %u, Símb: %u, ", pila[pp].Estado, (Ent16ns)
idTerm);
(*fVer)(msj);
}
a = x1 = accion[pila[pp].Estado * t + idTerm];
if (! x1) { // error sintáctico, terminal inesperado
salir = 1;
cumple = 0;
analex.CadError(CadErr);
CodError = TERMINESP;
if (fVer != 0) (*fVer)("ERROR.\n");
}
else {
switch (a.Codigo) {
case 0: // desplazar terminal actual e ir a a.n
if (++pp == MaxPila) {
msj.printf("Sobreflujo en la pila, intente con MaxPila >
%u.\n",
MaxPila);
if (fVer != 0) (*fVer)(msj);
salir = 1;
cumple = 0;
CodError = PILACHICA;
break;
}
pila[pp].Simb.Id = idTerm;
pila[pp].Simb.NoTerminal = 0;
pila[pp].CadTerm << cadTerm;
pila[pp].Estado = a.n;
if (fVer != 0) {
msj.printf("d%u\n", a.n);
(*fVer)(msj);
}
idTerm = analex.Examinar(cadTerm); // pide otro símbolo de
entrada
if (idTerm > t) { // error léxico
analex.CadError(CadErr);
salir = 1;
cumple = 0;
CodError = ERRORLEX; // símbolo inesperado
}
break;
case 1: // aceptar
salir = cumple = 1;
CodError = 0;
if (fVer != 0) (*fVer)("Aceptar.\n");
break;
case 2: // reducir por a.n
172
Documentación de SLR1 versión 2.x
x1 = ntlpd[a.n];
x2 = x1 & 0x00FF; // apaga el byte alto
pp = x2 > pp ? 0 : pp - x2; // desapila x2 elementos
x1 >>= 8; // cód del no terminal
x3 = ir_a[ pila[pp].Estado * nt + x1 - 1 ];
if (fAccSem != 0) (*fAccSem)(a.n, pila, pp);
pila[++pp].Simb.Id = x1;
pila[pp].Simb.NoTerminal = 1;
pila[pp].Estado = x3;
if (fVer != 0) {
msj.printf("r%u, lpdr: %u, EstExp: %u, NT: %u\n", a.n, x2,
pila[pp-1].Estado, x1);
(*fVer)(msj);
}
break;
default: // problemas
salir = 1;
cumple = 0;
CodError = ERRORENTABLAS;
if (fVer != 0) (*fVer)("PROBLEMAS EN LAS TABLAS.\n");
}
} // else
} // while
if (fLimPila != 0) (*fLimPila)(pila, pp, cumple);
delete [] pila;
return cumple;
}
# endif // # ifndef __SLR1_H
12.14.2 EXPREG.H
# ifndef __EXPREG_H
# define __EXPREG_H
// expreg.h: definición de una clase para el manejo de
//
expresiones regulares.
// Creación: Lun 09 Ene 95
// Copyright (c) 1995 by Domingo Becker.
// All rights reserved.
# ifndef __TIPOS_H
# include <tipos.h>
# endif
class AutomFinDet {
public:
const char * ExpRegular;
const char * * Caracter;
Ent16ns NumCar;
const Ent16ns * Transicion,
* EstFinales;
};
# define TNDEF 0xffff
// ExpRegular: cadena de la Expresión Regular que define el lenguaje.
// Caracter: vector de const char *, contiene los caracteres posibles como
173
Documentación de SLR1 versión 2.x
//
caracteres simples o como rangos (para rangos ver doc).
// NumCar: número de caracteres, número de columnas de la tabla
Transición.
// Transicion: tabla de transición de estados del autómata finito deter//
minístico (AFD) que reconoce el lenguaje de la expr.
regular.
//
Los elementos se enumeran por filas. Si una transici¢n no
//
est definida se debe utilizar TNDEF o el número 0xffff.
// EstFinales: vector de estados finales del AFD. El elemento 0 de este
//
vector contiene el número de elementos, a continuación se
//
enumeran los estados finales. El vector no necesita estar
//
ordenado porque se utiliza búsqueda secuencial.
// Ejemplo de definición est tica de AutomFinDet:
// (Los objetos static pueden no serlo. Se los hace estáticos para que
// sus nombres sean sólo conocidos en el módulo donde se define al
// objeto AutomFinDet.)
/*
static const char ExpRegular[] = "a+(b|c)*d+";
static const char * Caracteres[] = { "a", "b", "c", "d" };
static const Ent16ns Transiciones[] = {
1, TNDEF, TNDEF, TNDEF,
1,
2,
2,
3,
TNDEF,
2,
2,
3,
TNDEF, TNDEF, TNDEF,
3
};
static const Ent16ns EstFinales[] = {
1, // elemento 0 para indicar la cantidad de estados finales.
3
};
AutomFinDet automata = { ExpRegular, Caracteres, 4, Transiciones,
EstFinales };
//
//
//
//
//
//
*/
La tabla
a b
0 1 1 1 2
2 - 2
3 - -
de
c
2
2
-
Transiciones del ejemplo es:
d
3
3
3
class Archivo;
const char * CadSecEscape( char c );
char CarSecEscape( const char * pCad );
int ImprCaracter( Archivo & arch, char c );
int ImprCadena( Archivo & arch, const char * cad );
int CambSecEsc( char * pCad );
int ImprimirAFD( Archivo & arch, const AutomFinDet & afd );
int ImprFuenteAFD( Archivo & arch, const AutomFinDet & afd,
const char * NomObj = 0, const char * NomSubobj = 0 );
// Los nombres ser n los siguientes:
// erXXX: expresi¢n regular
// vcXXX: vector de caracteres o rangos
// tXXX: tabla de transiciones
// efXXX: vector con los estados finales
// afdYYY: variable AutomFinDet (aut¢mata finito determin¡stico)
// XXX corresponde al valor NomSubobj y YYY a NomObj. Si NomSubobj == 0
// entonces se usa el valor de NomObj como NomSubobj. Si ambos son nulos
// entonces aparecer el/los caracteres iniciales, por ejemplo, si
// NomObj == 0 o == "" entonces el nombre de la variable AutomFinDet
// ser 'afd'.
// Si no especifica al menos NomObj, y agrupa varios AutomFinDet generados
174
Documentación de SLR1 versión 2.x
// por ExpReg en un solo m¢dulo fuente entonces tendr
// al compilar.
colisi¢n de nombres
class Ascii0;
class ExpReg {
protected:
AutomFinDet * afd;
char apu;
public:
ExpReg() { afd = 0; apu = 0; }
ExpReg( const AutomFinDet & _afd ) { afd = 0; apu = 0; Reasignar(_afd);
}
ExpReg( const char * er, Ascii0 & CadPosErr );
~ExpReg() { Vaciar(); }
int Reasignar( const AutomFinDet & afd );
int Reasignar( const char * CadExpReg, Ascii0 & CadPosErr );
void Vaciar();
int Imprimir( Archivo & arch ) const;
int ImprFuente( Archivo & arch, const char * NomObj = 0,
const char * NomSubobj = 0 ) const;
int ImprFuente( const char * NomArch, const char * NomObj = 0,
const char * NomSubobj = 0 ) const;
int Examinar( const char * Cadena, unsigned Inicio, unsigned & Tam )
const;
int Buscar( const char * Cadena, unsigned & Inicio,
unsigned & Tam, unsigned BuscarDesde = 0 ) const;
enum { AFDNDEF = 1, AFDERR, CADNULA, CARINESP, TRANSNDEF }; // para
Buscar
};
inline ExpReg::ExpReg( const char * er, Ascii0 & CadPosErr ) {
afd = 0;
apu = 0;
Reasignar(er, CadPosErr);
}
inline int ExpReg::Reasignar( const AutomFinDet & Afd ) {
Vaciar();
afd = (AutomFinDet *) & Afd;
apu = 1;
return 1;
}
inline int ExpReg::Imprimir( Archivo & arch ) const {
return afd != 0 ? ImprimirAFD(arch, *afd) : 0;
}
inline int ExpReg::ImprFuente( Archivo & arch, const char * NomObj,
const char * NomSubobj ) const {
return afd != 0 ? ImprFuenteAFD(arch, *afd, NomObj, NomSubobj) : 0;
}
//
//
//
//
Clase RecSimb: Reconocedor de Símbolo, esta clase contiene un puntero a
una cadena donde está la cadena del símbolo léxico (si es constante) o
bien un puntero al autómata finito determinístico (AFD) que reconoce al
símbolo léxico. También contiene el identificador léxico del símbolo.
class RecSimb {
public:
unsigned Id;
char EsAFD;
175
Documentación de SLR1 versión 2.x
const AutomFinDet * pAFD;
const char * pCad;
};
// Id: número identificador del símbolo léxico. No puede usar 0xffff
porque
//
est reservado para error léxico. Si usa 0 el símbolo léxico ser
//
ignorado por un objeto AnaLex, ‚ste lo saltear y buscar el
//
siguiente. La clase AnaLex reserva el 0 para el fin de archivo
(FA).
//
No hay problemas acerca de Id repetidos en un vector de RecSimb a
//
ser usado por un objeto AnaLex.
// EsAFD: si == 0 entonces el símbolo es constante y est descripto por
pCad,
//
en este caso pAFD == 0. Si != 0 entonces el reconocedor del
símbolo
//
es un Autómata Finito Determinístico apuntado por pAFD, pCad ==
0
//
en este caso.
// pAFD: apunta a un AutomFinDet creado a mano o con un generador de AFD.
// pCad: apunta a la cadena que describe al símbolo. Por ejemplo, si el
//
símbolo es '>=' entonces no hace falta un AFD, es más eficiente
//
especificar ">=". Para el caso de los Naturales con el 0, estamos
//
hablando de una familia de símbolos similares, y ya no podemos
usar
//
este campo sino pAFD con un autómata que reconozca "[0-9]+".
// Clase AnaLex: Analizador Lexicográfico, esta clase encapsula un
analizador
// lexicográfico. Se implementa mediante un vector de RecSimb
(reconocedores
// de símbolos) creado previamente. Informa sobre el estado del analizador
y
// los errores encontrados.
class AnaLex {
protected:
const RecSimb * vrs;
unsigned tvrs;
const char * pTxt;
unsigned Inic, Tama, NumLin;
unsigned (* fErrorLex) ( int MayIgualMin, AnaLex & analex, Ascii0 & Cad
);
AnaLex(); // no se puede crear objetos sin vrs.
public:
unsigned CodError; // usado por función Examinar
unsigned ComLin;
// índice del comienzo de línea
AnaLex( const RecSimb * pvrs, unsigned n,
unsigned (* fSiHayErrorLex) ( int, AnaLex &, Ascii0 & ) = 0 );
~AnaLex() { vrs = 0; pTxt = 0; fErrorLex = 0; }
void Reiniciar( const char * Texto );
unsigned Examinar( Ascii0 & CadSimb, int MayIgualMin = 0 );
unsigned Inicio() const { return Inic; }
unsigned Tam() const { return Tama; }
unsigned NumLinea() const { return NumLin + 1; }
unsigned Simbolo( Ascii0 & CadSimb ) const;
char Saltear();
unsigned Saltear( unsigned tam );
unsigned CadError( Ascii0 & Cad ) const;
};
inline AnaLex::AnaLex() {
vrs = 0;
pTxt = 0;
176
Documentación de SLR1 versión 2.x
Inic = Tama = CodError = NumLin = ComLin = 0;
fErrorLex = 0;
}
inline AnaLex::AnaLex( const RecSimb * pvrs, unsigned n,
unsigned (* fSiHayErrorLex) ( int , AnaLex &, Ascii0 & ) ) {
vrs = pvrs;
tvrs = n;
pTxt = 0;
Inic = Tama = CodError = NumLin = ComLin = 0;
fErrorLex = fSiHayErrorLex;
}
inline void AnaLex::Reiniciar( const char * Texto ) {
pTxt = Texto;
Inic = Tama = CodError = NumLin = ComLin = 0;
}
inline char AnaLex::Saltear() {
if (! Tama && pTxt != 0 && pTxt[Inic])
Tama = 1;
return pTxt[Inic];
}
// El siguiente objeto es global y lo puede usar cualquiera.
// Es usado por ExpReg::Reasignar( const char * CadExpReg ) para
// analizar CadExpReg en busca de símbolos léxicos.
// Recuerde siempre Reiniciar antes de usarlo por primera vez.
extern AnaLex AnaLexExpReg;
//
//
//
//
#
#
#
#
#
#
#
#
#
#
Al llamar a AnaLex::Examinar con AnaLexExpReg, Examinar devuelve alguno
de los siguientes códigos o 0 si hay fin de texto. No devuelve error
léxico porque reconoce cualquier caracter excepto el 0 de fin de cadena
al cual lo toma como fin de texto.
define
define
define
define
define
define
define
define
define
define
_id_Numeral
_id_Ident
_id_CteCar
_id_Rango
_id_Disyuncion
_id_Opcional
_id_Uno_o_Mas
_id_Cero_o_Mas
_id_Abre_Paren
_id_Cierra_Paren
1
2
3
4
5
6
7
8
9
10
# endif // # ifndef __EXPREG_H
177
Documentación de la Biblioteca ExpReg v 1.x
Capítulo 13: Documentación de la Biblioteca ExpReg v 1.x
El texto de este capítulo es la documentación de ExpReg v 1.x, y debe
ser tomado como un libro aparte. No se hacen referencias a otros capítulos de
este trabajo.
En el capítulo 18, donde se comenta la historia del desarrollo de las
herramientas presentadas en este trabajo, se puede encontrar información
interesante acerca de esta implementación.
13.1 Introducción
La biblioteca ExpReg para C++ es un conjunto de clases y rutinas para
manejar expresiones regulares, autómatas finitos determinísticos y
analizadores lexicográficos.
El objetivo principal de esta biblioteca es la de servir como soporte para
las aplicaciones AFD y SLR1. AFD utiliza la implementación de autómatas
finitos determinísticos y la implementación de expresiones regulares de ésta.
SLR1 utiliza además a la implementación de analizadores lexicográficos.
Esta biblioteca ha sido definida independiente del sistema operativo en
el que se trabaje. Saca provecho además de la implementación que los
compiladores hagan del tipo de dato fundamental int del C++.
Cuando use EXPREG.LIB recuerde incluir en su proyecto la biblioteca
BCE, ya que esta biblioteca usa a la clase Ascii0 de BCE.
13.2 Autómatas finitos determinísticos - Clase AutomFinDet
La clase AutomFinDet implementa un autómata finito determinístico.
La teoría sobre los autómatas finitos determinísticos debe ser consultada en la
bibliografía de compiladores.
La declaración de la clase se realiza en el archivo EXPREG.H y es como
sigue:
class AutomFinDet {
178
Documentación de la Biblioteca ExpReg v 1.x
public:
const char * ExpRegular;
const char * * Caracter;
Ent16ns NumCar;
const Ent16ns * Transicion,
* EstFinales;
};
en donde:
ExpRegular: cadena de la Expresión Regular que define el lenguaje. Puede
obviar darle valor a este campo pasando un 0.
Caracter: vector de const char *, contiene los caracteres posibles como
caracteres simples o como rangos.
NumCar: número de caracteres, número de columnas de la tabla Transición.
Transicion: tabla de transición de estados del autómata finito determinístico
(AFD) que reconoce el lenguaje de la expr. regular. Los
elementos
se enumeran por filas. Si una transición no está definida se debe
utilizar TNDEF o el número 0xffff.
EstFinales: vector de estados finales del AFD. El elemento 0 de este vector
contiene el número de elementos, a continuación se enumeran los
estados finales. El vector no necesita estar ordenado porque se
utiliza búsqueda secuencial.
La clase se define de esa manera a efectos de poder realizar definiciones
estáticas de objetos de la misma. Por ejemplo, la siguiente es una definición
válida de un autómata finito determinístico:
// (Los objetos static pueden no serlo. Se los hace estáticos para que
// sus nombres sean sólo conocidos en el módulo donde se define al
// objeto AutomFinDet.)
static const char ExpRegular[ ] = "a+(b|c)*d+";
static const char * Caracteres[ ] = { "a", "b", "c", "d" };
static const Ent16ns Transiciones[ ] = {
1, TNDEF, TNDEF, TNDEF,
1,
2,
2,
3,
TNDEF,
2,
2,
3,
TNDEF, TNDEF, TNDEF,
3
};
static const Ent16ns EstFinales[ ] = {
1, // elemento 0 para indicar la cantidad de estados finales.
3
};
AutomFinDet automata = { ExpRegular, Caracteres, 4, Transiciones,
EstFinales };
179
Documentación de la Biblioteca ExpReg v 1.x
13.3 Funciones globales para el tratamiento de AutomFinDet
13.3.1 ImprimirAFD
int ImprimirAFD( Archivo & arch, const AutomFinDet & afd );
Esta función imprime afd en arch en formato texto. El formato texto es
similar al utilizado por la bibliografía que trata sobre autómatas.
Archivo es una clase de la biblioteca BCE que sirve de soporte para esta
biblioteca.
La función devuelve 0 si no pudo imprimir, 1 si pudo imprimir.
13.3.2 ImprFuenteAFD
int ImprFuenteAFD( Archivo & arch, const AutomFinDet & afd,
const char * NomObj = 0, const char * NomSubobj = 0 );
Imprime afd en arch en formato C++ (como texto plano). La salida es
similar a la que se muestra como ejemplo de definición de un objeto de la clase
AutomFinDet.
La clase Archivo pertenece a la biblioteca BCE que sirve de soporte a
esta biblioteca.
NomObj es el sufijo utilizado para el nombre del objeto AutomFinDet.
El nombre del mismo será afdNomObj. Si pasa 0 (valor por defecto) entonces
no se usa sufijo.
NomSubobj es el sufijo utilizado para la definición de los subobjetos
componentes del autómata finito determinístico. El campo ExpRegular será
definido como erNomSubobj, el campo Caracter será definido como
vcNomSubobj, Transicion como tNomSubobj y EstFinales como
efNomSubobj. En el caso de que se especifique 0 se utiliza NomObj como
NomSubobj, y, si este último era 0 entonces no se usa sufijo para los nombres
de los subobjetos. Los subobjetos serán definidos como static.
NomObj y NomSubobj se deben utilizar para evitar la duplicación de
nombres de objetos en un proyecto.
La función devuelve 0 si hay problemas con el autómata o no se pudo
imprimir, 1 si pudo imprimir.
180
Documentación de la Biblioteca ExpReg v 1.x
13.4 Expresiones regulares - Clase ExpReg
La clase ExpReg declarada en EXPREG.H implementa el uso de una
expresión regular, la cual deberá ser especificada por medio de una cadena de
caracteres válida del C++, la que puede ser obtenida por lectura directa y
completa de un archivo de texto plano.
A partir de la expresión regular especificada como parámetro, esta clase
construye un autómata finito determinístico que reconoce el lenguaje definido
por esa expresión regular, a efectos de posterior consulta usando la expresión
regular.
También se puede armar un objeto a partir de un autómata finito
determinístico definido previamente.
13.4.1 Campos dato de la clase ExpReg
Los miembros dato protegidos de la clase son:
AutomFinDet * afd;
Es el autómata finito determinístico que reconoce el lenguaje definido
por la expresión regular.
char apu;
Tiene 1 si éste objeto fue construido a partir de un AutomFinDet, y 0 si
el campo afd fue construido por la función local Reasignar.
13.4.2 Funciones miembro de la clase ExpReg
Las funciones miembro públicas de esta clase son:
ExpReg::ExpReg( );
Construye un objeto ExpReg por defecto (nulo).
ExpReg::ExpReg( const AutomFinDet & _afd );
181
Documentación de la Biblioteca ExpReg v 1.x
Construye un objeto ExpReg a partir del autómata finito determinístico
pasado como parámetro.
ExpReg::ExpReg( const char * er, Ascii0 & CadPosErr );
Construye un objeto ExpReg a partir de la expresión regular pasada en
el parámetro er. Si hay error de sintaxis o léxico en el texto de entrada (er)
entonces se devuelve una cadena con la posición del error en CadPosErr.
Este constructor utiliza la función local Reasignar para efectuar este
trabajo.
int ExpReg::Reasignar( const AutomFinDet & afd );
int ExpReg::Reasignar( const char * CadExpReg,
Ascii0 & CadPosErr );
La primera versión reasigna el campo afd de éste objeto.
La segunda versión construye un objeto AutomFinDet a partir de la
expresión regular CadExpReg. Se realiza un análisis lexicográfico y sintáctico
de la expresión regular y luego se procede a la construcción del autómata
finito determinístico a partir de esa expresión regular. Si hay error léxico o de
sintaxis, en CadPosErr se devuelve la cadena de texto con la línea donde se
produjo el error.
Ambas funciones devuelven 0 si no se pudo reasignar, distinto a 0 si no
hubo ningún problema.
void ExpReg::Vaciar();
Vacía este objeto. Vaciar significa hacer nulo. Si el objeto construyó el
AutomFinDet afd entonces lo destruye devolviendo correctamente la memoria
usada.
int ExpReg::Imprimir( Archivo & arch ) const;
Imprime éste objeto en arch. Se utiliza la función global
ImprimirAFD, y se devuelven los mismos códigos de error.
182
Documentación de la Biblioteca ExpReg v 1.x
int ExpReg::ImprFuente( Archivo & arch, const char * NomObj = 0,
const char * NomSubobj = 0 ) const;
int ExpReg::ImprFuente( const char * NomArch,
const char * NomObj = 0,
const char * NomSubobj = 0 ) const;
Estas funciones imprimen el objeto afd en el archivo especificado. La
primera versión espera que arch sea un archivo abierto y que se pueda escribir
en él. La segunda crea un archivo con nombre NomArch eliminando la
versión previa del mismo si es que existía.
Se utiliza la función global ImprFuenteAFD. Consulte en su
documentación el uso de NomObj y NomSubobj.
Las funciones devuelven 0 si hay error, distinto a 0 si no hay problemas.
int ExpReg::Examinar( const char * Cadena, unsigned Inicio,
unsigned & Tam ) const;
Esta función examina la Cadena desde la posición Inicio (
Cadena[Inicio] ) para ver si la secuencia siguiente de caracteres cumple con
ésta expresión regular.
Si cumple entonces la función devuelve 0 y en Tam el número de
caracteres del símbolo del lenguaje. El símbolo comienza en Cadena[Inicio] y
termina en Cadena[Inicio + Tam - 1], y no incluye un 0 de fin de cadena en
Cadena[Inicio + Tam]. Se puede usar la función estándar del C++ strncpy
para sacar una copia del símbolo, se debe indicar como fuente a Cadena +
Inicio, y como n a Tam; la cadena destino debe ser lo suficientemente grande
como para contener al símbolo (Tam + 1 de largo); luego del llamado a
strncpy debe hacer "Simbolo[Inicio + Tam] = 0;" para asegurar la
terminación en 0 de la cadena.
Si no cumple devuelve un valor distinto de 0 que es el código de error.
Debe utilizar el enum definido dentro de ésta clase para ver qué error se
produjo. Utilice la sintaxis ExpReg::XXX donde XXX es el id del código.
Los códigos son los siguientes:
AFDNDEF: el autómata finito determinístico es nulo (no definido).
AFDERR: el autómata finito determinístico está mal definido.
183
Documentación de la Biblioteca ExpReg v 1.x
CADNULA: la Cadena pasada es nula (== 0 o Inicio > Longitud(Cadena)).
CARINESP: el caracter que sigue (el de Cadena[Inicio + Tam - 1]) es
inesperado. No se lo encuentra dentro del vector
this->afd.Caracter.
TRANSNDEF: para el caracter que sigue no hay transición definida desde el
estado actual.
Debido a que esta función no hace movimiento de datos, es muy
conveniente su utilización en analizadores lexicográficos, ya que no
desperdicia tiempo en movimientos de datos innecesarios.
int ExpReg::Buscar( const char * Cadena, unsigned & Inicio,
unsigned & Tam, unsigned BuscarDesde = 0 ) const;
Esta función Examina la Cadena desde la posición BuscarDesde
(Cadena[BuscarDesde] ) para ver si desde esa posición hasta el primer
caracter 0 siguiente hay una secuencia de caracteres que pertenece al lenguaje
definido por ésta expresión regular.
Esta función utiliza la función Examinar para la búsqueda de la primera
ocurrencia de un símbolo perteneciente al lenguaje.
Si no hay problemas devuelve 0. En Inicio devuelve la posición inicial
de la primera ocurrencia. En Tam devuelve el tamaño de la cadena. Si Tam
== 0 entonces puede que no haya una ocurrencia de algún símbolo del
lenguaje (si la expresión regular es anulable entonces Tam puede venir con 0
sin que haya error, esto es, lambda (λ) pertenece al lenguaje; λ es la cadena
nula). Si Tam es mayor que 0, la cadena comienza en la posición Inicio
(Cadena[Inicio]) y termina en Tam - 1 (Cadena[Inicio + Tam - 1] ).
Devuelve ExpReg::CADNULA si Cadena == 0 o si BuscarDesde >
Longitud(Cadena).
13.5 Reconocedores de símbolos - Clase RecSimb
Denominaremos reconocedor de símbolo al objeto que describe cómo se
debe realizar la búsqueda de un símbolo de un lenguaje dado. El lenguaje dado
puede ser especificado por una expresión regular, y en este caso se usaría un
autómata finito determinístico para reconocer un símbolo. La otra forma
184
Documentación de la Biblioteca ExpReg v 1.x
posible es la de usar una simple comparación de cadena, como la que se usaría
para reconocer palabras claves u operadores de un lenguaje.
Esta clase contempla las dos posibilidades. La declaración se la realizó
como sigue:
class RecSimb {
public:
unsigned
char
const AutomFinDet *
const char *
};
Id;
EsAFD;
pAFD;
pCad;
Id: número identificador del símbolo léxico. No puede usar 0xffff porque está
reservado para error léxico. Si usa 0 el símbolo léxico será ignorado por un
objeto AnaLex, éste lo salteará y buscará el siguiente. No hay problemas
acerca de Ids repetidos en un vector de RecSimb a ser usado por un objeto
AnaLex.
EsAFD: si == 0 entonces el símbolo es constante y está descripto por pCad
(pCad apuntará a una cadena que es una copia del símbolo), en este caso
pAFD == 0. Si != 0 entonces el reconocedor del símbolo es un Autómata
Finito Determinístico apuntado por pAFD, pCad == 0 en este caso.
pAFD: apunta a un AutomFinDet creado a mano o con un generador de AFD.
Este campo debe valer 0 si EsAFD == 0.
pCad: apunta a la cadena que describe al símbolo si EsAFD == 0. Por
ejemplo, si el símbolo es '>=' entonces no hace falta un AFD, es más eficiente
especificar ">=". Para el caso de los Naturales con el 0, estamos hablando de
una familia de símbolos similares, y ya no podemos usar este campo sino que
debemos usar pAFD con un autómata que reconozca "[0-9]+".
El siguiente es un ejemplo de definición de un vector de reconocedores
de símbolos que puede servir para la construcción de un analizador
lexicográfico a través de la clase AnaLex:
static RecSimb vrs[] = {
1, 1, & afdBlqCod, 0,
2, 0, 0, "#",
3, 0, 0, "ACCSEM",
4, 1, & afdIdent, 0,
5, 0, 0, "TERMINAL",
6, 0, 0, ":",
7, 0, 0, "IGNORAR",
8, 0, 0, "ELEMPILA",
9, 0, 0, ";",
10, 1, & afdFlecha, 0,
185
Documentación de la Biblioteca ExpReg v 1.x
11, 0, 0, "|",
12, 0, 0, "*",
13, 1, & afdCadena, 0,
0, 1, & afdBlancos, 0,
0, 1, & afdComentario, 0
};
Este ejemplo ha sido extraído del módulo donde se define el analizador
lexicográfico de SLR1 v 2.x. Los afdXXX han sido generados por AFD v 3.x
y residen en sus respectivos archivos .CMM; no fueron transcriptos. Las
cadenas de caracteres (entre comillas) son palabras claves y operadores del
lenguaje. Los dos últimos reconocedores indican que se deben ignorar blancos
y comentarios.
Debe evitarse la utilización directa de esta clase. En su lugar permita
que SLR1 v 2.x o posterior, junto con AFD v 3.x o posterior sean los que
construyan el analizador lexicográfico por usted. A tal efecto consulte la
documentación de SLR1 y de AFD.
13.6 Analizadores lexicográficos - Clase AnaLex
La clase AnaLex implementa los analizadores lexicográficos. Un
analizador lexicográfico se concibe como un conjunto no vacío de
reconocedores de símbolos que se utilizan para el análisis de un texto de
entrada. El lenguaje que reconoce el analizador lexicográfico es la unión de los
lenguajes reconocidos por cada reconocedor de símbolo que componen el
analizador.
Esta clase ha sido definida inicialmente para servir de soporte a los
analizadores sintácticos generados por SLR1 v 2.x y posteriores. De hecho,
SLR1 v 2.x genera definiciones de analizadores lexicográficos implementados
con esta clase de manera automática (en el archivo .CMM generado incluye
una instancia de esta clase, la que posteriormente será utilizada como el
analizador lexicográfico para el lenguaje a analizar).
Se aconseja consultar los archivos .CMM de salida de SLR1 v 2.x o
posterior a los efectos de ver la mejor forma de definir objetos AnaLex.
13.6.1 Campos dato de la clase AnaLex
Los miembros dato públicos de esta clase son:
unsigned ComLin;
186
Documentación de la Biblioteca ExpReg v 1.x
Indice del comienzo de línea actual.
unsigned CodError;
Usado por función local Examinar para almacenar el código de error.
No es usado por la implementación actual de esta clase. Su declaración es
agregada a efectos de que sea usada por la función que corrige errores
lexicográficos.
Miembros dato protegidos:
const RecSimb * vrs;
Vector de reconocedores de símbolos léxicos. Tiene tamaño tvrs.
unsigned tvrs;
Tamaño del vector vrs. Número de elementos del conjunto de
reconocedores de símbolos de este analizador lexicográfico.
const char * pTxt;
Puntero al inicio del texto de entrada que se está analizando.
unsigned Inic;
Indice del inicio para la siguiente posición a Examinar.
unsigned Tama;
Tamaño del último símbolo léxico reconocido.
unsigned NumLin;
Número de línea actual.
unsigned (* fErrorLex) ( int MayIgualMin, AnaLex & analex,
Ascii0 & Cad );
Puntero a una función especificada por el programador en la creación de
éste objeto.
La función debe resolver el error léxico que se acaba de producir, y
devolver un número que indica el código del símbolo terminal siguiente o
0xffff si es que hay realmente un error léxico. En caso de que no haya error
léxico, debe devolver en Cad el símbolo reconocido y modificar el analizador
187
Documentación de la Biblioteca ExpReg v 1.x
lexicográfico analex que se le pasa como parámetro a efectos de que éste
último saltee los caracteres que se acaban de reconocer. El parámetro
MayIgualMin indica si se debe hacer distinción entre mayúsculas y
minúsculas.
13.6.2 Funciones miembro de la clase AnaLex
Funciones miembro protegidas de esta clase:
AnaLex::AnaLex();
El constructor por defecto de esta clase fue declarado protegido a
efectos que nadie pueda construir un objeto sin especificar un conjunto de
reconocedores de símbolos.
Funciones miembro públicas de esta clase:
AnaLex::AnaLex( const RecSimb * pvrs, unsigned n,
unsigned (* fSiHayErrorLex) ( int, AnaLex &,
Ascii0 & ) = 0 );
Este constructor construye un AnaLex a partir del vector de
reconocedores de símbolos pvrs de tamaño n. La función fSiHayErrorLex es
una función que corrige un error léxico encontrado por éste analizador; su
especificación es opcional, por defecto no hay función para corregir errores
léxicos.
void AnaLex::Reiniciar( const char * Texto );
Asigna a Texto como el texto fuente a analizar lexicográficamente. Este
es una cadena válida C++, la que puede ser obtenida por lectura directa de un
archivo de texto plano, de un objeto editor de Windows u OS/2, etc.
Llamar a esta función pasando 0 como Texto no tiene sentido ni
produce ningún efecto.
188
Documentación de la Biblioteca ExpReg v 1.x
Si no hay problemas, se reinician todas las variables de este analizador
lexicográfico de manera que el mismo comience a Examinar desde la posición
0 del Texto fuente.
unsigned AnaLex::Examinar( Ascii0 & CadSimb,
int MayIgualMin = 0 );
Esta función Examina desde la posición actual al texto fuente
especificado en un llamado previo a Reiniciar, para ver si desde esa posición
hay un símbolo que cumple con algún reconocedor de símbolo de este
analizador lexicográfico.
Si hay alguno devuelve el código del símbolo encontrado, si es fin de
archivo (no hay más texto a partir de la posición de actual, se llegó al 0 de fin
de cadena de C++) devuelve un 0. Si hay un error léxico entonces devuelve
0xffff (65535) y en el campo CodError de éste objeto el número 1.
Si hay 2 o más reconocedores de símbolos que reconocen a una cadena
de caracteres que comienza desde la posición actual, el conflicto se resuelve de
acuerdo a las siguientes reglas:
1. Si hay un reconocedor que reconoce una secuencia de caracteres más
larga que el resto de los reconocedores entonces se elige ése. En caso de
empate entre dos o más reconocedores se procede según las reglas
siguientes.
2. Si el grupo de reconocedores para los que se produjo el empate son
autómatas finitos determinísticos (posiblemente construidos a partir de
expresiones regulares), se elige el que fue listado primero en el vector de
reconocedores de símbolos que se especificó como parámetro al
construir éste objeto.
3. Si en el grupo hay una palabra clave o un caracter o secuencia de
caracteres reservados, se elige éste. Así, por ejemplo, TERMINAL
puede ser un identificador, pero si fue incluido como una cadena de
caracteres dentro de un reconocedor de símbolo el analizador léxico
dará prioridad a la palabra clave y lo reconocerá como tal.
El comportamiento del analizador léxico que definen las tres reglas
precedentes hacen que el mismo funcione exactamente igual que los generador
por el LEX de UNIX, a diferencia que los construidos con objetos de esta clase
no realizan movimientos innecesarios de datos.
189
Documentación de la Biblioteca ExpReg v 1.x
unsigned AnaLex::Inicio() const;
Esta función devuelve el valor del campo Inic.
unsigned AnaLex::Tam() const;
Esta función devuelve el valor del campo Tama.
unsigned AnaLex::NumLinea() const;
Esta función devuelve NumLin + 1.
unsigned AnaLex::Simbolo( Ascii0 & CadSimb ) const;
Esta función devuelve el tamaño del último símbolo léxico que
reconoció éste analizador lexicográfico, 0 si hay problemas. Y en CadSimb la
cadena del mismo.
char AnaLex::Saltear();
unsigned AnaLex::Saltear( unsigned tam );
La primera versión hace que éste analizador lexicográfico saltee el
caracter actual. Devuelve el caracter que se acaba de saltear, 0 si se llegó al fin
del texto fuente (fin de archivo).
La segunda versión llama tam veces a la primera versión. Como efecto
se saltean tam caracteres a partir de la posición actual.
unsigned AnaLex::CadError( Ascii0 & Cad ) const;
Arma en Cad una cadena de caracteres válida del C++ en donde se
muestra la línea de texto actual y la posición exacta en donde se encuentra éste
analizador lexicográfico, lo que se muestra por medio de un símbolo ^ abajo
del caracter actual en la línea siguiente a la actual.
En el caso de que en la última llamada a Examinar no hubiera dado
error, el símbolo apuntador apuntará al comienzo del símbolo léxico que se
reconoció al último.
Si hay problemas, Cad será una cadena Ascii0 nula (Cad.Long() valdrá
0), y la función devolverá 0. En caso contrario, devolverá la longitud de Cad
(que incluirá a la línea nueva agregada).
190
Documentación de la Biblioteca ExpReg v 1.x
13.7 Objeto global AnaLexExpReg
extern AnaLex AnaLexExpReg;
Este objeto AnaLex es utilizado por ExpReg::Reasignar para realizar
el análisis lexicográfico del texto de entrada fuente. Fue definido como global
a los efectos de que sea utilizado por cualquiera que lo necesite.
Este analizador lexicográfico devuelve 0 si se llegó al final del texto (fin
de archivo), en caso contrario devuelve alguno de los siguientes códigos
(definidos en EXPREG.H):
_id_Numeral: caracter '#'
_id_Ident: es un identificador. La longitud es por de dos o más caracteres.
_id_CteCar: es un caracter.
_id_Rango: un rango especificado con '[' y ']'.
_id_Disyuncion: el caracter '|'
_id_Opcional: el caracter '?'
_id_Uno_o_Mas: el caracter '+'
_id_Cero_o_Mas: el caracter '*'
_id_Abre_Paren: el caracter '('
_id_Cierra_Paren: el caracter ')'
Este analizador lexicográfico no fue escrito a mano, fue generado por
SLR1 v 2.x.
El analizador nunca devuelve error léxico. Esto se hizo especificando
una función adicional que resuelve cualquier problema léxico.
Antes de utilizarlo por primera vez en cada sesión de análisis léxico,
recuerde Reiniciar el mismo con el texto fuente de entrada.
191
Parte 4. Ejemplos de Aplicación
192
Una Calculadora Simple
Capítulo 14: Una Calculadora Simple
En este capítulo se desarrollará un intérprete de expresiones aritméticas,
que será usado en un programa para Windows 3.1 o posterior y OS/2 2.1 o
posterior, para implementar una calculadora que incluye la posibilidad de
"recordar" las últimas operaciones.
El código fuente de este ejemplo se incluye al final de este capítulo.
14.1 Análisis y Diseño
14.1.1 Visión General
La calculadora a desarrollar consta de 2 partes bien definidas:
1. Una parte es la que implementa el evaluador de expresiones aritméticas
usando un analizador sintáctico y lexicográfico. Esta parte es
independiente del sistema operativo en el que funcione la calculadora,
esto es, el código se escribe una sola vez y no se lo toca más a menos
que haya que corregir un error.
2. La otra parte es la que usa el software de la primera parte, y es
dependiente del sistema operativo donde funcionará la calculadora.
Se utilizará la técnica de análisis sintáctico SLR; el analizador sintáctico
será generado por SLR1 v 2.x. El analizador lexicográfico será
automáticamente generado por SLR1 a partir de la especificación de la
gramática para expresiones aritméticas dada de entrada.
La evaluación estará a cargo de una función que ocultará todo el
procesamiento inherente a la evaluación de expresiones aritméticas.
14.1.2 Sintaxis de una Expresión Aritmética
La sintaxis de una expresión aritmética queda descripta por la gramática
siguiente, la que con algunas modificaciones se usará como entrada para
SLR1. Para la gramática se utiliza la sintaxis usada por SLR1 v 2.x.
Fórmula --> Suma ;
Suma --> Suma '+' Producto | Suma '-' Producto | Producto ;
Producto --> Producto '*' Factor | Producto '/' Factor | Factor ;
Factor --> Numero | '(' Suma ')' | '-' Factor ;
193
Una Calculadora Simple
La gramática precedente define precedencias de operadores, se las
resume en la siguiente tabla:
Orden
1. La más alta
2
3. La más baja
Operador
()
*
/
+
-
Observaciones
Paréntesis
Menos unario
Multiplicación
División
Suma
Resta
Fig. 19 Precedencia de operadores de una expresión aritmética
No se incluye la posibilidad de incluir variables en una expresión
aritmética.
Los siguientes son ejemplos de expresiones aritméticas:
Ejemplo 1: 2*5+3*2
Resultado: 16
Ejemplo 2: -32/4 + 2
Resultado: -6
La estructura de un número se describe mediante la siguiente expresión
regular, la que define números muy similares a los de punto flotante del C++:
// Expresión regular para un número real en formato C++:
# Díg [0-9]
Díg * '.' ? Díg + ( (e | E) Díg + ) ?
El analizador lexicográfico ignorará los espacios en blanco. Se
considera espacio en blanco a:
[ \n\r\f\t\v] +
Donde \n es nueva línea, \r es retorno de carro, \f es alimentación de página, \t
es tab y \v es tabulado vertical.
14.1.3 Las Acciones Semánticas
Las acciones semánticas que se incluirán realizan directamente la
evaluación de la expresión aritmética, usando la pila para acarrear los
resultados parciales de los distintos subárboles. El resultado final se
encontrará en la raíz del árbol de análisis sintáctico.
194
Una Calculadora Simple
El tipo de elemento de la pila se cambia a ElemPilaCalc, la que agrega
a ElemPila el resultado parcial para esa posición de la pila. La declaración de
la clase se la da en el archivo CALC.GLC, la que finalmente irá a parar al
archivo CALC.CMM.
La interfase en pantalla del programa será generado por Application
Expert, el generador de aplicaciones para OWL 2.x de Borland C++. Sólo se
agregó un poco de código a un módulo generado por AppExpert.
Las acciones semánticas se muestran en el archivo CALC.GLC. En
particular se debe observar la que se da para la regla "Fórmula --> Suma" que
coloca el resultado final de la evaluación en una variable global llamada
ResultadoFinal. También se debe observar que el error de división por 0 se
detecta en la acción semántica para la regla de división, y se fija la variable
global ErrDivPor0 a 1 si hay problemas. De esta manera el sistema operativo
no detiene la ejecución del programa por división por 0.
14.1.4 La función Evaluar
La función Evaluar que se encuentra en el módulo EVALUAR.CMM
es la que realiza la evaluación de una expresión aritmética. Oculta todo el
procesamiento que se realiza para evaluar la expresión aritmética dada en
formato texto plano y emitir el resultado en formato double (real de doble
precisión) del C++.
El prototipo de la misma es el siguiente:
Ent8 Evaluar( const char * Formula, double & Resultado );
El parámetro Formula es una cadena de caracteres válida del C++
conteniendo la fórmula a evaluar. Básicamente es un texto plano, sin formato.
Se lo puede obtener de cualquier forma.
El parámetro Resultado es el resultado de la evaluación de la Formula.
La función devuelve 0 si hay error de sintaxis, lexicográfico o división
por 0, y distinto a 0 si no hay problemas. Si no hay problemas, Resultado
contiene el resultado final.
195
Una Calculadora Simple
14.2 Módulos fuentes independientes del Sistema Operativo
A continuación se enumeran los modulos fuentes que han sido escritos
para la calculadora y que son independientes del sistema operativo.
14.2.1 CALC.GLC: La gramática con acciones semánticas
Este módulo se debe especificar como entrada para SLR1 v 2.x. A partir
del mismo se generan los módulos CALC.CMM, CALC.TAB y CALC.EST.
// Gramática fuente para una calculadora simple.
// Versión 1.0 - Domingo E. Becker, Tel (085) 22-2488
%{
# ifndef __SLR1_H
# include "slr1.h"
# endif
// por las dudas
class ElemPilaCalc : public ElemPila {
public:
double Resultado; // resultado de la operación hasta esta posición.
ElemPilaCalc() { }
~ElemPilaCalc() { }
};
static double ResultadoFinal;
static Ent8 ErrDivPor0;
}%
// definiciones para el analizador lexicográfico:
# TERMINAL Numero
# IGNORAR Blancos
// en numero.er está la expresión regular
// elemento de la pila
# ELEMPILA ElemPilaCalc
// Reglas:
Fórmula --> Suma %{
ResultadoFinal = $1.Resultado; // asignamos a variable global.
}% ;
Suma --> Suma '+' Producto %{
$$.Resultado = $1.Resultado + $3.Resultado;
}% | Suma '-' Producto %{
$$.Resultado = $1.Resultado - $3.Resultado;
}% | Producto ;
Producto --> Producto '*' Factor %{
$$.Resultado = $1.Resultado * $3.Resultado;
}% | Producto '/' Factor %{
if ($3.Resultado != 0)
$$.Resultado = $1.Resultado / $3.Resultado;
else ErrDivPor0 = 1;
}% | Factor ;
196
Una Calculadora Simple
Factor --> Numero %{
$$.Resultado = $1.CadTerm; // conversión automática de tipo por
// Ascii0
}% | '(' Suma ')' %{
$$.Resultado = $2.Resultado;
}% | '-' Factor %{
$$.Resultado = - $2.Resultado;
}% ;
14.2.2 CALC.CMM: módulo generado por SLR1 v 2.x
A partir de CALC.GLC se generó este módulo en el cual SLR1 v 2.x
escribió la función con las acciones semánticas, el analizador lexicográfico y
el analizador sintáctico.
Se lo incluye aquí a modo de ejemplo.
// Código fuente generado por SLR1 versión 2.2 (Dic 95)
// Domingo Eduardo Becker, Sgo. del Estero, Tel (085) 22-2488
// Código de acciones semánticas.
// Código generado por Gramatica::ImprAccSem versión 2.
// Domingo Eduardo Becker.
# ifndef __SLR1_H
# include "slr1.h"
# endif
// Código fuente previo a las acciones semánticas.
# ifndef __SLR1_H
# include "slr1.h"
# endif
// por las dudas
class ElemPilaCalc : public ElemPila {
public:
double Resultado; // resultado de la operación hasta esta posición.
ElemPilaCalc() { }
~ElemPilaCalc() { }
};
static double ResultadoFinal;
static Ent8 ErrDivPor0;
// Fin del código fuente previo a las acciones semánticas.
void AccSemCalc( Ent16ns NumRegla, ElemPilaCalc * Pila, Ent16ns PP ) {
switch (NumRegla) {
case 1: // Fórmula ---> Suma
{
ResultadoFinal = Pila[PP+1].Resultado; // asignamos a variable
global.
} break;
case 2: // Suma ---> Suma '+' Producto
{
Pila[PP+1].Resultado = Pila[PP+1].Resultado + Pila[PP+3].Resultado;
} break;
197
Una Calculadora Simple
case 3: // Suma ---> Suma '-' Producto
{
Pila[PP+1].Resultado = Pila[PP+1].Resultado - Pila[PP+3].Resultado;
} break;
case 5: // Producto ---> Producto '*' Factor
{
Pila[PP+1].Resultado = Pila[PP+1].Resultado * Pila[PP+3].Resultado;
} break;
case 6: // Producto ---> Producto '/' Factor
{
if (Pila[PP+3].Resultado != 0)
Pila[PP+1].Resultado = Pila[PP+1].Resultado /
Pila[PP+3].Resultado;
else ErrDivPor0 = 1;
} break;
case 8: // Factor ---> Numero
{
Pila[PP+1].Resultado = Pila[PP+1].CadTerm; // conversión automática
de tipo por Ascii0
} break;
case 9: // Factor ---> '(' Suma ')'
{
Pila[PP+1].Resultado = Pila[PP+2].Resultado;
} break;
case 10: // Factor ---> '-' Factor
{
Pila[PP+1].Resultado = - Pila[PP+2].Resultado;
} break;
} // switch (NumRegla)
} // Fin de AccSemCalc
// Fin del código de acciones semánticas.
// Analizador lexicográfico para la gramática.
// Generado por Gramatica::ImprAnaLex versión 2.
// Domingo Eduardo Becker.
# ifndef __EXPREG_H
# include "expreg.h"
# endif
# include "Blancos.cmm" // afdBlancos
# include "Numero.cmm" // afdNumero
static RecSimb vrs[] = {
1, 0, 0, "+",
2, 0, 0, "-",
3, 0, 0, "*",
4, 0, 0, "/",
5, 1, & afdNumero, 0,
6, 0, 0, "(",
7, 0, 0, ")",
0, 1, & afdBlancos, 0
};
# define NUMRECSIMB 8
AnaLex alCalc(vrs, NUMRECSIMB);
// Definición del analizador sintáctico (SLR1 v 2.2).
198
Una Calculadora Simple
// Cambiar de lugar la definición si es necesario.
# include "CALC.tab" // tablas del analizador sintáctico
AnalSLR1<ElemPilaCalc> asCalc(ntlpdCalc, accionCalc, ir_aCalc,AccSemCalc);
14.2.3 NUMERO.ER: expresión regular para un número real no negativo
La expresión regular que se encuentra en este módulo se especifica
como entrada a AFD v 3.x. El sufijo a utilizar es Numero.
// Expresión regular para un número real en formato C++:
# Díg [0-9]
Díg * '.' ? Díg + ( (e | E) Díg + ) ?
14.2.4 BLANCOS.ER: expresión regular para los blancos de un texto
La expresión regular siguiente se especificará como entrada a AFD v
3.x. El sufijo a utilizar es Blancos.
// Expresión regular para blancos:
[ \n\r\f\t\v] +
14.2.5 NUMERO.CMM: generado por AFD v 3.x a partir de NUMERO.ER
Se lo incluye a modo de ejemplo.
// AFD generado por la versión 3.4 de ExpReg::Reasignar (Nov 95)
// Domingo Eduardo Becker, Sgo. del Estero, (085) 22-2488/1088.
# ifndef __EXPREG_H
# include "expreg.h"
# endif
static const char erNumero[] = "// Expresión regular para un número real
en formato C++:\r\n# Díg [0-9]\r\nDíg * \'.\' ? Díg + ( (e | E) Díg + )
?\r\n";
static const char * vcNumero[] = {
"0-9", ".", "e", "E"
};
static const Ent16ns tNumero[] = {
1,
2, TNDEF, TNDEF,
1,
2,
3,
3,
4, TNDEF, TNDEF, TNDEF,
5, TNDEF, TNDEF, TNDEF,
4, TNDEF,
3,
3,
5, TNDEF, TNDEF, TNDEF
};
static const Ent16ns efNumero[] = {
3, 1, 4, 5
};
AutomFinDet afdNumero = { erNumero, vcNumero, 4, tNumero, efNumero };
199
Una Calculadora Simple
14.2.6 BLANCOS.CMM: generado por AFD v 3.x a partir de BLANCOS.ER
Se lo incluye a modo de ejemplo.
// AFD generado por la versión 3.4 de ExpReg::Reasignar (Nov 95)
// Domingo Eduardo Becker, Sgo. del Estero, (085) 22-2488/1088.
# ifndef __EXPREG_H
# include "expreg.h"
# endif
static const char erNumero[] = "// Expresión regular para un número real
en formato C++:\r\n# Díg [0-9]\r\nDíg * \'.\' ? Díg + ( (e | E) Díg + )
?\r\n";
static const char * vcNumero[] = {
"0-9", ".", "e", "E"
};
static const Ent16ns tNumero[] = {
1,
2, TNDEF, TNDEF,
1,
2,
3,
3,
4, TNDEF, TNDEF, TNDEF,
5, TNDEF, TNDEF, TNDEF,
4, TNDEF,
3,
3,
5, TNDEF, TNDEF, TNDEF
};
static const Ent16ns efNumero[] = {
3, 1, 4, 5
};
AutomFinDet afdNumero = { erNumero, vcNumero, 4, tNumero, efNumero };
14.2.7 EVALUAR.CMM: función Evaluar
Obsérvese en este módulo la simplicidad del uso del analizador
sintáctico y del analizador lexicográfico generado.
// evaluar.cmm
Jue 07 Dic 95
// Domingo E. Becker
# include "calc.cmm" // generado a partir de calc.glc por SLR1 v 2.x
Ent8 Evaluar( const char * Formula, double & Resultado ) {
if (Formula == 0) return 0; // imposible evaluar Formula
alCalc.Reiniciar(Formula);
Ascii0 CadPosErr;
ErrDivPor0 = 0;
Ent8 r = asCalc.Analizar(alCalc, CadPosErr) && ! ErrDivPor0;
if (r) Resultado = ResultadoFinal;
return r;
}
14.3 Módulos dependientes del sistema operativo
La interfase en pantalla es la parte dependiente del sistema operativo de
la calculadora.
200
Una Calculadora Simple
Se eligió hacer un diálogo en el que habrá un campo de entrada de texto
en donde se escribirá la fórmula a evaluar, otro en donde se mostrará el
resultado, una lista de cadenas en donde se encuentren las últimas fórmulas
evaluadas y dos botones, uno para evaluar y otro para salir (ver figura 20).
Visualmente se ve lo siguiente:
Fig. 20 Ventana principal de la Calculadora.
La ventana ha sido construida usando el Resource Workshop del
Borland C++. AppExpert se encargó de realizar y controlar todas las
conexiones del diálogo con el código fuente que él mismo generó.
Se hace la observación de que todos los módulos pueden ser
recompilados sin ninguna modificación con el Borland C++ 2.0 para OS/2.
Sólo se debe procesar el archivo CALCAPP.RC con el convertidor de recursos
para convertirlo a formato Presentation Manager de OS/2 (el procesado es muy
simple).
Los módulos fuente generado se muestran a continuación.
14.3.1 CALCAPP.H: generado por AppExpert
#if !defined(__calcapp_h)
not already included.
#define __calcapp_h
/*
// Sentry, use file only if it's
Project calc
Copyright © 1995. All Rights Reserved.
201
Una Calculadora Simple
SUBSYSTEM:
FILE:
AUTHOR:
calc.exe Application
calcapp.h
Domingo Eduardo Becker
OVERVIEW
========
Class definition for TCalcApp (TApplication).
*/
#include <owl\owlpch.h>
#pragma hdrstop
#include "calcapp.rh"
// Definition of all resources.
//{{TApplication = TCalcApp}}
class TCalcApp : public TApplication {
private:
public:
TCalcApp ();
virtual ~TCalcApp ();
//{{TCalcAppVIRTUAL_BEGIN}}
public:
virtual void InitMainWindow();
//{{TCalcAppVIRTUAL_END}}
//{{TCalcAppRSP_TBL_BEGIN}}
protected:
void CmHelpAbout ();
//{{TCalcAppRSP_TBL_END}}
DECLARE_RESPONSE_TABLE(TCalcApp);
};
//{{TCalcApp}}
#endif
// __calcapp_h sentry.
14.3.2 CALCDLG.H: generado por AppExpert
#if !defined(__calcdlg_h)
not already included.
#define __calcdlg_h
/*
// Sentry, use file only if it's
Project calc
Copyright © 1995. All Rights Reserved.
SUBSYSTEM:
FILE:
AUTHOR:
calc.exe Application
calcdlg.h
Domingo Eduardo Becker
OVERVIEW
========
Class definition for TCalcDLGClient (TDialog).
*/
#include <owl\owlpch.h>
#pragma hdrstop
202
Una Calculadora Simple
#include <owl\edit.h>
#include <owl\listbox.h>
#include "calcapp.rh"
// Definition of all resources.
//{{TDialog = TCalcDLGClient}}
struct TCalcDLGClientXfer {
//{{TCalcDLGClientXFER_DATA}}
TListBoxData ListaDeFormulas;
//{{TCalcDLGClientXFER_DATA_END}}
};
class TCalcDLGClient : public TDialog {
public:
TCalcDLGClient (TWindow *parent, TResId resId = IDD_CLIENT, TModule
*module = 0);
virtual ~TCalcDLGClient ();
//{{TCalcDLGClientVIRTUAL_BEGIN}}
public:
virtual void SetupWindow ();
//{{TCalcDLGClientVIRTUAL_END}}
//{{TCalcDLGClientRSP_TBL_BEGIN}}
protected:
void Evaluar ();
void DobleClickLista ();
//{{TCalcDLGClientRSP_TBL_END}}
DECLARE_RESPONSE_TABLE(TCalcDLGClient);
//{{TCalcDLGClientXFER_DEF}}
protected:
TListBox *ListaDeFormulas;
//{{TCalcDLGClientXFER_DEF_END}}
};
//{{TCalcDLGClient}}
#endif
// __calcdlg_h sentry.
14.3.3 CALCAPP.CMM: generado por AppExpert
/*
Project calc
Copyright © 1995. All Rights Reserved.
SUBSYSTEM:
FILE:
AUTHOR:
calc.exe Application
calcapp.cmm
Domingo Eduardo Becker
OVERVIEW
========
Source file for implementation of TCalcApp (TApplication).
*/
#include <owl\owlpch.h>
#pragma hdrstop
#include "calcapp.h"
203
Una Calculadora Simple
#include "calcdlg.h"
// Definition of client class.
//{{TCalcApp Implementation}}
//
// Build a response table for all messages/commands handled
// by the application.
//
DEFINE_RESPONSE_TABLE1(TCalcApp, TApplication)
//{{TCalcAppRSP_TBL_BEGIN}}
EV_COMMAND(CM_HELPABOUT, CmHelpAbout),
//{{TCalcAppRSP_TBL_END}}
END_RESPONSE_TABLE;
//////////////////////////////////////////////////////////
// TCalcApp
// =====
//
TCalcApp::TCalcApp () : TApplication("Calculadora")
{
// INSERT>> Your constructor code here.
}
TCalcApp::~TCalcApp ()
{
// INSERT>> Your destructor code here.
}
//////////////////////////////////////////////////////////
// TCalcApp
// =====
// Application intialization.
//
void TCalcApp::InitMainWindow ()
{
//
if (nCmdShow != SW_HIDE)
//
nCmdShow = (nCmdShow != SW_SHOWMINNOACTIVE) ? SW_SHOWNORMAL :
nCmdShow;
TFrameWindow *frame = new TFrameWindow(0, GetName(), new
TCalcDLGClient(0), true);
// Override the default window style for the main window.
//
frame->Attr.Style |= WS_BORDER | WS_CAPTION | WS_CLIPCHILDREN |
WS_MINIMIZEBOX | WS_SYSMENU | WS_VISIBLE;
frame->Attr.Style &= ~(WS_MAXIMIZEBOX | WS_THICKFRAME);
//
// Assign ICON w/ this application.
//
frame->SetIcon(this, IDI_SDIAPPLICATION);
SetMainWindow(frame);
}
//////////////////////////////////////////////////////////
204
Una Calculadora Simple
// TCalcApp
// ===========
// Menu Help About calc.exe command
void TCalcApp::CmHelpAbout ()
{
}
int OwlMain (int , char* [])
{
try {
TCalcApp
app;
return app.Run();
}
catch (xmsg& x) {
::MessageBox(0, x.why().c_str(), "Exception", MB_OK);
}
return -1;
}
14.3.4 CALCDLG.CMM: generado por AppExpert y modificado por el autor
Usando Class Expert (del AppExpert) se agregaron respuestas al botón
Evaluar y al doble click con el ratón a una fórmula dentro de la lista de
fórmulas ya evaluadas. Las funciones se llaman TCalcDLGClient::Evaluar y
TCalcDLGClient::DobleClickLista respectivamente.
/*
Project calc
Copyright © 1995. All Rights Reserved.
SUBSYSTEM:
FILE:
AUTHOR:
calc.exe Application
calcdlg.cmm
Domingo Eduardo Becker
OVERVIEW
========
Source file for implementation of TCalcDLGClient (TDialog).
*/
#include <owl\owlpch.h>
#pragma hdrstop
#include "calcapp.h"
#include "calcdlg.h"
# include <ascii0.h>
Ent8 Evaluar( const char * Formula, double & Resultado );
//
// Build a response table for all messages/commands handled
// by the application.
//
DEFINE_RESPONSE_TABLE1(TCalcDLGClient, TDialog)
//{{TCalcDLGClientRSP_TBL_BEGIN}}
EV_BN_CLICKED(IDOK, Evaluar),
EV_LBN_DBLCLK(IDC_LISTAFORMULAS, DobleClickLista),
//{{TCalcDLGClientRSP_TBL_END}}
END_RESPONSE_TABLE;
205
Una Calculadora Simple
//{{TCalcDLGClient Implementation}}
//////////////////////////////////////////////////////////
// TCalcDLGClient
// ==========
// Construction/Destruction handling.
static TCalcDLGClientXfer TCalcDLGClientData;
TCalcDLGClient::TCalcDLGClient (TWindow *parent, TResId resId, TModule
*module)
: TDialog(parent, resId, module)
{
//{{TCalcDLGClientXFER_USE}}
ListaDeFormulas = new TListBox(this, IDC_LISTAFORMULAS);
SetTransferBuffer(&TCalcDLGClientData);
//{{TCalcDLGClientXFER_USE_END}}
// INSERT>> Your constructor code here.
}
TCalcDLGClient::~TCalcDLGClient ()
{
Destroy();
// INSERT>> Your destructor code here.
}
void TCalcDLGClient::Evaluar ()
{
// INSERT>> Your code here.
Ascii0 formula(300), resultadoAscii;
double resultado;
Ent8 r;
GetDlgItemText(IDC_FORMULA, formula, formula.TamBlq());
if (formula.Long()) {
if (::Evaluar(formula, resultado)) {
resultadoAscii = resultado;
SetDlgItemText(IDC_RESULTADO, resultadoAscii);
}
else SetDlgItemText(IDC_RESULTADO, "Error");
ListaDeFormulas->InsertString(formula, 0);
}
}
void TCalcDLGClient::DobleClickLista ()
{
// INSERT>> Your code here.
Ascii0 cad(300);
ListaDeFormulas->GetSelString(cad, cad.TamBlq());
if (cad.Long()) {
SetDlgItemText(IDC_FORMULA, cad);
TWindow(GetDlgItem(IDC_FORMULA)).SetFocus();
//
Formula->SetFocus();
}
}
void TCalcDLGClient::SetupWindow ()
{
TDialog::SetupWindow();
206
Una Calculadora Simple
//
}
// INSERT>> Your code here.
TWindow(GetDlgItem(IDC_FORMULA)).SetFocus();
Formula->SetFocus();
207
Consultas a Archivos Base de Datos BCE
Capítulo 15: Consultas a Archivos Base de Datos BCE
El ejemplo desarrollado en este capítulo es un ejemplo de recuperación
inteligente de la información en memoria. A tal efecto, antes se debe recuperar
la información de un archivo base de datos.
Cuando sea oportuno se mostrarán analogías con las sentencias de
consultas SQL (structured query language).
La Biblioteca BCE para C++ se usa aquí como una herramienta. El
Administrador de Archivos Bases de Datos BCE es parte de esa biblioteca, y
aunque su código fuente es incluido al final de este capítulo, su documentación
no se incluye.
15.1 Conceptos Teóricos Básicos
15.1.1 Bases de Datos
Un archivo base de datos es una colección de registros, en el que se
incluye principalmente información sobre la descripción de la estructura del
registro, así como también otra información que pueda ser importante.
Se puede representar por uno o más archivos del nivel del Sistema
Operativo, aunque usualmente, un archivo base de datos se representa con un
archivo del sistema operativo.
Se denomina archivo del sistema operativo al concepto de archivo
ofrecido por el mismo. Un archivo para el sistema operativo es una colección
de bytes, cada uno de los cuales pueden ser accedidos al azar como un vector
(si se desea) o bien secuencialmente, y de la E/S se encarga el Sistema
Operativo. En general, un archivo del sistema operativo reside en memoria
persistente (disco, cinta, etc.).
En la documentación de Paradox (cualquier versión) y dBase V, a los
archivos bases de datos se los denomina tablas. Una base de datos es una
colección de tablas (archivos bases de datos). Se denomina cursor al nombre
lógico usado para acceder a la tabla. Para una tabla, en una misma sesión
pueden haber varios cursores. La denominación de tabla proviene de la
confección manual de tablas que antes se hacía, un archivo base de datos debe
208
Consultas a Archivos Base de Datos BCE
ser visto como una tabla en donde las filas son los registros y las columnas son
los campos de los registros.
A continuación, archivo base de datos se abreviará ABD.
La razón de almacenar la descripción de la estructura del registro en el
archivo es la de obtener la independencia del código fuente de la estructura del
registro. Si no se usan ABDs, una vez escrito el código fuente, si la estructura
del registro cambia se debe retocar el código fuente. En cambio, si se usaran
ABDs, sólo se deben retocar los campos que cambiaron y/o agregar los
accesos a los campos nuevos.
El acceso a la implementación lógica del registro lo realiza el
Administrador de Archivos Bases de Datos. El administrador de bases de datos
trata con varias bases de datos a la vez; no debe ser confundido con el
administrador de ABDs. El acceso a la implementación física del registro en el
medio lo realiza el sistema operativo.
Para este ejemplo, se utilizará el Administrador de Archivos Bases de
Datos de la Biblioteca BCE, cuyo autor es quien suscribe. El código fuente se
incluye al final de este capítulo.
15.1.2 El Lenguaje de Consultas Estructurado (SQL)
Con la aparición de las bases de datos se hizo necesario un lenguaje
especial que pudiera describir transacciones con los mismos. Estos lenguajes
recibieron el nombre de lenguajes para bases de datos, de entre todos ellos, el
más popular es el del dBase, el cual fue definido por convención como el
estándar. Lamentablemente (para los programadores serios), ese lenguaje nació
como un engendro que no cumplía con los conceptos más básicos y
fundamentales de la ingeniería del software, pero era fácil de aprender y
entender para los novatos que no tenían ninguna idea de programación. (Si
resulta que un programador acostumbrado a trabajar con lenguajes como el
C++ aprende el dBase, lo primero que se le viene a la cabeza es decir que,
como lenguaje de programación, el dBase es un desastre. Esto no quita de que
sea posible realizar grandes proyectos de programación con él.). A todo esto
hay que agregarle que cada empresa que construía un paquete de bases de
datos comercial, hacía un lenguaje que se decía ser compatible dBase, lo cual
no resultó ser cierto.
Con el lenguaje de consultas estructurado se intentó unificar los criterios
y conceptos, así como también ofrecer un conjunto de comandos que permiten
209
Consultas a Archivos Base de Datos BCE
agregar, cambiar y borrar datos, y una gran habilidad para consultar sin
codificar demasiado. De todas las sentencias que tiene ese lenguaje, la más
interesante y difícil de implementar es la sentencia SELECT.
La sentencia SELECT selecciona registros de una base de datos de
acuerdo a ciertos criterios que se especifican con cláusulas. Entre esas
cláusulas se encuentra la cláusula LIKE que significa parecido a. La inclusión
de esta cláusula hace necesario el uso de expresiones regulares para especificar
la forma general a la que debe parecerse. El resultado de esta sentencia es una
nueva tabla que contiene los registros seleccionados. Queda a consideración
del diseñador del administrador de bases de datos si se creará la tabla nueva o
si se trabajará directamente con las tablas que participan en la sentencia
SELECT.
El lenguaje Object PAL de Paradox 1.0 para Windows en adelante,
incluye una sentencia muy interesante que comienza con la palabra clave
QUERY, y no es otra cosa que la codificación de una consulta mediante
ejemplos. En esa sentencia se incluye también la cláusula LIKE, con
posibilidades similares a la cláusula LIKE de una sentencia SELECT de SQL.
El resultado de una consulta con QUERY es una tabla, que tiene un nombre
físico por defecto si no se lo especifica.
En este ejemplo se simulará el funcionamiento del selector de registros
de un administrador de bases de datos que trabaja con un lenguaje SQL.
15.1.3 Niveles de Abstracción en el Administrador de Archivos Bases de
Datos BCE.
La clase Archivo define la interfase general y mínima de una clase que
se dice ser Archivo. En BCE un Archivo es un recipiente de bytes, con accesos
básicos de lectura y escritura para los tipos de datos fundamentales (se
consideran tipos de datos fundamentales a los tipos que provee el compilador).
La clase Archivo es abstracta, lo que significa que no se pueden definir
objetos de esta clase. Esta clase define el nivel más bajo de abstracción.
Cualquier detalle particular de una implementación deberá ser ocultado por la
clase derivada.
La clase ArchivoSO es una clase derivada de Archivo, en la que se dan
definiciones a las funciones virtuales puras declaradas en la clase base. Esta
clase sirve de interfase para el acceso a las funciones básicas para el manejo de
archivos en dispositivos de almacenamiento masivo ofrecidas por el Sistema
Operativo. Las funciones básicas que ofrece el sistema operativo son: abrir,
210
Consultas a Archivos Base de Datos BCE
leer, escribir, posicionar el puntero de archivo y cerrar. En ArchivoSO se
provee el acceso directo a estas funciones. Para la E/S de datos se provee la
posibilidad de controlar si será binaria o en formato texto. Si es binario, por
ejemplo para un float se escribiría sizeof(float) = 4 bytes, en cambio, si es en
formato entonces se pueden llegar a escribir hasta 32 bytes, que serán los
caracteres correspondientes a la representación en texto del número.
La clase ArchivoSO está en el mismo nivel de abstracción que la clase
Archivo, sólo es una implementación particular del concepto de archivo
introducido por BCE (que no es otra cosa que el mismo concepto introducido
por COBOL).
La clase ArchBD (que no es derivada de Archivo) implementa el
administrador de archivos bases de datos. El código del administrador son las
funciones miembro de esta clase. Cada objeto de esta clase es el nombre lógico
de un archivo base de datos; en Paradox o dBase se diría cursor. Para cada
archivo físico pueden haber varios cursores, esto es, varios objetos ArchBD
con los que se estén realizando accesos. Esta clase ofrece las siguientes
funciones básicas: abrir, leer registro, escribir registro, posicionar el puntero
de archivo, cerrar y acceder a un campo particular del registro. Esta clase está
en un nivel más alto de abstracción que la clase Archivo. En ArchBD los
accesos se hacen por bloques de bytes, todos del mismo tamaño, a los que se
los denomina registro. La estructura de los registros se incluye en el mismo
archivo físico.
15.1.4 Coincidencia exacta / ocurrencia
Dada una expresión que define un lenguaje (puede ser una expresión
regular o un literal), se dirá que hay coincidencia exacta entre una cadena de
caracteres y la expresión dada si la cadena de caracteres pertenece al lenguaje
definido por la expresión (es oración de ese lenguaje).
Por el contrario, se dirá que hay una ocurrencia de una oración del
lenguaje definido por la expresión dentro de la cadena de caracteres dada, si
existe alguna subcadena dentro de la cadena dada para la cual hay coincidencia
exacta con la expresión dada.
Para los usuarios normales de computadoras (que en general no son
programadores), las definiciones precedentes son más comprensibles que los
conceptos manejados en la Teoría de los Lenguajes Formales. Se los define
aquí para poder usarlos más adelante en este ejemplo.
211
Consultas a Archivos Base de Datos BCE
Se debe recordar que si la expresión dada es tomada como un literal, el
lenguaje definido por la misma tendrá sólo una oración. Puede tener más de
una oración si es tomada como expresión regular.
15.2 Análisis y Diseño
15.2.1 Objetivos y metas de este ejemplo
El objetivo de este ejemplo es el de acceder a un archivo base de datos
BCE, y permitir realizar una consulta para un solo campo del mismo.
Las metas para llegar al objetivo son:
1. Leer la estructura del registro y mostrar los campos del mismo en
pantalla, permitiendo la selección de un solo campo.
2. Definir una expresión que dirá cómo debe ser el contenido de un campo.
Asimismo, se incluirá la posibilidad de usar expresiones regulares y de
indicar si la concordancia debe ser exacta o que contenga.
3. Para todos los campos que cumplen con la expresión dada se mostrará el
número de registro y el contenido del campo en la pantalla.
15.2.2 Visión general del diseño de la interfase y el funcionamiento
La interfase en pantalla del programa es la siguiente:
212
Consultas a Archivos Base de Datos BCE
Fig. 21 Ventana principal del programa ejemplo de consultas
Al arrancar el programa se le pedirá al usuario que ingrese un nombre de
archivo o lo busque en los dispositivos de almacenamiento masivo. Una vez
hecho esto se muestra el nombre del archivo en el campo Archivo de la
ventana principal (ver Fig. 21). En la lista etiquetada con Campo a consultar
se muestran los campos del archivo seleccionado, de los cuales se deberá
seleccionar uno.
En el campo Expresión se debe ingresar la expresión a usar en la
consulta, la que puede ser un literal o una expresión regular (en ambos casos
es una cadena de caracteres). Si es una expresión regular, se debe chequear la
caja de chequeo etiquetada con Expresión Regular (aparecerá una cruz dentro
del cuadradito cuando esté chequeada, de manera similar a la que se muestra
en la misma Fig. 21).
Si la consulta a realizar es por coincidencia exacta, la caja de chequeo
etiquetada con Que contenga no debe estar chequeada. Si, en cambio, se busca
213
Consultas a Archivos Base de Datos BCE
una ocurrencia de una oración dentro del campo a consultar, la caja de
chequeo Que contenga debe estar chequeada (con una cruz).
Para realizar la consulta se debe presionar el botón Consultar. Para
poder consultar se debe ingresar la expresión regular y seleccionar el campo a
consultar, caso contrario habrá error. Una vez presionado el botón para
consultar, se limpiará la lista Registros que verifican y se la llenará con los
contenidos de los campos de los registros que verifican con la expresión
ingresada. Primero se colocará el número de registro y luego el valor del
campo.
En el único momento en que se mantiene abierto el archivo es cuando se
está realizando la consulta (desde el momento de presionar Consultar hasta el
momento en que se terminó de recorrer todo el archivo; luego se lo cierra). De
esta manera se minimiza el número de archivos abiertos en el sistema.
El botón Otro archivo permite seleccionar otro archivo base de datos. El
diálogo para ingresar el nombre es similar al que se muestra al arrancar el
programa, y es el estándar del API (application programming interfase) del
sistema. Al aceptar el nombre, se intenta abrir el archivo base de datos. Si no
hay problemas, se extraen los nombres de los campos y se los muestra en la
lista Campo a consultar (previo vaciado de la misma); luego se cierra el
archivo. Si no se puede abrir el archivo entonces se vuelve al estado anterior
de la pantalla principal.
15.2.3 Implementación de la carga de la lista de campos
La carga de la lista de campos la realiza la función ConsDlgClient::
CargarCampos, donde ConsDlgClient es la clase que representa a la ventana
principal.
Se intenta abrir el archivo base de datos cuyo nombre se pasa como
parámetro. Si la apertura del archivo no falla, se limpia la lista de campos y se
la llena con los campos del archivo que se acaba de abrir. Las funciones
utilizada para averiguar los campos son: ArchBD::NumCampos y
ArchBD::CampoNumero. La segunda devuelve el nombre del campo cuyo
índice se pasa como parámetro.
Al finalizar la carga de la lista de campos se cierra el archivo base de
datos.
214
Consultas a Archivos Base de Datos BCE
15.2.4 Implementación de la función que realiza la consulta
La función que recibe la petición del usuario de realizar una consulta
con los parámetros ingresados por pantalla es ConsDlgClient::Consultar. La
función que realiza la consulta se llama Consultar y es global.
El prototipo de la función Consultar es el siguiente:
Ent16 Consultar( const char * NomArchBD, const char * Campo,
TListBox * Registros,
const char * Expresion,
Ent8 EsExpReg = 1, Ent8 QueContenga = 1 );
El parámetro NomArchBD recibe el nombre del archivo base de datos a
consultar.
El parámetro Campo es el nombre del campo con el que se trabajará.
El parámetro Registros es una lista de cadenas de caracteres.
Inicialmente se la vaciará. Luego se la llenará con los registros cuyo campo
Campo cumple con la expresión dada en Expresion.
El parámetro Expresion contiene la expresión a usar para la consulta.
El parámetro EsExpReg contiene 0 si Expresion no es expresión
regular, y distinto de 0 si es expresión regular. El valor por defecto es que
Expresion es expresión regular.
El parámetro QueContenga tiene 0 si se buscará coincidencia exacta, y
distinto a 0 si se buscarán ocurrencias. El valor por defecto es buscar
ocurrencias.
Si se observa el código fuente de esta función (en el módulo
DLGCLI.CMM) se verá la simplicidad de la misma. Esta función sólo utiliza
funciones provistas por el Administrador de Archivos Bases de Datos BCE,
por la biblioteca ExpReg v 1.x y por la biblioteca estándar del C++.
Los registros se leen uno por uno. Para cada uno, se extrae el campo en
formato texto en una variable aparte del tipo Ascii0, con nombre
CampoRegAct. Luego, como el contenido del campo está en la memoria de la
máquina, entonces la recuperación inteligente de la información (consulta) se
la realiza en memoria.
Si EsExpReg entonces se utiliza un objeto ExpReg para realizar la
consulta. En este caso, si se buscan ocurrencias (QueContenga) entonces se
215
Consultas a Archivos Base de Datos BCE
usa la función ExpReg::Buscar, caso contrario se usa la función ExpReg::
Examinar. Estas dos funciones son de la biblioteca ExpReg.
Si no EsExpReg entonces se hace simple comparación de cadenas con
alguna función estándar del C++, a saber: si se buscan ocurrencias se utiliza la
función strstr, y si se busca coincidencia exacta entonces stricmp. Esta última
realiza comparación de cadenas asumiendo que las mayúsculas son iguales a
las minúsculas.
Si el campo seleccionado no es una cadena de caracteres (es algún otro
tipo que fue almacenado en formato binario), entonces la conversión a cadena
de caracteres se realiza automáticamente. Se utiliza la función ArchBD::
SacarCampoAutoConv, que convierte a texto automáticamente si el campo a
extraer es almacenado en formato binario. Esta función da soporte a todos los
tipos de datos fundamentales del C++, y trabaja conjuntamente con la clase
Ascii0 de BCE.
15.3 Módulos fuentes de este ejemplo
Gran parte de los módulos fuente han sido generado por AppExpert, el
generador de interfases de aplicaciones que utilizan OWL 2.x para Windows y
OS/2, del Turbo C++ 4.5 para Windows. La aplicación generada fue probada
en Windows. Procesando el archivo de recursos generado con el conversor de
recursos del Borland C++ 2.0 para OS/2 se lo puede recompilar sin problemas
y obtener una versión para OS/2 de este ejemplo.
Los módulos fuentes que han sido retocados por el autor a efectos de la
implementación del ejemplo son DLGCLI.CMM y DLGCLI.H.
A continuación se enumerarán los módulos fuentes.
15.3.1 DLGCLI.CMM: generado por AppExpert y modificado por el autor
/*
Project consulta
Copyright © 1996. All Rights Reserved.
SUBSYSTEM:
FILE:
AUTHOR:
consulta.exe Application
dlgcli.cmm
Domingo Eduardo Becker
OVERVIEW
========
Source file for implementation of ConsDlgClient (TDialog).
216
Consultas a Archivos Base de Datos BCE
*/
#include <owl\owlpch.h>
#pragma hdrstop
#include "consapp.h"
#include "dlgcli.h"
# include <owl\opensave.h>
# include <bd.h>
# include <expreg.h>
//
// Build a response table for all messages/commands handled
// by the application.
//
DEFINE_RESPONSE_TABLE1(ConsDlgClient, TDialog)
//{{ConsDlgClientRSP_TBL_BEGIN}}
EV_BN_CLICKED(IDC_CONSULTAR, Consultar),
EV_BN_CLICKED(IDC_CAMBIARARCH, CambiarArchivo),
//{{ConsDlgClientRSP_TBL_END}}
END_RESPONSE_TABLE;
//{{ConsDlgClient Implementation}}
//////////////////////////////////////////////////////////
// ConsDlgClient
// ==========
// Construction/Destruction handling.
static ConsDlgClientXfer ConsDlgClientData;
ConsDlgClient::ConsDlgClient (TWindow *parent, TResId resId, TModule
*module)
: TDialog(parent, resId, module)
{
//{{ConsDlgClientXFER_USE}}
ListaDeCampos = new TListBox(this, IDC_CAMPOS);
ListaDeRegistros = new TListBox(this, IDC_REGISTROS);
QueContenga = new TCheckBox(this, IDC_CONTENGA, 0);
EsExpReg = new TCheckBox(this, IDC_EXPREG, 0);
SetTransferBuffer(&ConsDlgClientData);
//{{ConsDlgClientXFER_USE_END}}
// INSERT>> Your constructor code here.
}
ConsDlgClient::~ConsDlgClient ()
{
Destroy();
// INSERT>> Your destructor code here.
}
const char NomArch[] = "agenda.bd";
int ConsDlgClient::CargarCampos( const char * NomArch, TListBox * Campos )
{
ArchBD arch;
if (arch.Abrir(NomArch, MA_L))
return CodError;
217
Consultas a Archivos Base de Datos BCE
Campos->ClearList();
Ent16ns i, NumCampos = arch.NumCampos();
for (i = 0; i < NumCampos; ++i)
ListaDeCampos->AddString( arch.CampoNumero(i)->Nombre );
arch.Cerrar();
return CodError;
}
void ConsDlgClient::SetupWindow ()
{
TDialog::SetupWindow();
// INSERT>> Your code here.
ListaDeCampos->ClearList();
ListaDeRegistros->ClearList();
QueContenga->SetCheck(BF_CHECKED);
EsExpReg->SetCheck(BF_CHECKED);
CambiarArchivo();
}
Ent16 Consultar( const char * NomArchBD, const char * Campo,
TListBox * Registros,
const char * Expresion, Ent8 EsExpReg = 1, Ent8
QueContenga = 1 ) {
// Si no hay campos seleccionados entonces Operación Inválida
if (Campo == 0 || ! *Campo || Expresion == 0)
return CodError = E_OPINV;
// Intentar abrir el archivo para Lectura
ArchBD arch;
if (arch.Abrir(NomArchBD, MA_L)) return CodError;
Registros->ClearList();
// Armar la expresión regular si es necesario:
ExpReg ExprRegular;
Ascii0 CadPosError;
if (EsExpReg && ! ExprRegular.Reasignar(Expresion, CadPosError))
return CodError = E_OPINV;
// Comienza la consulta:
Ascii0 Reg, CampoRegAct;
Ent8 Cumple;
Ent16ns i;
unsigned inicio, tam;
for (i = 0; ! arch.Leer(); ++i) {
// Sacamos el campo y lo convertimos en cadena de caracteres
if (arch.SacarCampoAutoConv(Campo, CampoRegAct)) break; // Error
// Consultar:
if (EsExpReg)
Cumple = QueContenga ?
tam) && tam
:
else
Cumple = QueContenga ?
!= 0
:
! ExprRegular.Buscar(CampoRegAct, inicio,
! ExprRegular.Examinar(CampoRegAct, 0, tam);
strstr((const char *) CampoRegAct, Expresion)
stricmp(CampoRegAct, Expresion) == 0;
// Si cumple agregarlo a la lista:
if (Cumple) {
Reg.printf("%u: %s", i, (char *) CampoRegAct);
218
Consultas a Archivos Base de Datos BCE
Registros->AddString(Reg);
}
}
arch.Cerrar();
return CodError = E_SINERROR;
}
void ConsDlgClient::Consultar ()
{
// INSERT>> Your code here.
// Obtener expresión regular:
Ascii0 Expr(100);
GetDlgItemText(IDC_EXPRESION, Expr, Expr.TamBlq());
// Obtener el nombre del campo a consultar:
Ascii0 NomCampo(100);
if (! ListaDeCampos->GetSelCount()) {
MessageBox("Seleccione un campo.", "ERROR", MB_ICONHAND | MB_OK);
return;
}
ListaDeCampos->GetSelString(NomCampo, NomCampo.TamBlq());
if (! NomCampo.Long()) {
MessageBox("No se pudo determinar el nombre del campo.", "ERROR",
MB_ICONHAND | MB_OK);
return;
}
// Llamar a la función que realiza la consulta:
if (::Consultar(NomArch, NomCampo, ListaDeRegistros, Expr,
EsExpReg->GetCheck() == BF_CHECKED,
QueContenga->GetCheck() == BF_CHECKED))
MessageBox("Problemas en función ::Consultar", "ERROR",
MB_OK | MB_ICONHAND);
}
void ConsDlgClient::CambiarArchivo ()
{
// INSERT>> Your code here.
Ascii0 NomArch(100);
TOpenSaveDialog::TData DatosDlg(OFN_HIDEREADONLY | OFN_FILEMUSTEXIST |
OFN_NOCHANGEDIR,
"Tipos ArchBD (*.BD)|*.bd|Todos los
archivos (*.*)|*.*|", 0, 0,"bd");
TFileOpenDialog dlg(this, DatosDlg);
if (dlg.Execute() == IDOK) {
if (CargarCampos(DatosDlg.FileName, ListaDeCampos))
MessageBox("El archivo no es tipo ArchBD", "ERROR",
MB_OK | MB_ICONHAND);
else
SetDlgItemText(IDC_NOMARCH, DatosDlg.FileName);
}
}
15.3.2 DLGCLI.H: generado por AppExpert y modificado por el autor
#if !defined(__dlgcli_h)
already included.
#define __dlgcli_h
// Sentry, use file only if it's not
219
Consultas a Archivos Base de Datos BCE
/*
Project consulta
Copyright © 1996. All Rights Reserved.
SUBSYSTEM:
FILE:
AUTHOR:
consulta.exe Application
dlgcli.h
Domingo Eduardo Becker
OVERVIEW
========
Class definition for ConsDlgClient (TDialog).
*/
#include <owl\owlpch.h>
#pragma hdrstop
#include <owl\checkbox.h>
#include <owl\listbox.h>
#include "consapp.rh"
// Definition of all resources.
//{{TDialog = ConsDlgClient}}
struct ConsDlgClientXfer {
//{{ConsDlgClientXFER_DATA}}
TListBoxData ListaDeCampos;
TListBoxData ListaDeRegistros;
bool
QueContenga;
bool
EsExpReg;
//{{ConsDlgClientXFER_DATA_END}}
};
class ConsDlgClient : public TDialog {
public:
ConsDlgClient (TWindow *parent, TResId resId = IDD_CLIENT, TModule
*module = 0);
virtual ~ConsDlgClient ();
int CargarCampos( const char * NomArch, TListBox * Campos );
//{{ConsDlgClientVIRTUAL_BEGIN}}
public:
virtual void SetupWindow ();
//{{ConsDlgClientVIRTUAL_END}}
//{{ConsDlgClientXFER_DEF}}
protected:
TListBox *ListaDeCampos;
TListBox *ListaDeRegistros;
TCheckBox *QueContenga;
TCheckBox *EsExpReg;
//{{ConsDlgClientXFER_DEF_END}}
//{{ConsDlgClientRSP_TBL_BEGIN}}
protected:
void Consultar ();
void CambiarArchivo ();
//{{ConsDlgClientRSP_TBL_END}}
DECLARE_RESPONSE_TABLE(ConsDlgClient);
};
//{{ConsDlgClient}}
#endif
// __dlgcli_h sentry.
220
Consultas a Archivos Base de Datos BCE
15.3.3 CONSAPP.CMM: generado por AppExpert
/*
Project consulta
Copyright © 1996. All Rights Reserved.
SUBSYSTEM:
FILE:
AUTHOR:
consulta.exe Application
consapp.cmm
Domingo Eduardo Becker
OVERVIEW
========
Source file for implementation of ConsultaApp (TApplication).
*/
#include <owl\owlpch.h>
#pragma hdrstop
#include "consapp.h"
#include "dlgcli.h"
// Definition of client class.
//{{ConsultaApp Implementation}}
//
// Build a response table for all messages/commands handled
// by the application.
//
DEFINE_RESPONSE_TABLE1(ConsultaApp, TApplication)
//{{ConsultaAppRSP_TBL_BEGIN}}
EV_COMMAND(CM_HELPABOUT, CmHelpAbout),
//{{ConsultaAppRSP_TBL_END}}
END_RESPONSE_TABLE;
//////////////////////////////////////////////////////////
// ConsultaApp
// =====
//
ConsultaApp::ConsultaApp () : TApplication("Principal")
{
// INSERT>> Your constructor code here.
}
ConsultaApp::~ConsultaApp ()
{
// INSERT>> Your destructor code here.
}
//////////////////////////////////////////////////////////
// ConsultaApp
// =====
// Application intialization.
//
void ConsultaApp::InitMainWindow ()
{
221
Consultas a Archivos Base de Datos BCE
if (nCmdShow != SW_HIDE)
nCmdShow = (nCmdShow != SW_SHOWMINNOACTIVE) ? SW_SHOWNORMAL :
nCmdShow;
TFrameWindow *frame = new TFrameWindow(0, GetName(), new
ConsDlgClient(0), true);
//
// Assign ICON w/ this application.
//
frame->SetIcon(this, IDI_SDIAPPLICATION);
SetMainWindow(frame);
}
//////////////////////////////////////////////////////////
// ConsultaApp
// ===========
// Menu Help About consulta.exe command
void ConsultaApp::CmHelpAbout ()
{
}
int OwlMain (int , char* [])
{
try {
ConsultaApp
app;
return app.Run();
}
catch (xmsg& x) {
::MessageBox(0, x.why().c_str(), "Exception", MB_OK);
}
return -1;
}
15.3.4 CONSAPP.H: generado por AppExpert
#if !defined(__consapp_h)
not already included.
#define __consapp_h
/*
// Sentry, use file only if it's
Project consulta
Copyright © 1996. All Rights Reserved.
SUBSYSTEM:
FILE:
AUTHOR:
consulta.exe Application
consapp.h
Domingo Eduardo Becker
OVERVIEW
========
Class definition for ConsultaApp (TApplication).
*/
#include <owl\owlpch.h>
#pragma hdrstop
#include "consapp.rh"
// Definition of all resources.
222
Consultas a Archivos Base de Datos BCE
//{{TApplication = ConsultaApp}}
class ConsultaApp : public TApplication {
private:
public:
ConsultaApp ();
virtual ~ConsultaApp ();
//{{ConsultaAppVIRTUAL_BEGIN}}
public:
virtual void InitMainWindow();
//{{ConsultaAppVIRTUAL_END}}
//{{ConsultaAppRSP_TBL_BEGIN}}
protected:
void CmHelpAbout ();
//{{ConsultaAppRSP_TBL_END}}
DECLARE_RESPONSE_TABLE(ConsultaApp);
};
//{{ConsultaApp}}
#endif
// __consapp_h sentry.
15.4 Fuentes del Administrador de Archivos Bases de Datos BCE
La biblioteca de soporte es la BCE.
Los módulos .CMM aquí listados son los del administrador de archivos
bases de datos. Se los debe compilar una vez y sólo #incluir el archivo
cabecera BD.H para el uso de la clase ArchBD. Para el encadenamiento se
deberán incluir los .OBJ generados a partir de los .CMM.
Los módulos .CMM contienen funciones cuya definición inline no era
conveniente. Se enumeran de 01 a 09.
15.4.1 BD.H: cabecera con las declaraciones necesarias
# ifndef __BD_H
# define __BD_H
// bd.h: declaración de clases para manejar archivos bases de dato
//
con formato BCE.
# ifndef __ARCHIVO_H
# include <archivo.h>
# endif
# ifndef __VECTOR_H
# include <vector.h>
# endif
// Definiciones de tipos de archivos base de datos:
223
Consultas a Archivos Base de Datos BCE
# define _ARCHBD
0
// Clase DescrCampoConstABD: una forma simple de describir un campo de un
// registro en forma de constante.
class DescrCampoConstABD {
public:
const char * Nombre;
Ent16ns TamCampo;
Ent8ns Tipo;
};
#
#
#
#
#
#
#
#
#
#
#
define
define
define
define
define
define
define
define
define
define
define
tdAscii0
0
tdEnt8
1
tdEnt8ns
2
tdEnt16
3
tdEnt16ns
4
tdEnt32
5
tdEnt32ns
6
tdfloat
7
tddouble
8
tdlongdouble 9
tdOtro
10
extern const Ent16ns TamTipo[tdOtro];
// Ejemplo de declaración de la descripción de un registro:
// DescrCampoConstABD EstrucReg[] = {
//
"Nombre", 30, tdAscii0
//
"DNI", sizeof(Ent32ns), tdEnt32ns // internamente un DNI se maneja
como Ent32ns
//
0, 0, 0
// indica el fin de la descripción
// };
// - El fin de la descripción siempre debe estar presente en una
descripción
//
de registro, la misma se indica por la terna 0,0,0.
// - Si TamCampo == 0 se debe asumir que el tamaño es sizeof(Tipo).
//
No se permite TamCampo = 0 para tdAscii0.
// - Los Tipos de campo se especifican usando el prefijo 'td' y el
//
tipo de dato que usted desea.
// - El Tipo de campo no es usado por la clase ArchBD, se incluye para
//
su uso durante la entrada de datos por pantalla. Si un campo es, por
//
ejemplo, de tipo tdfloat y el usuario lo maneja como tdEnt32 no hay
ningún
//
problema (tdfloat y tdEnt32 son ambos de 4 bytes de largo).
// - Una vista es una versión resumida o igual a la estructura del
registro
//
del archivo base de datos.
// Clase DescrCampo: descriptor de campo con cadenas manejadas por Ascii0.
class DescrCampoABD {
public:
Ascii0 Nombre;
Ent16ns TamCampo;
Ent8ns Tipo;
DescrCampoABD() { TamCampo = Tipo = 0; }
virtual ~DescrCampoABD() { }
};
ArchivoSO & operator << ( ArchivoSO & arch, const DescrCampoABD & dc );
ArchivoSO & operator >> ( ArchivoSO & arch, DescrCampoABD & dc );
224
Consultas a Archivos Base de Datos BCE
Ent16 EscrEstrReg( ArchivoSO & arch, const Vector<DescrCampoABD> & dc );
Ent16 LeerEstrReg( ArchivoSO & arch, Vector<DescrCampoABD> & dc );
// La
// En
// Si
// Si
Ent16
siguiente función global da soporte a PonerCampo y SacarCampo
Acceder:
Sentido == 0 se mueve así: EstrReg ===> BlqUsuario
Sentido != 0 se mueve así: EstrReg <=== BlqUsuario
Acceder( const char * NomCampo, void * Reg,
const DescrCampoABD * EstrReg, Ent16ns NumCampos,
void * BlqUsuario, Ent8 Sentido );
Ent16ns MoverReg( void * RegDes, const DescrCampoABD * dRegDes, Ent16ns
ncRegDes,
const void * RegFue, const DescrCampoABD * dRegFue,
Ent16ns ncRegFue );
const DescrCampoABD * BuscarDescr( const char * NomCampo,
const DescrCampoABD * EstrReg, Ent16ns
NumCampos,
Ent16ns * Despl = 0 );
Ent16ns TamCampo( const char * NomCampo,
const DescrCampoABD * EstrReg, Ent16ns NumCampos );
Ent8ns Tipo( const char * NomCampo, const DescrCampoABD * EstrReg,
Ent16ns NumCampos );
Ent16ns TamReg( const DescrCampoABD * EstrReg, Ent16ns NumCampos );
// devuelve el número de bytes de la vista EstrReg de un archivo base de
datos
Ent16 EsVista( const DescrCampoABD * EstrReg, Ent16ns NumCamposReg,
const DescrCampoABD * Vista, Ent16ns NumCamposVista );
// Clase ArchBD: significa archivo base de datos. Un archivo base de datos
nos da
// la independencia del código fuente de la estructura del registro del
archivo.
// Un archivo base de datos es también un archivo de tamaño de registro
fijo.
// En los sistemas administradores de bases de datos como Paradox o dBase
se los
// conoce como tablas. Un objeto ArchBD sería análogo a un cursor de esos
sitemas.
class ArchBD {
protected:
ArchivoSO Arch;
Vector<DescrCampoABD> EstrReg;
Ent16ns TamRegReal, TamReg_EstrReg, DesplInic;
BlqMem Buffer;
void Vaciar();
Ent16ns CalcTamReg();
Ent16ns FijarEstrRegInic( const DescrCampoConstABD * er );
Ent16 BorDes( Ent32 c, Ent16 bd );
virtual Ent16ns Control();
virtual Ent8 Tipo();
virtual Ent16ns LeerInfoCtrl();
virtual Ent16ns EscrInfoCtrl();
Ent16 Bloquear( Ent32 Desp, Ent32 Tam );
Ent16 Desbloquear( Ent32 Desp, Ent32 Tam );
Ent16 Escr( Ent8 ByteCtrlFijado );
public:
ArchBD();
225
Consultas a Archivos Base de Datos BCE
virtual ~ArchBD();
Ent16
Ent16
Ent16
Ent16
Abrir( const char * nombre, Ent8 e_s );
Crear( const char * nombre, const DescrCampoConstABD * er );
Crear( const char * nombre, Vector<DescrCampoABD> & er );
Cerrar();
Ent32ns PA(); // Devuelve el valor del Puntero de Archivo (pos actual)
Ent16 PosPA( Ent32ns NumReg ); // Posicionar el PA
ArchBD & operator [] ( Ent32 pos );
Ent16 Comienzo(); // lleva el pa al comienzo del archivo
Ent16 Final(); // lleva el pa al final del archivo
Ent32ns Tam(); // devuelve el tamaño del archivo en bytes
Ent16ns TamReg();
Ent32ns NumReg();
Ent16 Estado();
Ascii0 NomFis();
Ent16 VaciarBuffer() { return Arch.VaciarBuffer(); }
virtual Ent16 Leer(); // lee en Buffer. Luego se deben acceder a los
campos del registro.
virtual Ent16 Escr(); // escribe desde Buffer. Antes se deben acceder a
los campos del registro.
Ent16 Borrar( Ent32 CualReg );
Ent16 DesBorrar( Ent32 CualReg );
Ent16 Borrado(); // informa si el reg. leido está lógicamente borrado
Ent16 BloquearReg( Ent32 Reg );
Ent16 DesbloquearReg( Ent32 Reg );
// Para PonerCampo y SacarCampo, NomCampo debe ser un campo de la
// estructura del registro.
Ent16 PonerCampo( const char * NomCampo, const void * blq_externo );
Ent16 SacarCampo( const char * NomCampo, void * blq_externo ) const;
// PonerCampo no falla si TamCampo(NomCampo) != TamTipo[Tipo].
// En particular, si Tipo es Ascii0 falla cuando ! Cad.TamBlq().
Ent16 PonerCampo( const char * NomCampo, const Ascii0 & Cad );
Ent16 PonerCampo( const char * NomCampo, Ent8 n );
Ent16 PonerCampo( const char * NomCampo, Ent8ns n );
Ent16 PonerCampo( const char * NomCampo, Ent16 n );
Ent16 PonerCampo( const char * NomCampo, Ent16ns n );
Ent16 PonerCampo( const char * NomCampo, Ent32 n );
Ent16 PonerCampo( const char * NomCampo, Ent32ns n );
Ent16 PonerCampo( const char * NomCampo, float f );
Ent16 PonerCampo( const char * NomCampo, double d );
Ent16 PonerCampo( const char * NomCampo, long double ld );
Ent16 PonerCampoAutoConv( const char * NomCampo, const Ascii0 & Cad );
// SacarCampo falla si TamCampo(NomCampo) != TamTipo[Tipo].
// En particular, si Tipo es Ascii0 sólo falla cuando no hay memoria.
Ent16 SacarCampo( const char * NomCampo, Ascii0 & Cad ) const;
Ent16 SacarCampo( const char * NomCampo, Ent8 & n ) const;
Ent16 SacarCampo( const char * NomCampo, Ent8ns & n ) const;
Ent16 SacarCampo( const char * NomCampo, Ent16 & n ) const;
Ent16 SacarCampo( const char * NomCampo, Ent16ns & n ) const;
Ent16 SacarCampo( const char * NomCampo, Ent32 & n ) const;
Ent16 SacarCampo( const char * NomCampo, Ent32ns & n ) const;
Ent16 SacarCampo( const char * NomCampo, float & f ) const;
Ent16 SacarCampo( const char * NomCampo, double & d ) const;
Ent16 SacarCampo( const char * NomCampo, long double & ld ) const;
Ent16 SacarCampoAutoConv( const char * NomCampo, Ascii0 & Cad );
Ent16ns TamCampo( const char * NombreDelCampo ) const;
Ent8ns Tipo( const char * NombreDelCampo ) const;
226
Consultas a Archivos Base de Datos BCE
Ent16ns NumCampos() const;
const DescrCampoABD * CampoNumero( Ent16ns i ) const;
const char * CadInicial();
void CadInicial( const char * CadInic );
friend Ent16 Indexar( const char * NomArchBDFue,
const DescrCampoABD * EstrRegInd,
Ent16 (* fcmp)( const void * a, const void * b,
const DescrCampoABD * EstrRegInd
),
Ent8 AceptarRedundancia );
};
inline Ent16 ArchBD::Borrar( Ent32 cual ) {
return BorDes(cual, 1);
}
inline Ent16 ArchBD::DesBorrar( Ent32 cual ) {
return BorDes(cual, 0);
}
inline Ent16 ArchBD::PonerCampo( const char * NomCampo, const void *
blq_externo ) {
return ::Acceder(NomCampo, Buffer.Blq(), EstrReg, EstrReg.Tam, (void *)
blq_externo, 1);
}
inline Ent16 ArchBD::SacarCampo( const char * NomCampo, void * blq_externo
) const {
return ::Acceder(NomCampo, Buffer.Blq(), EstrReg, EstrReg.Tam,
blq_externo, 0);
}
inline Ent16 ArchBD::PonerCampo( const char * NomCampo, const Ascii0 & Cad
) {
return (! Cad.TamBlq()) ? CodError = E_OPINV : PonerCampo(NomCampo,
(const void *) Cad);
}
inline Ent16 ArchBD::PonerCampo( const char * NomCampo, Ent8 n ) {
return PonerCampo(NomCampo, & n);
}
inline Ent16 ArchBD::PonerCampo( const char * NomCampo, Ent8ns n ) {
return PonerCampo(NomCampo, & n);
}
inline Ent16 ArchBD::PonerCampo( const char * NomCampo, Ent16 n ) {
return PonerCampo(NomCampo, & n);
}
inline Ent16 ArchBD::PonerCampo( const char * NomCampo, Ent16ns n ) {
return PonerCampo(NomCampo, & n);
}
inline Ent16 ArchBD::PonerCampo( const char * NomCampo, Ent32 n ) {
return PonerCampo(NomCampo, & n);
}
inline Ent16 ArchBD::PonerCampo( const char * NomCampo, Ent32ns n ) {
return PonerCampo(NomCampo, & n);
}
inline Ent16 ArchBD::PonerCampo( const char * NomCampo, float f ) {
return PonerCampo(NomCampo, & f);
}
227
Consultas a Archivos Base de Datos BCE
inline Ent16 ArchBD::PonerCampo( const char * NomCampo, double d ) {
return PonerCampo(NomCampo, & d);
}
inline Ent16 ArchBD::PonerCampo( const char * NomCampo, long double ld ) {
return PonerCampo(NomCampo, & ld);
}
inline Ent16 ArchBD::SacarCampo( const char * NomCampo, Ascii0 & Cad )
const {
register Ent16ns tc = TamCampo(NomCampo);
if (! tc) return CodError = E_OPINV;
if (! Cad.Reasignar(tc + 1)) return CodError;
if (SacarCampo(NomCampo, (void *) Cad)) return CodError;
register char * p = Cad;
p[tc] = 0; // asegura terminación en 0 de la cadena Ascii.
return CodError = E_SINERROR;
}
inline Ent16 ArchBD::SacarCampo( const char * NomCampo, Ent8 & n ) const {
if (TamCampo(NomCampo) != TamTipo[tdEnt8]) return CodError = E_OPINV;
return SacarCampo(NomCampo, & n);
}
inline Ent16 ArchBD::SacarCampo( const char * NomCampo, Ent8ns & n ) const
{
if (TamCampo(NomCampo) != TamTipo[tdEnt8ns]) return CodError = E_OPINV;
return SacarCampo(NomCampo, & n);
}
inline Ent16 ArchBD::SacarCampo( const char * NomCampo, Ent16 & n ) const
{
if (TamCampo(NomCampo) != TamTipo[tdEnt16]) return CodError = E_OPINV;
return SacarCampo(NomCampo, & n);
}
inline Ent16 ArchBD::SacarCampo( const char * NomCampo, Ent16ns & n )
const {
if (TamCampo(NomCampo) != TamTipo[tdEnt16ns]) return CodError = E_OPINV;
return SacarCampo(NomCampo, & n);
}
inline Ent16 ArchBD::SacarCampo( const char * NomCampo, Ent32 & n ) const
{
if (TamCampo(NomCampo) != TamTipo[tdEnt32]) return CodError = E_OPINV;
return SacarCampo(NomCampo, & n);
}
inline Ent16 ArchBD::SacarCampo( const char * NomCampo, Ent32ns & n )
const {
if (TamCampo(NomCampo) != TamTipo[tdEnt32ns]) return CodError = E_OPINV;
return SacarCampo(NomCampo, & n);
}
inline Ent16 ArchBD::SacarCampo( const char * NomCampo, float & f ) const
{
if (TamCampo(NomCampo) != TamTipo[tdfloat]) return CodError = E_OPINV;
return SacarCampo(NomCampo, & f);
}
inline Ent16 ArchBD::SacarCampo( const char * NomCampo, double & d ) const
{
if (TamCampo(NomCampo) != TamTipo[tddouble]) return CodError = E_OPINV;
return SacarCampo(NomCampo, & d);
}
228
Consultas a Archivos Base de Datos BCE
inline Ent16 ArchBD::SacarCampo( const char * NomCampo, long double & ld )
const {
if (TamCampo(NomCampo) != TamTipo[tdlongdouble]) return CodError =
E_OPINV;
return SacarCampo(NomCampo, & ld);
}
inline Ent16ns ArchBD::TamReg() {
return TamReg_EstrReg;
}
inline Ent16ns ArchBD::TamCampo( const char * NombreDelCampo ) const {
return ::TamCampo(NombreDelCampo, EstrReg, EstrReg.Tam);
}
inline Ent8ns ArchBD::Tipo( const char * NombreDelCampo ) const {
return ::Tipo(NombreDelCampo, EstrReg, EstrReg.Tam);
}
inline ArchBD & ArchBD::operator [] ( Ent32 pos ) {
PosPA(pos);
return *this;
}
inline Ent16 ArchBD::Comienzo() {
return PosPA(0);
}
inline Ent16 ArchBD::Final() {
return PosPA(NumReg());
}
inline Ent32ns ArchBD::Tam() {
return Arch.Tam();
}
inline Ent16ns ArchBD::NumCampos() const {
return EstrReg.Tam;
}
inline const DescrCampoABD * ArchBD::CampoNumero( Ent16ns i ) const {
return i < EstrReg.Tam ? & EstrReg[i] : 0;
}
inline Ent16 ArchBD::Bloquear( Ent32 desp, Ent32 tam ) {
return Arch.Bloquear(desp, tam);
}
inline Ent16 ArchBD::Desbloquear( Ent32 desp, Ent32 tam ) {
return Arch.Desbloquear(desp, tam);
}
inline Ent16 ArchBD::BloquearReg( Ent32 Reg ) {
return Bloquear(Reg * TamRegReal + DesplInic, TamRegReal);
}
inline Ent16 ArchBD::DesbloquearReg( Ent32 Reg ) {
return Desbloquear(Reg * TamRegReal + DesplInic, TamRegReal);
}
inline Ent16 ArchBD::Estado() {
return Arch.Estado();
}
inline Ascii0 ArchBD::NomFis() {
return Arch.NomFis();
229
Consultas a Archivos Base de Datos BCE
}
// Funciones globales ...................................................
// Funciones Acceder() para const void *
inline Ent16 Acceder( const char * NomCampo,
const void * fueNOdesSI, void * desNOfueSI,
Ent16 Sentido, const DescrCampoABD * EstrReg ) {
return (Sentido != 0)
? CodError = E_OPINV
: Acceder(NomCampo, (void *) fueNOdesSI, desNOfueSI, Sentido,
EstrReg);
}
# endif // # ifndef __bd_h
15.4.2 ABD01.CMM
// abd01.cmm
Jueves 11 de marzo de 1993
// Copyright (c) 1993 by Domingo Eduardo Becker.
// All rights reserved.
# include "bd.h"
static char CadInicDef[] = "Archivo Base de Datos.\n\rBiblioteca de clases
BCE.";
ArchBD::ArchBD() {
TamRegReal = TamReg_EstrReg = DesplInic = 0;
}
ArchBD::~ArchBD() {
Cerrar();
}
Ent16ns ArchBD::Control() {
return 1; // 1 byte para verificar si se ha borrado lógicamente el
registro
}
Ent8 ArchBD::Tipo() {
return _ARCHBD;
}
void ArchBD::Vaciar() {
Buffer.Vaciar();
EstrReg.Vaciar();
TamRegReal = TamReg_EstrReg = DesplInic = 0;
}
Ent16ns ArchBD::CalcTamReg() {
TamReg_EstrReg = ::TamReg(EstrReg, EstrReg.Tam);
TamRegReal = TamReg_EstrReg + Control();
return TamReg_EstrReg;
}
Ent16ns ArchBD::FijarEstrRegInic( const DescrCampoConstABD * er ) {
if (er == 0) {
CodError = E_ERNODEF;
return 0;
230
Consultas a Archivos Base de Datos BCE
}
// Contar cuantos campos hay:
Ent16ns n;
const DescrCampoConstABD * pdc = er;
for (n = 0; pdc->TamCampo; ++n, ++pdc);
// Pedir memoria:
if (! EstrReg.Reasignar(n)) {
CodError = E_NOHAYMEMORIA;
return 0;
}
// Asignar la estructura:
for (n = 0, pdc = er; n < EstrReg.Tam; ++n, ++pdc) {
EstrReg[n].Nombre = pdc->Nombre;
EstrReg[n].Tipo = pdc->Tipo;
EstrReg[n].TamCampo = pdc->TamCampo ? pdc->TamCampo :
TamTipo[pdc->Tipo];
}
CalcTamReg();
CodError = E_SINERROR;
return n;
}
Ent16ns ArchBD::EscrInfoCtrl() {
Ent32 PAInic;
Ascii0 cad;
if (! EstrReg.Tam || ! TamReg_EstrReg)
return CodError = E_ERNODEF, 0;
PAInic = Arch.PA();
EscrCadCab(Arch, CadInicDef);
// Para verificación
Arch.ArchivoSO::operator << ( Tipo() );
// Para seguridad en acceso
Arch << TamRegReal;
// Ahora se escribe la descripción del registro
EscrEstrReg(Arch, EstrReg); // comienza a escribir la descripción de
los registros
return Arch.PA() - PAInic;
}
Ent16ns ArchBD::LeerInfoCtrl() {
Ent32ns PAInic = Arch.PA();
if (CodError) return 0;
SaltearCab(Arch);
// Comprobar el tipo
Ent8 t;
Arch >> (t);
if (CodError || t != Tipo())
return CodError = E_ARCHINV, 0;
// Leer el tamaño del registro
Ent16ns TamRegDisco;
Arch >> TamRegDisco; // lee verdadero tamaño de registro
// Leer descripción de los campos:
LeerEstrReg(Arch, EstrReg);
231
Consultas a Archivos Base de Datos BCE
if (! CalcTamReg() || TamRegReal != TamRegDisco)
return CodError = E_ARCHINV, 0;
return Arch.PA() - PAInic;
}
Ent16 ArchBD::Abrir( const char * nom, Ent8 L_E ) {
if (Arch.Estado() != MA_C) return CodError = E_ABIERTO;
if (L_E == MA_E || L_E == MA_A) L_E = MA_L_E;
if (ExisteArch(nom)) {
if (! Arch.Abrir(nom, L_E))
DesplInic = LeerInfoCtrl();
}
else CodError = E_OPINV;
if (! CodError) {
if (! Buffer.Reasignar(TamRegReal)) {
Cerrar();
CodError = E_NOHAYMEMORIA;
}
}
return CodError;
}
Ent16 ArchBD::Crear( const char * nombre, const DescrCampoConstABD * er )
{
if (Arch.Estado() != MA_C) return CodError = E_ABIERTO;
if (! FijarEstrRegInic(er))
return CodError;
if (Arch.AbrirExt(nombre, A_LEERESCR | A_CREAR | A_VACIAR | A_BINARIO))
return CodError;
DesplInic = EscrInfoCtrl();
if (! CodError) {
if (! Buffer.Reasignar(TamRegReal)) {
Cerrar();
CodError = E_NOHAYMEMORIA;
}
}
return CodError;
}
Ent16 ArchBD::Crear( const char * nombre, Vector<DescrCampoABD> & er ) {
if (Arch.Estado() != MA_C) return CodError = E_ABIERTO;
EstrReg << er;
if (! CalcTamReg()) return CodError = E_ERNODEF;
if (Arch.AbrirExt(nombre, A_LEERESCR | A_CREAR | A_VACIAR | A_BINARIO))
return CodError;
DesplInic = EscrInfoCtrl();
if (! CodError) {
if (! Buffer.Reasignar(TamRegReal)) {
Cerrar();
CodError = E_NOHAYMEMORIA;
}
}
232
Consultas a Archivos Base de Datos BCE
return CodError;
}
Ent16 ArchBD::Cerrar() {
Vaciar();
return Arch.Cerrar();
}
Ent16 ArchBD::Leer() {
if (Arch.Estado() == MA_C) return CodError = E_CERRADO;
Arch.Leer(Buffer.Blq(), TamRegReal);
return CodError;
}
Ent16 ArchBD::Escr( Ent8 ByteCtrlFijado ) {
if (Arch.Estado() == MA_C) return CodError = E_CERRADO;
if (! ByteCtrlFijado) {
register char * preg = (char *) Buffer.Blq();
preg[TamReg_EstrReg] = 0; // no está lógicamente borrado
}
Arch.Escr(Buffer.Blq(), TamRegReal);
return CodError;
}
Ent16 ArchBD::Escr() {
return Escr(0); // por defecto asume que no está logicamente borrado
}
//Ent16 ArchBD::Rescr() {
// if (Arch.Estado() == MA_C) return CodError = E_CERRADO;
// return Arch.Rescr(Buffer.Blq(), TamRegReal);
//}
Ent16 ArchBD::Borrado() {
if (Arch.Estado() == MA_C) return CodError = E_CERRADO;
register char * preg = (char *) Buffer.Blq();
return preg[TamReg_EstrReg];
}
Ent16 ArchBD::BorDes( Ent32 cual, Ent16 bsidno ) {
if (PosPA(cual)) return CodError;
if (Leer()) return CodError;
Ent8 borrado = Borrado();
if (bsidno && borrado || ! bsidno && ! borrado)
return CodError = E_YAHECHO;
register char * preg = (char *) Buffer.Blq();
preg[TamReg_EstrReg] = bsidno;
PosPA(cual);
return Escr(1);
}
Ent32ns ArchBD::PA() {
Ent32ns pa = Arch.PA();
if (CodError) return 0;
return (pa - DesplInic) / TamRegReal;
}
Ent16 ArchBD::PosPA( Ent32ns nr ) {
Ent32ns pa = nr * TamRegReal + DesplInic;
return Arch.PosPA(pa);
}
Ent32ns ArchBD::NumReg() {
Ent32ns tamarch;
tamarch = Tam();
233
Consultas a Archivos Base de Datos BCE
if (! tamarch || ! TamRegReal) return 0;
return (tamarch - DesplInic) / TamRegReal;
}
15.4.3 ABD02.CMM
// abd02.cmm
Miércoles 5 de junio de 1993
// Copyright (c) 1993 by Domingo Eduardo Becker.
// All rights reserved.
# include "bd.h"
# include <string.h>
Ent16 Acceder( const char * nomcampo, void * Reg, const DescrCampoABD *
er, Ent16ns nc,
void * BlqUsuario, Ent8 s ) {
if (Reg == 0 || BlqUsuario == 0)
return CodError = E_OPINV;
Ent16ns des;
register const DescrCampoABD * pdc = BuscarDescr(nomcampo, er,nc, &
des);
if (pdc == 0)
return CodError = des ? E_CAMPOINEXIST : E_OPINV;
if (! s) memmove(BlqUsuario, (char *) Reg + des, pdc->TamCampo);
else memmove((char *) Reg + des, BlqUsuario, pdc->TamCampo);
return CodError = E_SINERROR;
}
15.4.4 ABD03.CMM
// abd03.cmm
Miércoles 5 de junio de 1993
// Copyright (c) 1993 by Domingo Eduardo Becker.
// All rights reserved.
# include <string.h>
# include "bd.h"
const DescrCampoABD * BuscarDescr( const char * nomcampo,
const DescrCampoABD * er, Ent16ns nc,
Ent16ns * Despl ) {
if (Despl != 0) *Despl = 0; // inicializar en 0 por las dudas
if (! nc || er == 0 || nomcampo == 0) return 0;
register const DescrCampoABD * paux;
register Ent16ns i, des;
for (paux = er, i = des = 0; i < nc; ++paux, ++i)
if (! stricmp(nomcampo, paux->Nombre)) break; // salir del for
else des += paux->TamCampo;
if (Despl != 0) *Despl = des; // si pide Despl, devolver
return i < nc ? paux : 0;
}
Ent16ns TamCampo( const char * NomCampo, const DescrCampoABD * EstrReg,
Ent16ns NumCampos ) {
234
Consultas a Archivos Base de Datos BCE
register const DescrCampoABD * p = BuscarDescr(NomCampo, EstrReg,
NumCampos);
return p != 0 ? p->TamCampo : 0;
}
Ent8ns Tipo( const char * NomCampo, const DescrCampoABD * EstrReg,
Ent16ns NumCampos ) {
register const DescrCampoABD * p = BuscarDescr(NomCampo, EstrReg,
NumCampos);
return p != 0 ? p->Tipo : 0;
}
15.4.5 ABD04.CMM
// abd04.cmm
Viernes 7 de mayo de 1993
// Copyright (c) 1993 by Domingo Eduardo Becker.
// All rights reserved.
# include "bd.h"
Ent16ns TamReg( const DescrCampoABD * EstrReg, Ent16ns NumCampos ) {
if (! NumCampos || EstrReg == 0) return 0;
register const DescrCampoABD * er = EstrReg;
register Ent16ns i, tamreg;
for (tamreg = i = 0; i < NumCampos; ++er, ++i)
tamreg += er->TamCampo;
return tamreg;
}
15.4.6 ABD05.CMM
// abd05.cmm
Jueves 11 de marzo de 1993
// Copyright (c) 1993 by Domingo Eduardo Becker.
// All rights reserved.
# include "bd.h"
Ent16ns MoverReg( void * RegDes, const DescrCampoABD * dRegDes, Ent16ns
ncRegDes,
const void * RegFue, const DescrCampoABD * dRegFue,
Ent16ns ncRegFue ) {
if (RegDes == 0 || dRegDes == 0 || ! ncRegDes ||
RegFue == 0 || dRegFue == 0 || ! ncRegFue )
return 0;
register const DescrCampoABD * pdRegDes;
register char * pRegDes = (char *) RegDes;
register Ent16ns i, nc;
for (i = nc = 0, pdRegDes = dRegDes; i < ncRegDes; ++i, ++pdRegDes) {
if (! Acceder(pdRegDes->Nombre, (void *) RegFue, dRegFue, ncRegFue,
pRegDes, 0))
++nc; // un campo más copiado
pRegDes += pdRegDes->TamCampo; // avanza el puntero al campo destino
siguiente
++pdRegDes;
}
return nc;
}
235
Consultas a Archivos Base de Datos BCE
15.4.7 ABD06.CMM
// abd06.cmm
Viernes 7 de mayo de 1993
// Copyright (c) 1993 by Domingo Eduardo Becker.
// All rights reserved.
# include "bd.h"
Ent16 EsVista( const DescrCampoABD * EstrReg, Ent16ns NumCamposReg,
const DescrCampoABD * Vista, Ent16ns NumCamposVista ) {
register const DescrCampoABD * pv = Vista;
register Ent16ns i;
for (i = 0; i < NumCamposVista; ++i, ++pv)
if (pv->TamCampo != TamCampo(pv->Nombre, EstrReg, NumCamposReg))
break;
return ! pv->TamCampo;
}
15.4.8 ABD07.CMM
// abd07.cmm
Mar 09 Ene 96
// Copyright (c) 1993 by Domingo Eduardo Becker.
// All rights reserved.
# include "bd.h"
Ent16 EscrEstrReg( ArchivoSO & arch, const Vector<DescrCampoABD> & dc ) {
arch << dc.Tam;
for (Ent16ns i = 0; i < dc.Tam; ++i)
arch << dc[i];
return CodError;
}
Ent16 LeerEstrReg( ArchivoSO & arch, Vector<DescrCampoABD> & dc ) {
Ent16ns i,n;
arch >> n;
if (! dc.Reasignar(n)) {
CodError = ! i ? E_SINERROR : E_NOHAYMEMORIA;
return CodError;
}
for (i = 0; i < n; ++i)
arch >> dc[i];
return CodError;
}
ArchivoSO & operator << ( ArchivoSO & arch, const DescrCampoABD & dc ) {
arch << dc.Nombre << dc.TamCampo << dc.Tipo;
return arch;
}
ArchivoSO & operator >> ( ArchivoSO & arch, DescrCampoABD & dc ) {
arch >> dc.Nombre >> dc.TamCampo >> dc.Tipo;
return arch;
}
236
Consultas a Archivos Base de Datos BCE
15.4.9 ABD08.CMM
// abd08.cmm
Vie 19 Ene 96
// Copyright (c) 1996 by Domingo Eduardo Becker.
// All rights reserved.
# include "bd.h"
const Ent16ns TamTipo[tdOtro] = {
0,
sizeof(Ent8), sizeof(Ent8ns),
sizeof(Ent16), sizeof(Ent16ns),
sizeof(Ent32), sizeof(Ent32ns),
sizeof(float), sizeof(double), sizeof(long double)
};
15.4.10 ABD09.CMM
// abd09.cmm
Lun 22 Ene 96
// Copyright (c) 1996 by Domingo Eduardo Becker.
// All rights reserved.
# include "bd.h"
Ent16 ArchBD::PonerCampoAutoConv( const char * NomCampo, const Ascii0 &
Cad ) {
Ent8ns TipoDelCampo = Tipo(NomCampo);
Ent8 ent8;
Ent8ns ent8ns;
Ent16 ent16;
Ent16ns ent16ns;
Ent32 ent32;
Ent32ns ent32ns;
float f;
double d;
switch (TipoDelCampo) {
case tdAscii0:
PonerCampo(NomCampo, Cad);
break;
case tdEnt8:
ent8 = Cad;
PonerCampo(NomCampo, ent8);
break;
case tdEnt8ns:
ent8ns = Cad;
PonerCampo(NomCampo, ent8ns);
break;
case tdEnt16:
ent16 = Cad;
PonerCampo(NomCampo, ent16);
break;
case tdEnt16ns:
ent16ns = Cad;
PonerCampo(NomCampo, ent16ns);
break;
237
Consultas a Archivos Base de Datos BCE
case tdEnt32:
ent32 = Cad;
PonerCampo(NomCampo, ent32);
break;
case tdEnt32ns:
ent32ns = Cad;
PonerCampo(NomCampo, ent32ns);
break;
case tdfloat:
f = Cad;
PonerCampo(NomCampo, f);
break;
case tddouble:
d = Cad;
PonerCampo(NomCampo, d);
break;
default:
CodError = E_OPINV;
}
return CodError;
}
Ent16 ArchBD::SacarCampoAutoConv( const char * NomCampo, Ascii0 & Cad ) {
Ent8ns TipoDelCampo = Tipo(NomCampo);
Ent8 ent8;
Ent8ns ent8ns;
Ent16 ent16;
Ent16ns ent16ns;
Ent32 ent32;
Ent32ns ent32ns;
float f;
double d;
switch (TipoDelCampo) {
case tdAscii0:
SacarCampo(NomCampo, Cad);
break;
case tdEnt8:
if (! SacarCampo(NomCampo, ent8))
Cad = ent8;
break;
case tdEnt8ns:
if (! SacarCampo(NomCampo, ent8ns))
Cad = ent8ns;
break;
case tdEnt16:
if (! SacarCampo(NomCampo, ent16))
Cad = ent16;
break;
case tdEnt16ns:
if (! SacarCampo(NomCampo, ent16ns))
Cad = ent16ns;
break;
case tdEnt32:
if (! SacarCampo(NomCampo, ent32))
Cad = ent32;
238
Consultas a Archivos Base de Datos BCE
break;
case tdEnt32ns:
if (! SacarCampo(NomCampo, ent32ns))
Cad = ent32ns;
break;
case tdfloat:
if (! SacarCampo(NomCampo, f))
Cad = f;
break;
case tddouble:
if (! SacarCampo(NomCampo, d))
Cad = d;
break;
default:
CodError = E_OPINV;
}
return CodError;
}
239
Un traductor sencillo para un lenguaje simple
Capítulo 16: Un traductor sencillo para un lenguaje simple
El traductor que se desarrollará como ejemplo en este capítulo, pretende
mostrar el uso de los generadores SLR1 y AFD. No pretende ser un traductor
profesional de un lenguaje sofisticado como los que hay actualmente en el
mercado.
No se pone énfasis en el desarrollo profesional de un traductor, sino en
tratar de hacer entender cómo se debe proceder con las herramientas SLR1 y
AFD en el desarrollo de un traductor.
A los efectos de mostrar el correcto funcionamiento del código
generado, se desarrolló un intérprete para ése código generado.
16.1 Objetivos y metas
El objetivo es escribir un traductor de un lenguaje simple. Para poder
probar el código generado, como no es código directamente ejecutable por la
computadora, se escribirá también un intérprete para el código objeto.
Las metas para llegar a esos dos objetivos son:
1. Describir el lenguaje. Se utilizará una gramática libre de contexto para
describir la estructura del lenguaje.
2. Describir el lenguaje objeto, al que se traducirá cada oración del
lenguaje fuente.
3. Describir el esquema de traducción, esto es, se escribirán las acciones
semánticas que se encargarán de realizar la traducción.
4. Implementar el traductor.
5. Escribir el intérprete: diseñar e implementar el intérprete y su interfase.
6. Escribir la guía del usuario y manual de referencia del programador del
lenguaje simple.
240
Un traductor sencillo para un lenguaje simple
16.2 Estructura del Lenguaje
La estructura del lenguaje queda perfectamente definido por la siguiente
gramática libre de contexto, dada en formato SLR1 v 2.x:
Leng --> Decl Sents ;
Decl --> 'Var' Idents ';'| ;
Idents --> MásIdents Ident ;
MásIdents --> Idents ',' | ;
Sents ---> Sents SentPC | SentPC ; // SentPC es sentencia y punto y coma
SentPC --> Sent ';' ;
Sent ---> Asignación | Mientras | Repetir ;
Asignación --> Ident '=' Expresión ;
Mientras --> 'Mientras' Expresión 'hacer' Sents 'Fin' ;
Repetir ---> 'Repetir' Sents 'Hasta' Expresión ;
Expresión --> ExprLogicaO ;
ExprLogicaO -> ExprLogicaO '||' ExprLogicaY | ExprLogicaY ;
ExprLogicaY -> ExprLogicaY '&&' ExprRelacional | ExprRelacional ;
ExprRelacional ->
|
|
|
|
|
|
ExprRelacional
ExprRelacional
ExprRelacional
ExprRelacional
ExprRelacional
ExprRelacional
ExprArit ;
'==' ExprArit
'!=' ExprArit
'<' ExprArit
'<=' ExprArit
'>' ExprArit
'>=' ExprArit
ExprArit ---> ExprArit '+' Producto
| ExprArit '-' Producto
| Producto ;
Producto ---> Producto '*' Factor
| Producto '/' Factor
| Factor ;
Factor -----> Ident | Real | '-' Factor | '!' Factor | '(' Expresión ')' ;
Esta gramática será luego modificada para poder introducir acciones
semánticas para realizar la traducción.
Los símbolos terminales, cuya estructura no está especificada en la
gramática precedente, serán tratados con AFDs generados a partir de las
siguientes expresiones regulares (se usa formato AFD v 3.x):
Ident
// Exp reg para describir un identificador:
# Letra [a-zA-Z_áéíóúñÑüÜ]
# Digito [0-9]
241
Un traductor sencillo para un lenguaje simple
Letra (Letra | Digito)*
Un identificador comienza con una Letra y continúa opcionalmente con
una combinación finita de Letras y Digitos. Por lo menos tiene la longitud de
un caracter.
Real
// Expresión regular para un número real en formato C++:
# Díg [0-9]
Díg * '.' ? Díg + ( (e | E) Díg + ) ?
Los números reales definidos por la expresión regular precedente son
similares a los de punto flotante del C++. El conjunto de números definido es:
reales positivos con el 0.
El signo '-' (menos) unario es tomado como operador.
Para la escritura de una oración del lenguaje fuente se contempla la
posibilidad de agregar secuencias de longitud variable de blancos entre
símbolos terminales, así como también la posibilidad de insertar comentarios
similares a los del C++.
Blancos
// Expresión regular para blancos:
[ \n\r\f\t\v] +
Comentarios
// Exp reg para comentarios similares a éste:
/ / .*
El programa siguiente es una oración ejemplo del lenguaje:
// comentario
Var a,b,c;
a = 12 + 4 - 5;
b = a * 3 / 2;
c = a + b - 4;
// Bucles anidados:
c = 10;
a = 0;
mientras c hacer
b = 0;
Repetir
b = b + 1;
a = a + 1;
Hasta b == 20;
c = c - 1;
Fin;
// a debe tener 200
242
Un traductor sencillo para un lenguaje simple
16.3 Descripción del Lenguaje Objeto
Sea un intérprete de código que consta de los siguientes elementos:
1. Un puntero de instrucción.
2. Un registro. Tipo de dato del registro: real.
3. Una pila.
4. Una tabla de variables.
El lenguaje objeto al que se traducirán los programas (oraciones)
escritos en el lenguaje fuente, consta de instrucciones que modifican algunos
de los elementos previamente descriptos. Las instrucciones pueden tener un
operando.
Las instrucciones y su correspondiente semántica son:
NoOp
No ejecuta ninguna operación. Sólo incrementa el puntero de
instrucción.
CrearVar Ident
Agregar a Ident a la tabla de variables. La variable no debe estar
previamente agregada. Luego, incrementar el puntero de instrucción.
Asignar Ident
Asignar a Ident el valor del registro del intérprete. La variable Ident
debe ser previamente creada (debe existir en la tabla de variables). Luego
incrementar el puntero de instrucción.
MoverVar Ident
Buscar Ident en la tabla de variables, leer su contenido y cargarlo en el
registro del intérprete. La variable debe ser previamente creada por alguna
instrucción que se ejecutó anteriormente. Luego incrementar el puntero de
instrucción.
243
Un traductor sencillo para un lenguaje simple
MoverCte Real
Cargar Real en el registro de la máquina. Luego incrementar el puntero
de instrucción.
ApilarReg
Apilar el contenido del registro de instrucción en la pila del intérprete.
Luego incrementar el puntero de instrucción.
O
Desapilar 1 número de la pila del intérprete; éste número será el
operando de la izquierda del operador. El operando de la derecha será el
contenido del registro del intérprete. A éstos números se los convierte a entero
por truncado. Aplicar la operación O lógica a esos números y guardar el
resultado en el registro del intérprete. Luego incrementar el puntero de
instrucción.
Y
Desapilar 1 número de la pila del intérprete; éste número será el
operando de la izquierda del operador. El operando de la derecha será el
contenido del registro del intérprete. A éstos números se los convierte a entero
por truncado. Aplicar la operación Y lógica a esos números y guardar el
resultado en el registro del intérprete. Luego incrementar el puntero de
instrucción.
Negar
Convertir el contenido del registro del intérprete a entero y aplicarle la
operación Negación lógica. El resultado se vuelve a almacenar en el registro
del intérprete.
Igual
Desapilar 1 número de la pila del intérprete; éste número será el
operando de la izquierda del operador. El operando de la derecha será el
contenido del registro del intérprete. Aplicar la operación es igual a a esos
números. Si son iguales, guardar 1 en el registro del intérprete, si son distintos,
guardar 0. Luego incrementar el puntero de instrucción.
244
Un traductor sencillo para un lenguaje simple
Distinto
Desapilar 1 número de la pila del intérprete; éste número será el
operando de la izquierda del operador. El operando de la derecha será el
contenido del registro del intérprete. Aplicar la operación es distinto de a esos
números. Si son iguales, guardar 0 en el registro del intérprete, si son distintos,
guardar 1. Luego incrementar el puntero de instrucción.
Menor
Desapilar 1 número de la pila del intérprete; éste número será el
operando de la izquierda del operador. El operando de la derecha será el
contenido del registro del intérprete. Aplicar la operación es menor que a esos
números. Si el operando izquierdo es menor que el segundo, guardar 1 en el
registro del intérprete, sino guardar 0. Luego incrementar el puntero de
instrucción.
MenorOIgual
Desapilar 1 número de la pila del intérprete; éste número será el
operando de la izquierda del operador. El operando de la derecha será el
contenido del registro del intérprete. Aplicar la operación es menor o igual a a
esos números. Si el operando izquierdo es menor o igual al segundo, guardar 1
en el registro del intérprete, sino guardar 0. Luego incrementar el puntero de
instrucción.
Mayor
Desapilar 1 número de la pila del intérprete; éste número será el
operando de la izquierda del operador. El operando de la derecha será el
contenido del registro del intérprete. Aplicar la operación es mayor que a esos
números. Si el operando izquierdo es mayor que el segundo, guardar 1 en el
registro del intérprete, sino guardar 0. Luego incrementar el puntero de
instrucción.
MayorOIgual
Desapilar 1 número de la pila del intérprete; éste número será el
operando de la izquierda del operador. El operando de la derecha será el
contenido del registro del intérprete. Aplicar la operación es mayor o igual a a
esos números. Si el operando izquierdo es mayor o igual al segundo, guardar 1
245
Un traductor sencillo para un lenguaje simple
en el registro del intérprete, sino guardar 0. Luego incrementar el puntero de
instrucción.
Sumar
Desapilar 1 número de la pila del intérprete; éste número
operando de la izquierda del operador. El operando de la derecha
contenido del registro del intérprete. Aplicar la operación Suma
números y almacenar el resultado en el registro del intérprete.
incrementar el puntero de instrucción.
será el
será el
a esos
Luego
Restar
Desapilar 1 número de la pila del intérprete; éste número
operando de la izquierda del operador. El operando de la derecha
contenido del registro del intérprete. Aplicar la operación Resta
números y almacenar el resultado en el registro del intérprete.
incrementar el puntero de instrucción.
será el
será el
a esos
Luego
Multiplicar
Desapilar 1 número de la pila del intérprete; éste número será el
operando de la izquierda del operador. El operando de la derecha será el
contenido del registro del intérprete. Aplicar la operación Multiplicación a
esos números y almacenar el resultado en el registro del intérprete. Luego
incrementar el puntero de instrucción.
Dividir
Desapilar 1 número de la pila del intérprete; éste número será el
operando de la izquierda del operador. El operando de la derecha será el
contenido del registro del intérprete. Aplicar la operación División a esos
números y almacenar el resultado en el registro del intérprete. Luego
incrementar el puntero de instrucción.
Menos
El operando al que se aplicará esta operación se encuentra en el registro
del intérprete. Aplicar la operación Menos a ése número y almacenar el
246
Un traductor sencillo para un lenguaje simple
resultado en el registro del intérprete. Luego incrementar el puntero de
instrucción.
IrA Número_De_Instrucción
Almacenar Número_De_Instrucción en el puntero de instrucción del
intérprete.
IrASiF Número_De_Instrucción
Convertir a entero el contenido del registro del intérprete. Si el resultado
es un número igual a 0, entonces almacenar Número_De_Instrucción en el
puntero de instrucción del intérprete, sino incrementar el puntero de
instrucción.
IrASiV Número_De_Instrucción
Convertir a entero el contenido del registro del intérprete. Si el resultado
es un número distinto de 0, entonces almacenar Número_De_Instrucción en el
puntero de instrucción del intérprete, sino incrementar el puntero de
instrucción.
El siguiente es un programa ejemplo, generado por este traductor a
partir del programa en lenguaje fuente dado en la sección 16.2. Las
instrucciones se etiquetaron con números a efectos de que se observe hacia
dónde saltan las instrucciones de salto.
1: CrearVar a
2: CrearVar b
3: CrearVar c
4: MoverCte 12
5: ApilarReg
6: MoverCte 4
7: Sumar
8: ApilarReg
9: MoverCte 5
10: Restar
11: Asignar a
12: MoverVar a
13: ApilarReg
14: MoverCte 3
15: Multiplicar
16: ApilarReg
17: MoverCte 2
18: Dividir
19: Asignar b
20: MoverVar a
21: ApilarReg
22: MoverVar b
23: Sumar
24: ApilarReg
25: MoverCte 4
247
Un traductor sencillo para un lenguaje simple
26:
27:
28:
29:
30:
31:
32:
33:
34:
35:
36:
37:
38:
39:
40:
41:
42:
43:
44:
45:
46:
47:
48:
49:
50:
51:
52:
53:
54:
55:
56:
Restar
Asignar c
MoverCte 10
Asignar c
MoverCte 0
Asignar a
MoverVar c
IrASiF 56
MoverCte 0
Asignar b
MoverVar b
ApilarReg
MoverCte 1
Sumar
Asignar b
MoverVar a
ApilarReg
MoverCte 1
Sumar
Asignar a
MoverVar b
ApilarReg
MoverCte 20
Igual
IrASiF 35
MoverVar c
ApilarReg
MoverCte 1
Restar
Asignar c
IrA 31
16.4 Descripción del Esquema de Traducción
A la gramática dada en la sección 16.2 se la modificará a efectos de
poder implementar las acciones semánticas que realizarán la traducción.
Las modificaciones importantes se documentan en las secciones
siguientes.
A la gramática nueva resultante se la puede ver en el archivo
LENG.GLC que se muestra al final de este capítulo, en la sección donde se
listan los fuentes.
La función AgregarSentCI agrega una instrucción de código objeto al
programa que se está generado a partir de la traducción.
16.4.1 Generación del Código para las Operaciones Binarias
Si la operación es binaria, de acuerdo a la forma general de regla
siguiente:
248
Un traductor sencillo para un lenguaje simple
Expr ---> Expr Oprd ExprMayorPrec ;
la regla nueva será:
Expr ---> Expr Oprd Apilar ExprMayorPrec ;
Apilar ---> ;
La segunda regla se agrega sólo una vez. Es una regla que deriva en lambda
(no produce ningún efecto ni modifica el lenguaje). A este tipo de regla se las
denomina marcadores.
Las acciones semánticas serán:
Expr ---> Expr Oprd Apilar ExprMayorPrec %{
AgregarSentCI(Oprd);
}% ;
Apilar ---> %{
AgregarSentCI(ApilarReg);
}% ;
16.4.2 Generación del Código para las Operaciones Unarias
Si la operación era unaria, la acción semántica es:
Expr ---> Oprd Expr %{
AgregarSentCI(Oprd);
}% ;
16.4.3 Generación del Código para el "Repetir ... hasta ..."
La regla original "Repetir ... hasta ..." se modificó, agregando un
marcador. Las reglas semánticas quedaron así:
Repetir ---> 'Repetir' Rotulo Sents 'Hasta' Expresión %{
// salto condicional a Rotulo
AgregarSentCI(IrASiF, $2.CadTerm);
}% ;
Rotulo --> %{
// asignamos a $$.CadTerm el número de instrucción actual
Ent16ns NumInstAct = Programa.NumElem();
$$.CadTerm = NumInstAct;
}% ;
El marcador asigna al campo CadTerm el número de instrucción actual
(la que se está por generar) que se encuentra almacenado en la variable global
NumInstAct. Luego, al reducir por la regla "Repetir ... hasta" se utiliza ese
valor para el salto condicional.
249
Un traductor sencillo para un lenguaje simple
16.4.4 Generación del Código para el "Mientras ... hacer ..."
La regla original "Mientras ... hacer ..." se modificó. Las acciones
semánticas quedaron así:
Mientras --> 'Mientras' Rotulo ExprSaltoCond 'hacer' Sents 'Fin' %{
// salto incondicional al primer rótulo
AgregarSentCI(IrA, $2.CadTerm);
// una vez agregada la sentencia, el rótulo del salto del no
// terminal ExprSaltoCond debe referenciar a la posición actual:
AsignarRotulo($3.CadTerm); // en CadTerm viene el nombre
// del rótulo
}% ;
ExprSaltoCond --> Expresión %{
// aquí hay un salto si es que el registro de la máquina es F
GenerarRotulo($$.CadTerm);
AgregarSentCI(IrASiF, $$.CadTerm);
}% ;
La regla "Rotulo --> ;" fue dada en la sección anterior. Se utiliza esa
acción semántica.
Una vez evaluada la ExprSaltoCond se debe saltar a la instrucción que
sigue después de la palabra clave Fin, entonces, luego de generar el código
para Expresión se genera un rótulo que será resuelto al reducir por la regla del
"Mientras ... hacer ..." (ver sentencia AsignarRotulo($3.CadTerm) y
sentencia GenerarRotulo($$.CadTerm)) y se agrega el salto condicional.
Al reducir por la regla "Mientras ... hacer ...", se genera un salto
incondicional IrA a donde comienza la evaluación de la expresión
condicional. Esa posición se encuentra en $2.CadTerm que corresponde a
Rotulo.
16.4.5 Reglas Semánticas para la Recuperación de Operandos Actuales
Los operandos actuales son alcanzados por las reglas siguientes, en
donde se muestran también las acciones semánticas:
Factor -----> Ident %{
// mover el valor de Ident al registro de la máquina
if (BuscarVar($1.CadTerm))
AgregarSentCI(MoverVar, $1.CadTerm);
}%
| Real %{
// mover el valor del Real al registro dela máquina
AgregarSentCI(MoverCte, $1.CadTerm);
}%
Para el caso de que en el texto fuente se encuentre un identificador,
antes de generar el código objeto se busca la variable en la tabla de variables
250
Un traductor sencillo para un lenguaje simple
del traductor, para ver si la misma fue previamente declarada. Si es así, se
genera el código MoverVar que extrae el valor de la tabla de variables del
intérprete.
Si era un número real, directamente se genera el código que coloca el
real en el registro del intérprete.
16.4.6 Creación de las Variables
La creación de las variables en tiempo de ejecución se realiza con la
regla semántica siguiente:
Idents --> MásIdents Ident %{
// nueva var declarada
AgregarVar($2.CadTerm);
AgregarSentCI(CrearVar, $2.CadTerm);
}% ;
Se genera la sentencia CrearVar incondicionalmente. Además, se
agrega el identificador que aparece en el texto fuente a la tabla de variables del
traductor. Luego, esa tabla se usa para ver si hay variables previamente
declaradas.
16.4.7 Resolución de Saltos hacia Adelante
La resolución de saltos hacia adelante se realiza con la función global
ResolverRotulos. La regla semántica es:
Leng --> Decl Sents %{
// Resolver rótulos de saltos hacia adelante:
ResolverRotulos();
}% ;
La función ResolverRotulos recorre el código generado en busca de
saltos no resueltos. Para cada rótulo encontrado, se lo busca en la tabla de
rótulos (la que hasta este momento ya tiene los rótulos resueltos) y se asigna la
posición que le correspondió.
16.5 Implementación del Traductor
El traductor está implementado
especificadas en LENG.GLC.
por
las
acciones
semánticas
251
Un traductor sencillo para un lenguaje simple
SLR1 v 2.x recibirá como entrada este archivo y generará el archivo
LENG.CMM con el analizador sintáctico y el analizador lexicográfico.
Los AFDs usados por el analizador lexicográficos son generados a partir
de los respectivos archivos .ER con las expresiones regulares.
16.5.1 Estructuras de Datos usadas
Las estructuras de datos usadas por el traductor son las siguientes.
1. Código Objeto y Programa Objeto
El código objeto es implementado por la clase CodInt que significa
código intermedio (a partir de ese código se puede generar código de
máquina). La declaración de esta clase se encuentra en INTERP.H, y las
definiciones de las funciones miembro en INTERP.CMM.
Los campos datos de la clase son:
Codigo: contiene el código de operación.
Operando: si la instrucción representada por este objeto tiene un operando, el
mismo se encuentra en este campo. Se utiliza la clase Ascii0 para la
conversión automática de tipo (recordar que hay operandos que son
identificadores y otros que son números reales).
Durante la traducción, el programa que se está generando se guarda en
una lista simple encadenada de objetos CodInt. Para la lista simple
encadenada se usa la clase template LSE de la biblioteca BCE.
Durante la interpretación del código objeto, el programa se almacena en
un vector de objetos CodInt. Se utiliza la clase template Vector de la
biblioteca BCE.
2. Tabla de Variables
La tabla de variables para el momento de la traducción es una lista
simple encadenada de objetos Ascii0.
Para el momento de la interpretación, la tabla de variables es una lista
simple encadenada de objetos Variable.
252
Un traductor sencillo para un lenguaje simple
La clase Variable tiene los siguientes campos dato:
Ident: es el identificador usado en la declaración.
Valor: es el valor actual de esta variable.
La búsqueda en la tabla de variable es secuencial.
3. Rótulos y Tabla de Rótulos
Los rótulos (para las referencias hacia adelante) se implementan con la
clase DescrRotulo que tiene los siguientes campos dato:
cRotulo: es la cadena identificadora del rótulo. La cadena tiene la forma RXX
donde XX es el número de éste rótulo. Se utilizan cadenas de esta forma
puesto que al generar el programa se debe indicar de alguna manera que la
instrucción de salto tiene una referencia no resuelta. Entonces, en el
Operando de la instrucción de salto habrá una cadena que comienza con R, y
esto significará que ese salto no está resuelto.
nRotulo: es la posición a la apunta este rótulo. Al resolver el salto, se cambia
cRotulo por nRotulo.
La tabla de rótulos sólo es usada durante la traducción, y se implementa
con una lista simple encadenada de objetos DescrRotulo.
16.5.2 Descripción de las Funciones Globales Principales
1. BuscarVar
Esta función busca una variable en la tabla de variables. Si la encuentra
devuelve un valor distinto de 0 y sino 0.
2. AgregarVar
Esta función agrega un identificador de variable a la lista de variables ya
declaradas. Si ya fue agregada se devuelve 0. Sino un valor distinto de 0.
3. AgregarSentCI
253
Un traductor sencillo para un lenguaje simple
Esta es una función polimórfica que agrega una sentencia de código
objeto al programa que se está generando.
4. GenerarRotulo
Esta función genera un rótulo (el campo cRotulo de un objeto
DescrRotulo). Lo agrega al final de la lista de rótulo e informa el nombre
(cRotulo) del rótulo.
5. AsignarRotulo
A partir de la cadena del rótulo (cRotulo) y un valor entero no negativo,
se lo busca al rótulo en la lista de rótulos no resueltos y se asigna al campo
nRotulo el valor entero no negativo recibido. Ese número será luego utilizado
para resolver los saltos hacia adelante.
6. BuscarRotulo
Dado un nombre de rótulo (cRotulo), busca el descriptor del mismo en
la tabla de rótulos y devuelve un puntero a ese descriptor. Si no lo encontró,
devuelve 0.
7. ResolverRotulos
Esta función recorre el programa en busca de instrucciones de salto en
donde el Operando tenga una cadena de la forma RXX. Si encuentra una,
busca un rótulo con ese nombre y reemplaza la cadena por el valor actual del
rótulo.
8. GuardarPrograma
Esta función guarda el programa que se encuentra en la lista simple
encadenada que generó el traductor, en un archivo binario.
Primero se guarda el número de instrucciones del programa y luego cada
una de las instrucciones.
Al cargar el programa en memoria (para la interpretación), se usará un
vector, cuyo tamaño será el que se indica al comienzo del archivo.
254
Un traductor sencillo para un lenguaje simple
El archivo binario con el código tendrá extensión .CI. Además,
opcionalmente se genera un archivo de texto con extensión .TXT que muestra
las instrucciones en formato texto.
9. CargarPrograma
Esta función carga el programa desde el archivo binario en un vector de
objetos CodInt.
10.TraducirDeLengACodInt
A partir de un nombre de archivo, esta función carga el texto que se
encuentra en ese archivo, que se supone está en lenguaje fuente, lo traduce
utilizando el analizador sintáctico y lexicográfico generados por SLR1 v 2.x, y
guarda el programa que se genere en un archivo con el mismo nombre que el
de entrada pero extensión .CI. En otro archivo con el mismo nombre pero con
extensión .TXT, se guarda el código generado pero en formato texto.
Esta función se encuentra definida en el módulo TRADUCIR.CMM, y
declarada en el módulo INTERP.H.
16.6 Implementación del Intérprete para el Código Generado
Debido a que el intérprete se implementa con una clase llamada
Interprete, es posible la coexistencia de varios intérpretes en un mismo
programa.
16.6.1 Estructuras de Datos usadas
Las estructuras siguientes fueron descriptas en 16.5.1:
variables, variables, código objeto y programa.
tablas de
1. Pila del Intérprete
La pila del intérprete se implementa en una lista simple encadenada de
números de punto flotante de doble precisión: double. Se utiliza la clase LSE
de la biblioteca BCE. El primer elemento de la lista es el tope de pila.
2. Estructura de un Intérprete
255
Un traductor sencillo para un lenguaje simple
Un intérprete se implementa con la clase Interprete, la que tiene los
siguientes campos dato:
Programa: es el programa a interpretar. Este intérprete se encarga de cargar el
programa desde un archivo binario conteniendo las instrucciones. La función
que actualmente realiza la carga es CargarPrograma.
InstrAct: es el número de instrucción que se ejecutará en el paso siguiente.
Inicialmente vale 0, que es el inicio del programa.
Registro: es el registro del intérprete.
Pila: es la pila del intérprete. La estructura se la explicó en el punto anterior.
TablaDeVar: es la tabla de variables declaradas.
Error: es el código de error, a saber: SinError, FinProg, FaltanOprnds,
DirInval, VarNoDecl, VarDeclPrev, FaltaMem, PilaVacia, Div0.
16.6.2 Descripción de las Funciones Principales
Los códigos de errores devuelto por las funciones miembro de la clase
Interprete son los que se enumeran en la descripción del campo Error de esa
clase (ver sección anterior). Además de devolver el código de error, el campo
Error retiene el código de error devuelto por la última función del intérprete
que se ha ejecutado.
Las definiciones de las funciones cortas las encontrará en el módulo
INTERP.H, y las del resto están en INTERP.CMM.
1. Interprete::CargarPrograma
Realiza la carga del Programa desde un archivo binario. Si no hay
problemas, el intérprete apuntará a la primera instrucción del mismo.
2. Interprete::Ejecutar
Ejecuta 1 instrucción, que es la apuntada por InstrAct. Devuelve el
código del error, 0 si no hay error.
3. Interprete::TopeDePila
256
Un traductor sencillo para un lenguaje simple
Devuelve 1 si hay elementos en la pila y en el parámetro pasado
devuelve el contenido del tope de la pila. Devuelve 0 si la pila está vacía, y el
parámetro no es usado.
4. Interprete::Vaciar
Inicializa éste intérprete. Devuelve toda la memoria que eventualmente
esté usando.
5. Interprete::InstrActual
Devuelve 1 y la instrucción actual, apuntada por InstrAct, en formato
cadena en la variable pasada como parámetro. Si no hay programa cargado,
devuelve 0.
6. Interprete::CrearVar
Agrega una variable a la tabla de variables. El contenido inicial de la
variable es desconocido.
Devuelve 0 si no hay problemas y distinto a 0 si ya fue creada o falta
memoria.
7. Interprete::BuscarVar
Busca una variable en la tabla de variables. Devuelve el puntero al
descriptor de la misma o 0 si no fue encontrada.
8. Interprete::Apilar
Apila un valor (double) en la pila de éste intérprete. Devuelve 0 si no
hay problemas, distinto a 0 si falta memoria.
9. Interprete::Desapilar
Desapila un valor (double) de la pila de éste intérprete. Devuelve 0 si no
hay problemas, distinto a 0 si la pila estaba vacía.
257
Un traductor sencillo para un lenguaje simple
16.7 Diseño e Implementación de la Interfase en Pantalla del Intérprete
El código para la interfase en pantalla fue generado por AppExpert, el
generador de interfases de aplicaciones del Borland C++ 4.5. La misma fue
retocada con el Resource Workshop del Borland C++ y quedó visualmente así:
Fig. 22 Interfase en pantalla del intérprete
El campo Sentencia del código intermedio actual muestra la sentencia
que se ejecutará en el paso siguiente.
La Tabla de Variables muestra el contenido de la tabla de variables. Si
hay muchas variables aparecerá una barra de desplazamiento que permitirá
hacer scroll en la lista.
El Registro de la Máquina muestra el contenido actual del registro del
intérprete.
Contenido del tope de la pila muestra el contenido del tope de la pila del
intérprete.
El botón Traza ejecuta la instrucción mostrada en el campo Sentencia
del código intermedio actual.
258
Un traductor sencillo para un lenguaje simple
El botón Animar realiza una ejecución animada de instrucciones. Se
ejecuta una por una mostrando en cada paso el estado del intérprete. Se debe
utilizar el botón Parar para detener la ejecución animada.
16.8 Guía del Usuario y Manual de Referencia del Programador del
Lenguaje Fuente
16.8.1 Introducción - Partes de un Programa
El lenguaje sirve únicamente para el tratamiento de números reales en
memoria.
Un programa en este lenguaje consta de dos partes bien definidas, a
saber:
1. Declaraciones de variables.
2. Sentencias.
Las declaraciones de variables son opcionales y debe haber por lo
menos una sentencia.
No hay distinción entre mayúsculas y minúsculas, y se incluye la
posibilidad de incluir comentarios dentro del código fuente.
A continuación, las palabras claves se colocarán en mayúsculas.
16.8.2 Declaración de variables
Las variables únicamente pueden ser de un tipo y se declaran de la
siguiente forma:
VAR var1 [ , var2 [ , var3 [ ... ] ] ] ;
Se puede declarar una o más variables (lo que está entre corchetes es
opcional). Los nombres de las variables deben ser identificadores que
comienzan con una letra seguido de combinaciones de letras y dígitos. Se
pueden usar letras con acentos.
259
Un traductor sencillo para un lenguaje simple
16.8.3 Sentencias
Las sentencias siempre finalizan con un ';' (punto y coma), y no hay
problemas en cuanto a la cantidad de espacios que se coloquen entre símbolos.
Existen tres tipos de sentencias:
1. Asignación:
Una asignación tiene la forma general siguiente:
IdentVar = Expresión ;
donde IdentVar es el nombre de una variable y Expresión es una expresión
válida del lenguaje. Ver sección "Expresiones válidas del Lenguaje" más
adelante.
2. Sentencia iterativa Mientras ... hacer ...
Esta sentencia tiene la forma general siguiente:
MIENTRAS Expresión HACER
Sentencias
FIN ;
donde Expresión es una expresión válida del lenguaje y Sentencias son una o
más sentencias válidas del lenguaje.
La semántica es: mientras Expresión se evalúe a 1, se ejecutan las
sentencias. Esto es, si en la primera vez que se evalúa la expresión, la misma
resulta 0 entonces el bloque de sentencias puede no ejecutarse.
3. Sentencia iterativa Repetir ... hasta ...
Esta sentencia tiene la forma general siguiente:
REPETIR
Sentencias
HASTA Expresión ;
donde Expresión es una expresión válida del lenguaje y Sentencias son una o
más sentencias válidas del lenguaje.
260
Un traductor sencillo para un lenguaje simple
La semántica es: ejecutar las Sentencias, luego, si Expresión evalúa a
1, se vuelven a ejecutar las sentencias, sino se continúa con la sentencia
siguiente. Esto es, el bloque de sentencias se ejecuta al menos una vez.
16.8.4 Expresiones válidas del Lenguaje
Las expresiones válidas se describen mediante las siguientes reglas:
1. Si XXX es un identificador de variable o un número real, entonces XXX
es una expresión válida. A este tipo de expresiones las denominaremos
atómicas.
2. Si # es un operador unario y X es una expresión atómica, entonces # X
es una expresión válida, la cual también es atómica.
3. Si # es un operador binario y X1 y X2 son expresiones válidas, entonces
X1 # X2 es una expresión válida.
4. Si X es una expresión válida, ( X ) es una expresión válida, la cual
también es atómica.
5. Son expresiones válidas las obtenidas por la aplicación reiterada de estas
reglas.
Los operadores unarios se evalúan de derecha a izquierda, y los
operadores binarios de derecha a izquierda.
La precedencia de los operadores es la siguiente:
Precedencia
1. La más alta
2. Operadores
multiplicativos
3. Operadores
aditivos
Operador
!
()
*
/
+
-
Observaciones
Menos unario
Negador lógico
Paréntesis
Multiplicación
División
Suma
Resta
261
Un traductor sencillo para un lenguaje simple
Precedencia
4. Operadores
Relacionales
5. Operador lógico
6. Operador lógico
Operador
==
!=
<
<=
>
>=
&&
||
Observaciones
Igual a
Distinto de
Menor que
Menor o igual que
Mayor que
Mayor o igual que
Conjunción
Disyunción
Fig. 23 Precedencia de operadores en las expresiones del lenguaje
El resultado de una expresión donde el operador de menor precedencia
sea el menos unario, un operador aditivo o un multiplicativo es un número
real.
El resultado de una expresión donde el operador de menor precedencia
sea un operador lógico o un operador relacional es: 0 si es falso y distinto a 0
si es verdadero. Para verdadero se utilizará un número entero.
El resultado de una expresión donde el operador de menor precedencia
son los paréntesis, es del mismo tipo que la expresión que se encuentra dentro
de ellos.
16.9 Módulos fuentes Independientes del Sistema Operativo
16.9.1 LENG.GLC: gramática del lenguaje fuente
//
//
//
//
Gramática para un lenguaje simple donde se ilustra la implementación de
sentencias iterativas.
Versión 1 - Domingo E. Becker - 11 Dic 95
Usar Leng como sufijo en SLR1 v 2.x.
%{
# ifndef __INTERP_H
# include "interp.h"
# endif
# include <string.h>
LSE<Ascii0> TablaDeVar;
Ent8 BuscarVar( const Ascii0 & var ) {
if (! var.Long()) return 0;
NodoLSE<Ascii0> * p = TablaDeVar.Entrada;
while (p != 0) {
262
Un traductor sencillo para un lenguaje simple
if (! stricmp(var, p->Dato)) break;
p = p->pSig;
}
return p != 0;
}
Ent8 AgregarVar( const Ascii0 & var ) {
if (! var.Long()) return 0; // nombre nulo
if (BuscarVar(var)) return 0; // ya está agregado
return TablaDeVar.AgregFinal(var);
}
LSE<CodInt> Programa;
Ent8 AgregarSentCI( Ent16ns Codigo, Ascii0 & Operando ) {
NodoLSE<CodInt> * p = new NodoLSE<CodInt>;
if (p == 0) return 0;
p->Dato.Codigo = Codigo;
p->Dato.Operando = Operando;
return Programa.AgregFinal(p);
}
Ent8 AgregarSentCI( Ent16ns Codigo ) {
Ascii0 Nulo;
return AgregarSentCI(Codigo, Nulo);
}
class DescrRotulo {
public:
Ent16ns nRotulo;
Ascii0 cRotulo;
DescrRotulo() { nRotulo = 0; }
~DescrRotulo() { }
};
LSE<DescrRotulo> ListaDeRotulos; // sin resolver.
Ent8 GenerarRotulo( Ascii0 & Rotulo ) {
Rotulo.printf("R%u", ListaDeRotulos.NumElem());
NodoLSE<DescrRotulo> * p = new NodoLSE<DescrRotulo>;
if (p == 0) return 0;
p->Dato.cRotulo = Rotulo;
return ListaDeRotulos.AgregFinal(p);
}
Ent8 AsignarRotulo( Ascii0 & Rotulo ) {
NodoLSE<DescrRotulo> * p = ListaDeRotulos.Entrada;
while (p != 0) {
if (! strcmp(p->Dato.cRotulo, Rotulo)) break;
p = p->pSig;
}
if (p == 0) return 0;
p->Dato.nRotulo = Programa.NumElem();
return 1;
}
NodoLSE<DescrRotulo> * BuscarRotulo( const Ascii0 & Rotulo ) {
NodoLSE<DescrRotulo> * p = ListaDeRotulos.Entrada;
while (p != 0) {
if (! strcmp(p->Dato.cRotulo, Rotulo)) break;
p = p->pSig;
}
return p;
}
263
Un traductor sencillo para un lenguaje simple
Ent16ns ResolverRotulos() {
Ent16ns NumRotRes = 0;
NodoLSE<CodInt> * p = Programa.Entrada;
NodoLSE<DescrRotulo> * q;
while (p != 0) {
if ((p->Dato.Codigo == CodInt::IrA || p->Dato.Codigo == CodInt::IrASiF
||
p->Dato.Codigo == CodInt::IrASiV) &&
* (char *) p->Dato.Operando[0] == 'R') {
q = BuscarRotulo(p->Dato.Operando);
if (q != 0) { // si encuentra rótulo
p->Dato.Operando = q->Dato.nRotulo; // resolver referencia
posterior
++NumRotRes;
}
}
p = p->pSig;
}
return NumRotRes;
}
Ent8 GuardarPrograma( const char * NomArchCI, const char * NomArchTXT ) {
if (NomArchCI == 0) return 0;
Ent16ns NumInst = Programa.NumElem();
if (! NumInst) return 0;
ArchivoSO ArchCI, ArchTXT;
Ent8 GenerarTXT = NomArchTXT != 0;
if (ArchCI.Abrir(NomArchCI, MA_E) ||
GenerarTXT && ArchTXT.Abrir(NomArchTXT, MA_E, MD_TXT))
return 0;
NodoLSE<CodInt> * p;
Ent16ns NumLin;
ArchCI << NumInst;
for (p = Programa.Entrada, NumLin = 1; p != 0; p = p->pSig, ++NumLin) {
ArchCI << p->Dato;
if (GenerarTXT)
ArchTXT << NumLin << ": " << p->Dato << "\n";
}
ArchCI.Cerrar();
if (GenerarTXT)
ArchTXT.Cerrar();
return 1;
}
}%
#
#
#
#
TERMINAL
TERMINAL
IGNORAR
IGNORAR
Ident
Real
Blancos
Coment
# MAYIGUALMIN
Leng --> Decl Sents %{
// Resolver rótulos de saltos hacia adelante:
ResolverRotulos();
}% ;
Decl --> 'Var' Idents ';'| ;
Idents --> MásIdents Ident %{
264
Un traductor sencillo para un lenguaje simple
// nueva var declarada
AgregarVar($2.CadTerm);
AgregarSentCI(CodInt::CrearVar, $2.CadTerm);
}% ;
MásIdents --> Idents ',' | ;
Sents ---> Sents SentPC | SentPC ; // SentPC es sentencia y punto y coma
SentPC --> Sent ';' ;
Sent ---> Asignación | Mientras | Repetir ;
Asignación --> Ident '=' Expresión %{
// asignación a Ident. Ver si existe, si es así, generar código
if (BuscarVar($1.CadTerm))
AgregarSentCI(CodInt::Asignar, $1.CadTerm);
}% ;
Rotulo --> %{
// asignamos a $$.CadTerm el número de instrucción actual (a
generar).
Ent16ns NumInstAct = Programa.NumElem();
$$.CadTerm = NumInstAct;
}% ;
Mientras --> 'Mientras' Rotulo ExprSaltoCond 'hacer' Sents 'Fin' %{
// salto incondicional al primer rótulo
AgregarSentCI(CodInt::IrA, $2.CadTerm);
// una vez agregada la sentencia, el rótulo del salto del no
terminal
// ExprSaltoCond debe referenciar a la posición actual:
AsignarRotulo($3.CadTerm); // en CadTerm viene el nombre del rótulo
}% ;
ExprSaltoCond --> Expresión %{
// aquí hay un salto si es que el registro de la máquina es falso
GenerarRotulo($$.CadTerm);
AgregarSentCI(CodInt::IrASiF, $$.CadTerm);
}% ;
Repetir ---> 'Repetir' Rotulo Sents 'Hasta' Expresión %{
// salto condicional a Rotulo
AgregarSentCI(CodInt::IrASiF, $2.CadTerm);
}% ;
Expresión --> ExprLogicaO ;
ExprLogicaO -> ExprLogicaO '||' Apilar ExprLogicaY %{
// operar
AgregarSentCI(CodInt::O);
}%
| ExprLogicaY ;
ExprLogicaY -> ExprLogicaY '&&' Apilar ExprRelacional %{
// operar
AgregarSentCI(CodInt::Y);
}%
| ExprRelacional ;
ExprRelacional -> ExprRelacional '==' Apilar ExprArit %{
// operar
AgregarSentCI(CodInt::Igual);
}%
| ExprRelacional '!=' Apilar ExprArit %{
// operar
AgregarSentCI(CodInt::Distinto);
}%
| ExprRelacional '<' Apilar ExprArit %{
265
Un traductor sencillo para un lenguaje simple
// operar
AgregarSentCI(CodInt::Menor);
}%
| ExprRelacional '<=' Apilar ExprArit %{
// operar
AgregarSentCI(CodInt::MenorOIgual);
}%
| ExprRelacional '>' Apilar ExprArit %{
// operar
AgregarSentCI(CodInt::Mayor);
}%
| ExprRelacional '>=' Apilar ExprArit %{
// operar
AgregarSentCI(CodInt::MayorOIgual);
}%
| ExprArit ;
ExprArit ---> ExprArit '+' Apilar Producto %{
// operar
AgregarSentCI(CodInt::Sumar);
}%
| ExprArit '-' Apilar Producto %{
// operar
AgregarSentCI(CodInt::Restar);
}%
| Producto ;
Producto ---> Producto '*' Apilar Factor %{
// operar
AgregarSentCI(CodInt::Multiplicar);
}%
| Producto '/' Apilar Factor %{
// operar
AgregarSentCI(CodInt::Dividir);
}%
| Factor ;
Apilar --> %{
// Se supone que está por buscar la parte derecha de un operador
binario.
// Apilar el valor del registro de la máquina.
AgregarSentCI(CodInt::ApilarReg);
}% ;
Factor -----> Ident %{
// mover el valor de Ident al registro de la máquina
if (BuscarVar($1.CadTerm))
AgregarSentCI(CodInt::MoverVar, $1.CadTerm);
}%
| Real %{
// mover el valor del Real al registro dela máquina
AgregarSentCI(CodInt::MoverCte, $1.CadTerm);
}%
| '-' Factor %{
// operar
AgregarSentCI(CodInt::Menos);
}%
| '!' Factor %{
// operar
AgregarSentCI(CodInt::Negar);
}%
| '(' Expresión ')' ;
266
Un traductor sencillo para un lenguaje simple
16.9.2 IDENT.ER: expresión regular para un identificador
// Exp reg para describir un identificador:
# Letra [a-zA-Z_áéíóúñÑüÜ]
# Digito [0-9]
Letra (Letra | Digito)*
16.9.3 REAL.ER: expresión regular para un número real
// Expresión regular para un número real en formato C++:
# Díg [0-9]
Díg * '.' ? Díg + ( (e | E) Díg + ) ?
16.9.4 BLANCOS.ER: expresión regular para los blancos
// Expresión regular para blancos:
[ \n\r\f\t\v] +
16.9.5 COMENT.ER: expresión regular para los comentarios
// Exp reg para comentarios similares a éste:
/ / .*
16.9.6 INTERP.H: archivo cabecera con declaraciones
# ifndef __INTERP_H
# define __INTERP_H
// interp.h: declaración de clases para implementar un intérprete de
código
//
intermedio.
# ifndef __LSE_H
# include "lse.h"
# endif
# ifndef __VECTOR_H
# include "vector.h"
# endif
# ifndef __ARCHIVO_H
# include <archivo.h>
# endif
//
//
//
//
o
//
Clase CodInt: el código de la máquina hipotética (el intérprete)
consta de dos partes: el código de operación y el operando.
El código de operación se codifica con el enum dentro de la clase.
El operando es siempre una cadena de texto que contendrá un número real
un identificador de variable a crear.
class CodInt {
public:
Ent16ns Codigo;
Ascii0 Operando;
267
Un traductor sencillo para un lenguaje simple
enum { NoOp, CrearVar, Asignar, MoverVar, MoverCte, ApilarReg,
O, Y, Negar, Igual, Distinto, Menor, MenorOIgual, Mayor,
MayorOIgual,
Sumar, Restar, Multiplicar, Dividir, Menos,
IrA, IrASiF, IrASiV };
CodInt() { Codigo = NoOp; }
~CodInt() { }
static const char * CadCodigo( Ent16ns Codigo );
const char * CadCodigo() const { return CadCodigo(Codigo); }
void Cadena( Ascii0 & Cad ) const;
};
Archivo & operator << ( Archivo & arch, const CodInt & ci );
ArchivoSO & operator << ( ArchivoSO & arch, const CodInt & ci );
ArchivoSO & operator >> ( ArchivoSO & arch, CodInt & ci );
Ent16 TraducirDeLengACodInt( const char * NomArch, Ascii0 & CadPosErr );
Ent16 CargarPrograma( const char * NomArch, Vector<CodInt> & Programa );
class Variable {
public:
Ascii0 Ident;
double Valor;
Variable() { }
~Variable() { }
};
class Interprete {
public:
Vector<CodInt> Programa;
unsigned InstrAct;
double Registro;
LSE<double> Pila; // Pila implementada en lista simple encadenada
LSE<Variable> TablaDeVar;
Ent16ns Error;
Interprete() { Registro = InstrAct = Error = 0; }
~Interprete() { Vaciar(); }
Ent16 CargarPrograma( const char * NomArch );
Ent8 Ejecutar(); // Ejecuta 1 instrucción de código intermedio,
solamente.
Ent8 TopeDePila( double & valor ) const; // devuelve el valor del tope
de la pila.
void Vaciar(); // devuelve la mem dinámica usada por éste intérprete
Ent8 InstrActual( Ascii0 & cad );
enum { SinError = 0, FinProg, FaltanOprnds, DirInval, VarNoDecl,
VarDeclPrev,
FaltaMem, PilaVacia, Div0 };
Ent8 CrearVar( const Ascii0 & Ident );
Variable * BuscarVar( const Ascii0 & Ident );
Ent8 Apilar( double Valor );
Ent8 Desapilar( double & Valor );
};
inline Ent16 Interprete::CargarPrograma( const char * NomArch ) {
Vaciar();
return ::CargarPrograma(NomArch, Programa);
}
268
Un traductor sencillo para un lenguaje simple
inline void Interprete::Vaciar() {
Programa.Vaciar();
Registro = InstrAct = Error = 0;
Pila.Vaciar();
TablaDeVar.Vaciar();
}
inline Ent8 Interprete::TopeDePila( double & valor ) const {
if (Pila.Entrada != 0) {
valor = Pila.Entrada->Dato;
return 1;
}
return 0;
}
inline Ent8 Interprete::InstrActual( Ascii0 & cad ) {
if (InstrAct < Programa.Tam)
Programa[InstrAct].Cadena(cad);
return InstrAct < Programa.Tam;
}
# endif // # ifndef __INTERP_H
16.9.7 TRADUCIR.CMM: función TraducirDeLengACodInt
// traducir.cmm
Mar 12 Dic 95
// Domingo E. Becker
# include "leng.cmm" // generado por SLR1 v 2.x
Ent16 TraducirDeLengACodInt( const char * NomArch, Ascii0 & CadPosErr ) {
Ascii0 Fuente;
ArchivoSO ArchFuente;
if (ArchFuente.Abrir(NomArch, MA_L))
return 0;
if (! Fuente.Reasignar(ArchFuente.Tam() + 1))
return 0;
Ent16ns NumBytes = ArchFuente.Leer(Fuente, ArchFuente.Tam());
* Fuente[NumBytes] = 0;
ArchFuente.Cerrar();
TablaDeVar.Vaciar();
Programa.Vaciar();
ListaDeRotulos.Vaciar();
Ascii0 NomArchCI, NomArchTXT;
NomArchCI = NomExt(NomArch, ".ci");
NomArchTXT = NomExt(NomArch, ".txt");
alLeng.Reiniciar(Fuente);
Ent8 r = asLeng.Analizar(alLeng, CadPosErr);
if (r)
r = GuardarPrograma(NomArchCI, NomArchTXT);
TablaDeVar.Vaciar();
Programa.Vaciar();
ListaDeRotulos.Vaciar();
return r;
}
269
Un traductor sencillo para un lenguaje simple
16.9.8 INTERP.CMM: funciones del intérprete
// interp.cmm
# include "interp.h"
const char * CodInt::CadCodigo( Ent16ns Codigo ) {
const char * p;
switch (Codigo) {
case NoOp:
p = "NoOp";
break;
case CrearVar:
p = "CrearVar";
break;
case Asignar:
p = "Asignar";
break;
case MoverVar:
p = "MoverVar";
break;
case MoverCte:
p = "MoverCte";
break;
case ApilarReg:
p = "ApilarReg";
break;
case O:
p = "O";
break;
case Y:
p = "Y";
break;
case Negar:
p = "Negar";
break;
case Igual:
p = "Igual";
break;
case Distinto:
p = "Distinto";
break;
case Menor:
p = "Menor";
break;
case MenorOIgual:
p = "MenorOIgual";
break;
case Mayor:
p = "Mayor";
break;
270
Un traductor sencillo para un lenguaje simple
case MayorOIgual:
p = "MayorOIgual";
break;
case Sumar:
p = "Sumar";
break;
case Restar:
p = "Restar";
break;
case Multiplicar:
p = "Multiplicar";
break;
case Dividir:
p = "Dividir";
break;
case Menos:
p = "Menos";
break;
case IrA:
p = "IrA";
break;
case IrASiF:
p = "IrASiF";
break;
case IrASiV:
p = "IrASiV";
break;
default:
p = "Desconocido";
}
return p;
}
void CodInt::Cadena( Ascii0 & Cad ) const {
switch (Codigo) {
case CrearVar:
case Asignar:
case MoverVar:
case MoverCte:
case IrA:
case IrASiF:
case IrASiV:
Cad.printf("%s %s", CadCodigo(), (const char *) Operando);
break;
default:
Cad = CadCodigo();
}
}
Archivo & operator << ( Archivo & arch, const CodInt & ci ) {
Ascii0 cad;
ci.Cadena(cad);
arch << (const char *) cad;
return arch;
}
271
Un traductor sencillo para un lenguaje simple
ArchivoSO & operator << ( ArchivoSO & arch, const CodInt & ci ) {
if (! arch.TxtBin()) operator << ((Archivo &) arch, ci);
else arch << ci.Codigo << ci.Operando;
return arch;
}
ArchivoSO & operator >> ( ArchivoSO & arch, CodInt & ci ) {
arch >> ci.Codigo >> ci.Operando;
return arch;
}
Ent16 CargarPrograma( const char * NomArch, Vector<CodInt> & Programa ) {
Programa.Vaciar();
if (NomArch == 0) return 0;
ArchivoSO arch;
if (arch.Abrir(NomArch, MA_L)) return 0;
Ent16ns NumInst, i;
arch >> NumInst;
if (! NumInst || ! Programa.Reasignar(NumInst)) return 0;
for (i = 0; i < NumInst; ++i)
arch >> Programa[i];
arch.Cerrar();
return 1;
}
Ent8 Interprete::Ejecutar() {
if (InstrAct >= Programa.Tam)
return Error = FinProg;
Variable * pVar;
double OperandoIzq;
Ent16ns CodOp = Programa[InstrAct].Codigo;
Error = SinError;
switch (CodOp) {
case CodInt::CrearVar:
CrearVar(Programa[InstrAct].Operando);
break;
case CodInt::Asignar:
pVar = BuscarVar(Programa[InstrAct].Operando);
if (pVar != 0)
pVar->Valor = Registro;
break;
case CodInt::MoverVar:
pVar = BuscarVar(Programa[InstrAct].Operando);
if (pVar != 0)
Registro = pVar->Valor;
break;
case CodInt::MoverCte:
Registro = Programa[InstrAct].Operando;
break;
case CodInt::ApilarReg:
Apilar(Registro);
break;
case CodInt::O:
if (! Desapilar(OperandoIzq))
272
Un traductor sencillo para un lenguaje simple
Registro = (int) OperandoIzq || (int) Registro;
break;
case CodInt::Y:
if (! Desapilar(OperandoIzq))
Registro = (int) OperandoIzq && (int) Registro;
break;
case CodInt::Negar:
Registro = ! (int) Registro;
break;
case CodInt::Igual:
if (! Desapilar(OperandoIzq))
Registro = OperandoIzq == Registro;
break;
case CodInt::Distinto:
if (! Desapilar(OperandoIzq))
Registro = OperandoIzq != Registro;
break;
case CodInt::Menor:
if (! Desapilar(OperandoIzq))
Registro = OperandoIzq < Registro;
break;
case CodInt::MenorOIgual:
if (! Desapilar(OperandoIzq))
Registro = OperandoIzq <= Registro;
break;
case CodInt::Mayor:
if (! Desapilar(OperandoIzq))
Registro = OperandoIzq > Registro;
break;
case CodInt::MayorOIgual:
if (! Desapilar(OperandoIzq))
Registro = OperandoIzq >= Registro;
break;
case CodInt::Sumar:
if (! Desapilar(OperandoIzq))
Registro = OperandoIzq + Registro;
break;
case CodInt::Restar:
if (! Desapilar(OperandoIzq))
Registro = OperandoIzq - Registro;
break;
case CodInt::Multiplicar:
if (! Desapilar(OperandoIzq))
Registro = OperandoIzq * Registro;
break;
case CodInt::Dividir:
if (! Desapilar(OperandoIzq))
if (Registro == 0) Error = Div0;
else Registro = OperandoIzq / Registro;
break;
case CodInt::Menos:
Registro = - Registro;
break;
273
Un traductor sencillo para un lenguaje simple
case CodInt::IrASiV:
if (! (int) Registro) {
InstrAct++;
if (InstrAct >= Programa.Tam)
Error = FinProg;
break;
}
case CodInt::IrA:
InstrAct = (Ent16ns) Programa[InstrAct].Operando;
if (InstrAct >= Programa.Tam)
Error = FinProg;
break;
case CodInt::IrASiF:
if ((int) Registro) {
InstrAct++;
if (InstrAct >= Programa.Tam)
Error = FinProg;
break;
}
InstrAct = (Ent16ns) Programa[InstrAct].Operando;
if (InstrAct >= Programa.Tam)
Error = FinProg;
break;
}
if (Error == SinError && CodOp != CodInt::IrASiF &&
CodOp != CodInt::IrASiV && CodOp != CodInt::IrA) {
InstrAct++;
if (InstrAct >= Programa.Tam)
Error = FinProg;
}
return Error;
}
Ent8 Interprete::CrearVar( const Ascii0 & Ident ) {
if (BuscarVar(Ident) == 0) {
NodoLSE<Variable> * p = new NodoLSE<Variable>;
if (p == 0) Error = FaltaMem;
else {
p->Dato.Ident = Ident;
TablaDeVar.AgregFinal(p);
Error = SinError;
}
}
else Error = VarDeclPrev;
return Error;
}
Variable * Interprete::BuscarVar( const Ascii0 & Ident ) {
NodoLSE<Variable> * p = TablaDeVar.Entrada;
while (p != 0) {
if (! stricmp(p->Dato.Ident, Ident)) break; // encontrado
p = p->pSig; // sino seguir buscando
}
Error = p == 0 ? VarNoDecl : SinError;
return p != 0 ? & p->Dato : 0;
}
Ent8 Interprete::Apilar( double Valor ) {
return Error = Pila.AgregComienzo(Valor) ? SinError : FaltaMem;
}
274
Un traductor sencillo para un lenguaje simple
Ent8 Interprete::Desapilar( double & Valor ) {
NodoLSE<double> * p = Pila.Entrada;
if (p != 0) {
Valor = p->Dato;
Error = SinError;
}
else Error = PilaVacia;
Pila.Eliminar(p);
return Error;
}
16.10 Módulos fuentes dependientes del Sistema Operativo
Se mostrarán solamente los módulos importantes. Los demás son
fácilmente generables utilizando el AppExpert del Borland C++.
16.10.1 DLGINTER.H: generado por AppExpert y modificado por el autor
#if !defined(__dlginter_h)
not already included.
#define __dlginter_h
/*
// Sentry, use file only if it's
Project leng
Copyright © 1995. All Rights Reserved.
SUBSYSTEM:
FILE:
AUTHOR:
leng.exe Application
dlginter.h
Domingo Eduardo Becker.
OVERVIEW
========
Class definition for DlgInterp (TDialog).
*/
#include <owl\owlpch.h>
#pragma hdrstop
#include <owl\listbox.h>
#include "lengapp.rh"
// Definition of all resources.
# include "interp.h"
//{{TDialog = DlgInterp}}
struct DlgInterpXfer {
//{{DlgInterpXFER_DATA}}
TListBoxData ListaVars;
//{{DlgInterpXFER_DATA_END}}
};
class DlgInterp : public TDialog {
public:
DlgInterp (TWindow *parent, TResId resId = IDD_INTERPRETE, TModule
*module = 0);
virtual ~DlgInterp ();
275
Un traductor sencillo para un lenguaje simple
Interprete Interp;
Ent8 Animando;
void MostrarEstado();
void CargarListaVars();
//{{DlgInterpVIRTUAL_BEGIN}}
public:
virtual void SetupWindow ();
//{{DlgInterpVIRTUAL_END}}
//{{DlgInterpRSP_TBL_BEGIN}}
protected:
void Traza ();
void EjecucionAnimada ();
void PararAnimacion ();
//{{DlgInterpRSP_TBL_END}}
DECLARE_RESPONSE_TABLE(DlgInterp);
//{{DlgInterpXFER_DEF}}
protected:
TListBox *ListaVars;
//{{DlgInterpXFER_DEF_END}}
};
//{{DlgInterp}}
#endif
// __dlginter_h sentry.
16.10.2 DLGINTER.CMM: generado por AppExpert y modificado por el autor
/*
Project leng
Copyright © 1995. All Rights Reserved.
SUBSYSTEM:
FILE:
AUTHOR:
leng.exe Application
dlginter.cmm
Domingo Eduardo Becker.
OVERVIEW
========
Source file for implementation of DlgInterp (TDialog).
*/
#include <owl\owlpch.h>
#pragma hdrstop
#include "lengapp.h"
#include "dlginter.h"
//
// Build a response table for all messages/commands handled
// by the application.
//
DEFINE_RESPONSE_TABLE1(DlgInterp, TDialog)
//{{DlgInterpRSP_TBL_BEGIN}}
EV_BN_CLICKED(IDOK, Traza),
EV_BN_CLICKED(IDC_ANIMAR, EjecucionAnimada),
EV_BN_CLICKED(IDC_PARAR, PararAnimacion),
//{{DlgInterpRSP_TBL_END}}
276
Un traductor sencillo para un lenguaje simple
END_RESPONSE_TABLE;
//{{DlgInterp Implementation}}
//////////////////////////////////////////////////////////
// DlgInterp
// ==========
// Construction/Destruction handling.
static DlgInterpXfer DlgInterpData;
DlgInterp::DlgInterp (TWindow *parent, TResId resId, TModule *module)
: TDialog(parent, resId, module)
{
//{{DlgInterpXFER_USE}}
ListaVars = new TListBox(this, IDC_VARIABLES);
SetTransferBuffer(&DlgInterpData);
//{{DlgInterpXFER_USE_END}}
// INSERT>> Your constructor code here.
Animando = 0;
}
DlgInterp::~DlgInterp ()
{
Destroy();
// INSERT>> Your destructor code here.
}
void DlgInterp::SetupWindow ()
{
TDialog::SetupWindow();
// INSERT>> Your code here.
MostrarEstado();
}
void DlgInterp::MostrarEstado() {
Ascii0 cad;
double real;
if (Interp.Programa.Tam){
cad = Interp.Registro;
SetDlgItemText(IDC_REGISTRO, cad);
if (Interp.TopeDePila(real)) {
cad = real;
SetDlgItemText(IDC_PILA, cad);
}
else SetDlgItemText(IDC_PILA, "Vacía");
Interp.InstrActual(cad);
SetDlgItemText(IDC_CODIGO, cad);
CargarListaVars();
}
else {
SetDlgItemText(IDC_REGISTRO, "0");
SetDlgItemText(IDC_CODIGO, "No hay código");
SetDlgItemText(IDC_PILA, "Vacía");
ListaVars->ClearList();
}
}
void DlgInterp::Traza ()
277
Un traductor sencillo para un lenguaje simple
{
// INSERT>> Your code here.
Ent8 r = Interp.Ejecutar();
MostrarEstado();
if (r != Interprete::SinError) {
if (r == Interprete::FinProg)
MessageBox("El programa ha finalizado.", "Observación",
MB_OK | MB_ICONINFORMATION);
else
MessageBox("Error de ejecución", "ERROR", MB_OK | MB_ICONHAND);
Animando = 0; // por las dudas
CmOk();
}
}
void DlgInterp::CargarListaVars() {
ListaVars->ClearList();
Ascii0 cad;
NodoLSE<Variable> * p;
for (p = Interp.TablaDeVar.Entrada; p != 0; p = p->pSig) {
cad.printf("%s: %g", (char *) p->Dato.Ident, p->Dato.Valor);
ListaVars->AddString(cad);
}
}
void DlgInterp::EjecucionAnimada ()
{
// INSERT>> Your code here.
Animando = 1;
while (Animando) {
Traza();
GetApplication()->PumpWaitingMessages(); // pseudoparalelismo de
Windows
}
}
void DlgInterp::PararAnimacion ()
{
// INSERT>> Your code here.
Animando = 0;
}
La función DlgInterp::MostrarEstado muestra el estado del intérprete
en la pantalla.
La función DlgInterp::Traza pide al objeto intérprete que ejecute una
instrucción y muestra el estado en pantalla luego de ejecutarla.
La función DlgInterp::EjecucionAnimada realiza la ejecución
animada, mostrando el estado en pantalla para cada instrucción que se ejecuta.
Esta función puede ser interrumpida por el usuario. Termina su ejecución
cuando el usuario así lo pide o cuando no hay más instrucciones para ejecutar.
278
Un traductor sencillo para un lenguaje simple
La función DlgInterp::PararAnimacion es automáticamente llamada
por el sistema operativo cuando el usuario presiona el botón Parar de la
ventana del intérprete.
279
Parte 5. Anexos, Codigos Fuentes y
Conclusión.
280
Introducción a las Gramáticas Generativas
Capítulo 17: Introducción a las Gramáticas Generativas
Los conceptos aquí presentados se manejaban antes de que Chomsky
presentara su trabajo sobre lingüística computacional.
Lo que Chomsky hizo fue encontrar la explicación matemática del
mecanismo del lenguaje, partiendo de estudios de lingüística que se habían
realizado hasta ese momento.
Hasta el día de la edición de este trabajo, no se presentaron objeciones
valederas a los estudios realizados por Chomsky, aunque, a primera vista,
pareciera ser que la Teoría de los Lenguajes Formales va por otro camino
distinto al que tomó Chomsky.
Este capítulo está basado principalmente en Nique [1985]. Christian
Nique es de nacionalidad francesa. Aunque en Francia había una Escuela que
seguía caminos distintos en la investigación a los que seguía la Escuela
Americana, donde estaba Chomsky, fueron los estudios de éste último los que
predominaron e hicieron historia, y los lingüistas franceses y alemanes los que
más lo usaron en un principio.
Al finalizar la lectura de este capítulo, el lector estará en mejores
condiciones de iniciar el estudio de la Teoría de los Lenguajes Formales,
tratada en el capítulo 2 de este trabajo.
17.1 Un Mecanismo Finito para Generar un Número Infinito de
Oraciones
No sólo el hablante posee implícitamente el mecanismo del lenguaje,
sino que además es "en todo momento capaz de emitir espontáneamente, o de
percibir o comprender, un número indefinido de oraciones que, en su mayor
parte, no ha pronunciado nunca ni oído antes". Esto equivale a decir que,
cuando se habla , se hace algo más que reproducir esquemas de oraciones que
se escuchó antes, sino que también se crean oraciones nuevas. Entonces el
mecanismo del lenguaje es un mecanismo creador.
La repetición de oraciones es excepcional, y responde a características y
costumbres de algunos hablantes, por lo que (la repetición) no tiene ninguna
relación con la utilización del lenguaje. No se habla repitiendo lo que se ha
oído, sino mediante un acto de creación cada vez, y esta característica es
entonces la principal en el uso del lenguaje.
281
Introducción a las Gramáticas Generativas
Existen dos clases de creatividad que es preciso no confundir. La
primera, que se llama creatividad por cambio de reglas, consiste
fundamentalmente en cambiar ciertas partes del mecanismo lenguaje. Es lo que
hace variar la pronunciación de ciertas palabras, que crea otras nuevas, que
acaba por admitir como gramatical lo que no era en un principio, nada más que
una desviación en relación a las reglas. El segundo tipo es completamente
diferente. Se le llama creatividad gobernada por las reglas. Es la que permite
al hablante, por aplicación de las reglas de la gramática, crear una infinidad de
oraciones. Esto no es posible más que por la misma naturaleza de las reglas del
lenguaje, que poseen una propiedad muy particular, llamada en matemáticas
recursividad, es decir, la posibilidad de reproducirse hasta el infinito.
Se denomina competencia (Chomsky [1965]) al conocimiento que el
emisor-receptor tiene de su lengua. La actuación se define como la utilización
real en situaciones concretas de la competencia. A la competencia se la
considera como un mecanismo finito, es decir, formado por un número
limitado de reglas y capaz de generar un número infinito de oraciones.
La gramática, que no es otra cosa que la explicación de
la competencia, deberá responder a la misma definición para ser válida. Por
eso deberá disponer de reglas estrictas, formuladas con una extremada
precisión, y que podrán traducir esta propiedad de la competencia: la de ser un
mecanismo finito para generar un número infinito de oraciones.
17.2 Teoría General y Gramáticas Particulares
Normalmente se reserva el término gramática para el estudio de las
lenguas particulares, y el de teoría general para el estudio de las
particularidades en común que tienen todos los lenguajes, las diferencias entre
ellos, y entonces, las condiciones sobre la forma que debe tener la gramática
de cada lengua.
Se ve así la importancia de la teoría general (TG en adelante) para la
elaboración de las gramáticas particulares: éstas deben tener en cuenta la TG
para ser adecuadas.
Se denomina corpus a un conjunto de oraciones de un lenguaje. Para el
estudio de lenguas que ya no existen, se trata de conseguir un corpus
representativo de la misma.
282
Introducción a las Gramáticas Generativas
La TG puede ser concebida de tres maneras diferentes incluyentes entre
sí, y en cada una de ellas tendrá tareas distintas:
1. La TG puede proporcionar un conjunto de instrucciones, un mecanismo, que
permita al lingüista construir la mejor gramática de una lengua, a partir de un
corpus dado. El mecanismo sería de alguna manera "un procedimiento de
descubrimiento" de la gramática adecuada para cada lengua. Gráficamente:
Dato: Corpus
TG
Respuesta: gramática
Fig. 24 La Teoría General como un mecanismo para construir
gramática.
2. La TG puede proporcionar un método que, dados un corpus y una
gramática, permita decir si la gramática es o no adecuada. Sería en este caso
"un procedimiento de decisión".
Corpus
Datos:
TG
Gramática
Respuesta: la gramática es
o no es la adecuada
Fig. 25 La Teoría General como un mecanismo de validación de
gramáticas.
3. La TG puede, por último, ante dos gramáticas (o más) y un corpus, decir
cuál de las dos es la más adecuada. Se le llama entonces "procedimiento de
evaluación de las gramáticas".
Gramática 1
Datos:
Gramática 2
TG
Respuesta: la mejor
gramática es ...
Corpus
Fig. 26 La Teoría General como un mecanismo de selección de
gramáticas.
283
Introducción a las Gramáticas Generativas
La primera es la más exigente, pero no la más difícil, viene a pedir a la
teoría que diga qué forma debe tener la gramática de cada lengua. Esta
pregunta es difícil de responder, por lo tanto no se está en condiciones de
construir un procedimiento general de descubrimiento de las gramáticas. Pero
lo que si se puede, es usar ciertos criterios para construir una gramática para
un corpus dado.
La segunda es un poco menos exigente, puesto que sólo se trata de
verificar si las oraciones del corpus pueden ser generadas por la gramática, en
otras palabras, que se las pueda analizar sintácticamente por medio de la
gramática.
La tercera es la más comprometida puesto que la selección se realiza en
base a criterios formados con la experiencia del lingüista, y los criterios a usar
pueden ser varios, todos ellos con fundamentos válidos.
La Teoría General de la que se habló, recibió el nombre de Teoría de
los Lenguajes Formales, los lingüistas la conocen también como Lingüística
Computacional. Los temas tratados por esta teoría son mucho más profundos
que los tratados en este capítulo.
17.3 Gramaticalidad e Interpretabilidad
La Gramaticalidad es otro concepto importante. Para tener una visión
más clara de lo que es la gramaticalidad, es preciso oponerla a la
interpretabilidad.
Sea la oración siguiente:
El padre del primo del tío del abuelo del vecino de la hermana mayor
de la segunda mujer del escribano vino ayer a verme.
Sin duda, esta oración es ininterpretable cuando se accede a ella por
primera vez, pero es gramaticalmente correcta, y obedece a una de las reglas
que subyacen en la competencia de la que se ha hablado anteriormente.
Es posible encontrarse frente a cuatro tipos de oraciones que son:
1. Gramaticales e interpretables. Ejemplo:
A Pedro le gusta el chocolate.
284
Introducción a las Gramáticas Generativas
2. Gramaticales e ininterpretables. Ejemplo:
Pedro, cuyo amigo cuyo hermano bebe está borracho ha comido
chocolate.
3. Agramaticales e interpretables. Ejemplo:
Mamá, da buen chocolate bebé.
4. Agramaticales e ininterpretables. Ejemplo:
Chocolate la había ser lo canta árbol.
Si se analiza sin mayor precisión la oración del ejemplo 2:
Pablo ha comido el chocolate
cuyo amigo está borracho
cuyo hermano bebe
se observará que la oración está gramaticalmente bien formada.
En realidad, parece ser que la noción de interpretabilidad debería
integrarse en el estudio de la actuación, ya que depende de factores como la
limitación de la atención, comprensión, memoria, etc.
Una teoría de la competencia, por el contrario, es una teoría del
mecanismo del lenguaje, y debe, pues, dar cuenta de las oraciones gramaticales
y excluir las agramaticales. La noción de gramaticalidad no puede ni debe
confundirse con la aparición en un corpus, ni con la probabilidad estadística de
aparición, ya que un buen número de oraciones que se pronuncian no son
totalmente gramaticales, y las que son gramaticales en algunos casos nunca se
pronuncian.
En este sentido, la teoría de la competencia, es decir, la gramática
generativa, aparece un poco como gramática normativa. Pero no lo es del
mismo modo que lo eran las gramáticas tradicionales. No trata de preservar el
"hermoso" lenguaje, y no se erige en el defensor de un pretendido "lenguaje
correcto". Toma el lenguaje tal cual es, diferente según los individuos, según
las clases sociales, según las situaciones, y trata sólo de dar cuenta de su
funcionamiento. Pero no dicta ninguna regla del tipo: "No hay que decir ...
sino hay que decir ...". Constata lo que se dice, lo que no se dice, o que no se
dice ya tal o cual oración. No se pronuncia nunca sobre las nociones de "buen
o mal lenguaje", "estilo pesado", "torpeza", etc. Le basta decir cuáles son las
285
Introducción a las Gramáticas Generativas
oraciones gramaticales y cuáles las agramaticales, para dar cuenta de la
estructura de las primeras y excluir las segundas.
17.4 La Gramática Generativa
17.4.1 Noción de Gramática Generativa
Apoyándose únicamente sobre las reflexiones precedentes, es posible
considerar la gramática como una teoría que da cuenta de las oraciones
gramaticales, y sólo de las gramaticales. Pero esta definición por si sola no es
satisfactoria. La definición más correcta es:
Una gramática es un modelo de la competencia, es decir, que debe
hacer explícita la gramática implícita que poseen los sujetos hablantes.
El término modelo es muy importante. La gramática, de alguna manera,
es una máquina, un mecanismo que nos permite generar oraciones.
Esquemáticamente:
Constitucion
Entrada
(instrucciones o reglas)
de
Oraciones
Salida
(oraciones realizadas)
Fig. 27 La gramática como mecanismo para generar oraciones.
Este esquema muestra en qué sentido la gramática ha podido ser
calificada de generativa. Permite generar el conjunto infinito de oraciones de
la lengua. Pero no hay que confundirla con una máquina que permita la
emisión real de las oraciones.
Además, se hace la observación de que la gramática es "neutra" tanto
frente al emisor como al receptor. Es una teoría de la estructura y del
funcionamiento del código lingüístico, y no dice nada respecto al mecanismo
físico-psicológico que permite hablar y comprender.
La gramática generativa es tan sólo la explicitación del sistema de reglas
que subyace a la competencia, y la competencia es común al hablante y al
286
Introducción a las Gramáticas Generativas
oyente. En realidad, el estudio de la emisión y de la recepción cae dentro de
una teoría de la actuación.
De hecho, la gramática generativa no es una gramática en el sentido en
el que habitualmente se da a esta palabra. Sin duda se ocupa también de la
estructura de la lengua, pero si se distingue de las otras gramáticas no es sólo
por el punto de vista que ha elegido, sino sobre todo por el fin que se ha
impuesto. Las gramáticas tradicionales y estructurales eran modelos
taxonómicos de la lengua, mientras que las generativas son un modelo
explicativo. Desea no sólo formar un inventario de los elementos lingüísticos,
sino también explicar su funcionamiento, la regularidad de cada lengua, las
características comunes universales del lenguaje, y dar cuenta del fenómeno de
la creatividad. En este sentido, las gramáticas taxonómicas son a la vez
anteriores y necesarias para la gramática generativa: las primeras describen los
hechos lingüísticos que la segunda explica.
Al construir una gramática generativa, es decir, al dar cuenta de la
competencia, se debe partir de un hablante-oyente ideal que pertenezca a una
comunidad lingüística completamente homogénea, que conozca perfectamente
su lengua y que, cuando aplique ese conocimiento en una actuación real, no
esté influenciado por condiciones gramaticalmente irrelevantes como la
limitación de memoria, distracciones de interés o atención, o errores. Es una
teoría de la actuación la que deberá considerar estos diversos fenómenos.
17.4.2 Sincronía / Diacronía
Por el mismo fin que se impone, la gramática generativa no puede
estudiar la lengua más que en un cierto momento de su historia.
Los términos lingüística sincrónica y lingüística diacrónica fueron
introducidos por Saussure [1916] para distinguir los estudios que tienen por
objeto un cierto estado de la lengua de aquellos que se interesan por su
evolución, respectivamente.
La gramática generativa no puede ser más que sincrónica, en el mismo
sentido en que la competencia no puede estar situada más que en un momento
determinado en el tiempo y en la evolución de la lengua.
17.4.3 Análisis en Constituyentes Inmediatos
Se desarrollará un ejemplo simple para explicar cómo construir una
gramática generativa. Lo que se está por hacer es descubrir los aspectos más
287
Introducción a las Gramáticas Generativas
importantes de la teoría general antes mencionada. A tal efecto, se debe
olvidar por un momento de la TG y concentras la atención en la tarea que ésta
puede realizar: dado un corpus, obtener la gramática adecuada para el lenguaje
al que pertenece el corpus.
Se tiene un corpus cuyos componentes son oraciones que tienen la
misma estructura gramatical, según una gramática tradicional. Las oraciones
pertenecen al lenguaje utilizado en la escritura de este documento (Castellano).
El corpus es el siguiente:
El caballo salta el alambrado.
El gato toma la leche.
El perro come la carne.
El reloj marca la hora.
La niña saca la lengua.
Fig. 28 Un corpus del Castellano.
Si tomamos la primera oración, lo primero que se observa es una
oración correcta. Esa oración tiene sujeto y predicado, que son los dos
constituyentes inmediatos de la oración.
Si se analiza el sujeto, se observa que tiene un núcleo y un modificador
directo (MD); y éstos son sus componentes inmediatos. Lo mismo ocurre con
el predicado, que tiene un verbo y un objeto directo (OD) como
constituyentes. A su vez, el OD está formado por un núcleo y un MD.
Gráficamente:
1
El
caballo
salta
el
alambrado .
2
El
caballo
salta
el
alambrado .
3
El
caballo
salta
el
alambrado .
El
caballo
salta
el
alambrado .
4
Fig. 29 Separación de la oración en constituyentes inmediatos.
288
Introducción a las Gramáticas Generativas
o bien:
1
O
2
S
3
MD
4
MD
P
N
N
OD
V
V
MD
N
Fig. 30 Análisis de la oración en constituyentes inmediatos.
El paso 1 toma la oración. El paso 2 separa la oración en sus
componentes inmediatos y así sucesivamente.
Se podría decir que del paso 4 sigue un quinto:
4
MD
N
V
MD
5
El
caballo
salta
el
N
alambrado .
Fig. 31 Ultimo paso del análisis en constituyentes inmediatos.
con el cual demostramos que el análisis en constituyentes inmediatos es
válido.
Si al esquema realizado se lo grafica de otra forma, se tendría lo
siguiente:
O
S
P
OD
V
MD
El
MD
N
caballo
salta
el
N
alambrado
289
Introducción a las Gramáticas Generativas
Fig. 32 Análisis en componentes inmediatos (análisis sintáctico)
de la oración del corpus.
Este esquema es similar al anterior, y difiere solamente en que se
utilizan menos líneas. Como se observará, el gráfico es más claro que el
anterior. A este tipo de esquema se lo conoce como árbol, y en lingüística
computacional, como árbol de derivación o de análisis sintáctico.
Para generar las oraciones, la gramática debe poseer un conjunto de
instrucciones. Estas se presentan bajo la forma de reglas que permiten rescribir
un símbolo en una secuencia de símbolos. El problema aquí ya no es la
estructura de una oración particular, sino el de la estructura de toda oración
potencial.
En el corpus, las oraciones estaban formadas por sujetos (S) y
predicados (P). Se puede, entonces, formular una regla que diga más o menos
lo siguiente: si se está en presencia del símbolo O (oración), rescríbalo en S P
(es decir, la concatenación de las nociones sujeto y predicado). Esta regla
tendrá la forma:
O ---> S P
Se leerá "O se rescribe en S P".
La regla dada indica cómo pasar del paso 1 al 2 en el análisis realizado
arriba, es decir, dice cuáles son los constituyentes de la noción O (oración). Se
puede así escribir el conjunto de reglas:
O ---> S P
S ---> MD N
P ---> V OD
OD ---> MD N
(Se debe tener en cuenta que en este ejemplo no se consideran aspectos
semánticos y morfológicos.)
Estas reglas no son suficientes para generar verdaderamente las
oraciones. Hay que añadirles otra serie de reglas llamadas reglas léxicas:
MD ---> el | la
N ---> caballo | alambrado | gato | leche | perro | carne | reloj |
290
Introducción a las Gramáticas Generativas
hora | niña | lengua
V ---> salta | toma | come | marca | saca
Se leerá "MD se rescribe en el ó en la". El "ó" es en sentido excluyente. Las
palabras que aparecen en las reglas lexicales son todas aquellas que formaban
alguna oración en el corpus, no son palabras que no estaban en el corpus (es
decir, no se las inventa).
Se debe observar que las reglas lexicales se rescriben en nociones (o
símbolos) que pertenecen al lenguaje. Dichas nociones o símbolos se
denominan nociones terminales o símbolos terminales. Las nociones o
símbolos que en este ejemplo se escribieron con mayúsculas, son utilizadas
para describir al lenguaje que se está estudiando, y reciben el nombre de
metanociones o símbolos no terminales. Al lenguaje utilizado para describir un
lenguaje se lo denomina metalenguaje.
Aplicando sucesivamente las diferentes reglas obtenidas, se puede
obtener lo que se llama una derivación. Si para una oración dada se puede
construir un árbol de derivación que contenga sólo símbolos terminales en sus
hojas, se dirá que la oración es sintácticamente correcta (o gramaticalmente
correcta), sin importar si es interpretable o no.
Para mostrar más específicamente por qué se dice que la gramática es
generativa, se partirá desde O, y se realizarán derivaciones sucesivas hasta
llegar a obtener símbolos terminales en las hojas del árbol de derivación. Una
posibilidad sería la siguiente:
O
S
P
OD
V
MD
La
MD
N
niña
toma
la
N
leche
Fig. 33 Ejemplo de generación de una oración.
La oración obtenida es gramaticalmente correcta, y no figura en el
corpus. Es en este sentido en que se considera a la gramática como generativa,
porque a partir de un número finito de reglas se puede generar un número muy
291
Introducción a las Gramáticas Generativas
grandes (y a veces infinito) de oraciones. Por supuesto que si se hubieran
elegido otras reglas léxicas se habría llegado a una oración como "El gato
come el alambrado", lo cual no tiene sentido. La solución a este problema
puede ser agregar más reglas que no permitan tal combinación. Igualmente, la
concordancia en género y número del núcleo con el modificador directo se
puede resolver agregando reglas que restrinjan el uso de ellos.
Obsérvese que las reglas "S ---> N MD" y "OD ---> N MD" tienen
la misma secuencia de símbolos en la parte derecha de la flecha. Debido a que
la gramática sólo explica la estructura y no el significado, esas dos reglas se
pueden resumir en una sola, obteniéndose así una gramática mas pequeña.
Por último se puede decir que, si se tiene la descripción del lenguaje
(corpus), es probable que se pueda encontrar una gramática generativa que
describa la estructura del mismo. Lo de probable viene del hecho de que la
teoría general no tiene un procedimiento para escribir las reglas de la
gramática, por lo que el lingüista debe usar mucho su intuición.
La explicación del concepto de recursividad y del por qué es posible
generar infinitas oraciones con un número finito de reglas se da en el capítulo
2 de este trabajo.
292
Un poco de Historia
Capítulo 18: Un poco de Historia
18.1 Los descubrimientos y las investigaciones
Chomsky [1956] introdujo las gramáticas independientes del contexto
como parte de un estudio sobre lenguajes naturales. La utilización de este tipo
de gramáticas para la especificación de la sintaxis de los lenguajes de
programación surgió independientemente. El lingüista Panini diseñó una
notación sintáctica equivalente para especificar las reglas de la gramática del
sánscrito de entre el 400 a.C. y el 200 a.C. (Ingerman [1967]).
En una carta de Knuth [1964], está contenida la propuesta de que BNF,
que comenzó como una abreviatura de Backus Normal Form (forma normal de
Backus), se leyera Backus-Naur Form (forma de Backus-Naur), para reconocer
las contribuciones de Naur como editor del informe de ALGOL 60 (Naur
[1963]).
Las definiciones dirigidas por la sintaxis son una forma de definición
inductiva, en la cual la inducción se encuentra en la estructura sintáctica.
Como tales, han sido muy utilizadas en matemática. Su aplicación a los
lenguajes de programación se introdujo con el uso de una gramática para
estructurar el informe de ALGOL 60. Poco tiempo después, Irons [1961]
construyó un compilador dirigido por la sintaxis.
El análisis sintáctico descendente recursivo se utiliza aproximadamente
desde 1960. Bauer [1976] atribuye el método a Lucas [1961]. Hoare [1962,
pág. 128] describe un compilador de ALGOL organizado como "un conjunto
de procedimientos, cada uno de los cuales puede procesar una de las unidades
sintácticas del informe de ALGOL 60". Foster [1968] analiza la eliminación de
la recursividad por la izquierda de las producciones con acciones semánticas
que no afecten a los valores de los atributos.
McKarthy [1963] abogaba por que la traducción de un lenguaje se
basara en una sintaxis abstracta. En el mismo artículo, McKarthy [1963, pág.
24] dejaba "que el lector se convenciera por sí mismo" de que una formulación
recursiva por el final de la función factorial es equivalente a un programa
iterativo.
Las ventajas de dividir un compilador en una etapa inicial y otra final se
analizaron en un informe del comité de Strong y colaboradores [1958]. El
informe acuño el término UNCOL (del inglés universal computer oriented
293
Un poco de Historia
language, lenguaje orientado a un computador universal) para un lenguaje
intermedio universal. El concepto ha quedado como un ideal.
Kernighan y Pike [1984] describen en detalle cómo construir un
programa de calculadora de escritorio a partir de un esquema de traducción
dirigida por la sintaxis, utilizando las herramientas para la construcción de
compiladores disponibles en el sistema operativo UNIX.
Las limitaciones impuestas a los aspectos léxicos de un lenguaje suelen
estar determinadas por el ambiente en que se creó el lenguaje. Cuando se
diseñó FORTRAN en 1954, las tarjetas perforadas eran un medio común de
entrada. En FORTRAN se ignoraron los espacios en blanco debido en parte a
que los perforistas, que preparaban las tarjetas a partir de notas escritas a
mano, tendían a equivocarse al contar los espacios en blanco (Backus [1981]).
La separación en ALGOL 58 de la representación en hardware a partir del
lenguaje de referencia fue un acuerdo alcanzado debido a que un miembro del
comité de diseño insistió: "No, nunca usaré un punto para el signo decimal".
(Wegstein [1981]).
Knuth [1973] presenta otras técnicas para manejar la entrada con
buffers. Feldman [1979b] analiza las dificultades prácticas del reconocimiento
de componentes léxicos en FORTRAN 77.
Las expresiones regulares fueron estudiadas por primera vez por Kleene
[1956], que estaba interesado en describir los acontecimientos que se podían
representar con el modelo de autómata finito de actividad nerviosa de
McCulloch y Pitts [1943]. La minimización de los autómatas finitos fue
estudiada por primera vez por Huffman [1954] y Moore [1956]. La
equivalencia entre autómatas determinísticos y no determinísticos en cuanto a
su capacidad para reconocer lenguajes fue mostrada por Rabin y Scott [1959].
McNaughton y Yamada [1960] describen un algoritmo para construir un AFD
directamente a partir de una expresión regular, que es el que se implementa en
este trabajo.
Pronto se comprendió que las herramientas para construir analizadores
lexicográficos a partir de especificaciones en forma de expresiones regulares
serían útiles en la implantación de compiladores. En Johnson y otros [1968] se
analiza uno de estos primeros sistemas. LEX, se debe a Lesk [1975], y se ha
utilizado para construir analizadores lexicográficos para muchos compiladores
que trabajan bajo UNIX.
Las expresiones regulares y los autómatas finitos se han utilizado para
muchas aplicaciones, además de para la compilación. Muchos editores de texto
294
Un poco de Historia
usan expresiones regulares para búsquedas dentro del texto. El sistema UNIX
tiene tres programas de búsqueda de propósito general basados en expresiones
regulares: grep, egrep y fgrep. El programa grep no permite unión o paréntesis
para agrupar en sus expresiones regulares, pero si una forma limitada de
referencia hacia atrás como en SNOBOL. Actualmente, grep se encuentra en
casi todos los sistemas operativos de computadoras personales. También se
utilizan las expresiones regulares en lenguajes de consultas de bases de datos y
en lenguajes para procesamiento de archivos, como AWK (Aho, Kernighan y
Weinberger [1979]). Jarvis [1976] utilizó expresiones regulares para describir
rasgos distintivos en circuitos impresos.
El muy influyente informe de ALGOL 60 (Naur [1963]) utilizó la forma
de Backus Naur (BNF) para definir la sintaxis de un importante lenguaje de
programación. Se descubrió la equivalencia entre BNF y las gramáticas
independientes del contexto, y la teoría de los lenguajes formales fue objeto de
una gran atención en la década de 1960.
Los métodos de análisis sintáctico se hicieron mucho más sistemáticos
tras el desarrollo de las gramáticas independientes del contexto. Se inventaron
diversas técnicas generales para analizar cualquier gramática independiente del
contexto. Una de las primeras es la técnica de programación dinámica
descubierta independientemente por Younger [1967] y Kasami [1965]. Como
tesis doctoral, Earley [1970] también desarrolló un algoritmo de análisis
sintáctico universal para todas las gramáticas independientes del contexto.
Se han empleado muchos métodos distintos de análisis sintáctico en los
compiladores. Los análisis sintácticos por descenso recursivo y predictivo son
muy utilizados en la práctica. Dada su flexibilidad, se utilizó el análisis
sintáctico por descenso recursivo en muchos de los primeros generadores de
compiladores como META (Schorre [1964]) y TMG (McClure [1965]). Pratt
[1973] propone un método de análisis sintáctico descendente por precedencia
de operadores.
Las gramáticas LL fueron estudiadas por Lewis y Stearns [1968] y sus
propiedades se desarrollaron en Rosenkrantz y Stearns [1970]. Los
analizadores sintácticos predictivos fueron estudiados a fondo por Knuth
[1971]. Lewis, Rosenkrantz y Stearns [1976] describen el uso de los
analizadores sintácticos predictivos en los compiladores. En Tamagnini [1994]
se presenta un generador de tablas para el análisis sintáctico LL(1). Los
algoritmos para convertir gramáticas a la forma LL(1) se introducen en Foster
[1968], Wood [1969], Stearns [1971] y Soisalon-Soininen y Ukkonen [1979].
295
Un poco de Historia
Las gramáticas y los analizadores sintácticos LR fueron introducidos
por primera vez por Knuth [1965], quien describió la construcción de las
tablas de análisis sintáctico LR canónico. El método LR no resultó práctico
hasta que Korenjak [1969] mostró que con él se podrían producir analizadores
sintácticos de tamaño razonable para gramáticas de los lenguajes de
programación. Cuando DeRemer [1969, 1971] inventó los métodos SLR y
LALR, que son más simples que el de Korenjak, la técnica LR se convirtió en
el método elegido para los generadores automáticos de analizadores
sintácticos. Hoy en día, los generadores de analizadores LR son habituales en
los entornos de construcción de compiladores.
La impresión de que el análisis sintáctico descendente permite una
mayor flexibilidad en la traducción resultó ser falsa, ya que Brosgol [1974]
demostró que un esquema de traducción basado en una gramática LL(1) se
puede simular durante el análisis sintáctico LR(1).
Gran parte de la investigación se dedicó a la construcción de
analizadores sintácticos LR. El uso de gramáticas ambiguas en el análisis
sintáctico LR se debe a Aho, Johnson y Ullman [1975] y a Earley [1975]. La
eliminación de las reducciones por reglas simples ha sido estudiada en
Anderson, Eve y Horning [1973], Aho y Ullman [1973b], Demers [1975],
Backhouse [1976], Joliat [1976], Pager [1977], Soisalon-Soininen [1980] y
Tokuda [1981].
Watt [1977] utilizó no terminales marcadores para garantizar que los
valores de los atributos heredados aparezcan en una pila durante el análisis
sintáctico ascendente. Las posiciones en los lados derechos de las reglas donde
se pueden insertar los no terminales marcadores sin perder la propiedad LR(1)
son estudiadas por Purdom y Brown [1980].
Aho y Johnson [1974] realizan un estudio general del análisis sintáctico
LR y analizan algunos de los algoritmos en que se basa el generador de
analizadores sintácticos YACC, incluido el uso de producciones de error para
la recuperación de errores. Aho y Ullman [1972 y 1973a] dan un tratamiento
bastante completo del análisis sintáctico LR y de sus fundamentos teóricos. La
corrección de errores durante el análisis sintáctico es estudiada por Conway y
Maxwell [1963], Moulton y Muller [1967], Conway y Wilcox [1973], Levy
[1975], Tai [1978] y Röhrich [1980].
296
Un poco de Historia
18.2 Historia del desarrollo de los Generadores Presentados en este
trabajo
18.2.1 SLR1 v 1 y su biblioteca de soporte
A fines de noviembre de 1992 comienza el desarrollo de SLR1 v 1. El
primer prototipo funcionando se obtuvo el 15 Dic 92; el ejecutable se llamó
SLR1 y, desde ese momento el generador recibió ese nombre. Para la carga de
la gramática en memoria se utiliza un analizador lexicográfico hecho a mano, y
un analizador sintáctico SLR hecho a mano.
La primera revisión de SLR1 v 1 fue en Set 93. La segunda revisión
comenzó en Dic 94 y terminó el 21 Dic 94; al finalizar esta revisión nace la
versión 2 de SLR1. Esta versión incluye el uso de templates de C++ para las
estructuras de datos. La implementación del generador queda pendiente, sólo
se creó la biblioteca de soporte del mismo.
18.2.2 AFD v 1 y la biblioteca ExpReg v 1
La primera versión de AFD, el generador de autómatas finitos
determinísticos a partir de expresiones regulares, fue comenzado a desarrollar
el 09 Ene 95, su análisis comenzó en Dic 94, durante la segunda revisión de
SLR1. La obtención del primer prototipo fue el 13 Ene 95, y recibe el nombre
de AFD v 1, el ejecutable tenía el nombre AFD.EXE y corría bajo DOS. Para
cargar la expresión regular en memoria se utilizó un analizador sintáctico
generado con SLR1 v 1. El analizador lexicográfico de esta versión devolvía
símbolos léxicos de longitud igual a 1. El 13 Ene 95 también nace la biblioteca
ExpReg v 1, que hasta el momento de la escritura de este capítulo no cambió.
18.2.3 AFD v 2
Utilizando AFD v 1 y la biblioteca ExpReg v 1 se generaron autómatas
para el analizador lexicográfico de las versiones siguientes de AFD. AFD v 2
nace el 19 Ene 95, su analizador lexicográfico reconoce ahora símbolos de
longitud mayor de un caracter, y se incluye la posibilidad de utilizar
secuencias de escape similares a las del C++, a excepción de \0 y \xDDD.
297
Un poco de Historia
18.2.4 AFD v 3.1 y 3.2
AFD v 3.1 comienza a desarrollarse el 19 Ene 95 y finalizó el 24 Ene
95. La gramática de AFD v 2 se cambió por una nueva, y se mejora el
analizador lexicográfico para que trabaje correctamente con la nueva
gramática. Se cambiaron las precedencias de los operadores que pueden
participar en una expresión regular.
AFD v 3.2 incluye la posibilidad de especificar archivos de entrada y de
salida.
18.2.5 SLR1 v 2 y su biblioteca de soporte
SLR1 v 2 nace el 26 Ene 95. Se utilizan SLR1 v 1 y AFD v 3.2 para
construir los analizadores sintáctico y lexicográfico.
Los principales cambios fueron:
1. El analizador sintáctico es ahora un objeto construido a partir de las
tablas generadas por SLR1 v 1 y, opcionalmente, se especifica la
función de acciones semánticas y la función para ver el estado de la pila
del analizador. El análisis sintáctico se realiza a través de la función
Analizar de la clase que implementa el analizador (queda todo
encapsulado en esa clase). El analizador lexicográfico pasa a ser un
parámetro en el llamado a la función Analizar.
2. El objeto analizador es una instancia de la clase AnalSLR1<XX> donde
AnalSLR1 es una clase template y XX es la clase que implementa el
elemento de la pila del analizador. Por defecto, el elemento de la pila
recibe el nombre de ElemPila y su declaración se provee al usuario de
SLR1 v 2.
3. Se agrega la posibilidad de la "limpieza" de la pila, para los casos en que
las clases que implementen su estructura sean complejas.
El segundo prototipo fue desarrollado con la versión 2 de la
metagramática para la especificación de gramáticas, en donde se incluyen
acciones semánticas. A partir de ese momento es posible especificar
directamente esquemas de traducción a SLR1 v 2. El analizador sintáctico del
segundo prototipo fue generado a partir del primer prototipo de esta misma
versión. El analizador lexicográfico fue generado por el primer prototipo de
SLR1 v 2, mientras que las expresiones regulares y los AFDs no cambiaron.
298
Un poco de Historia
18.3 Historia del capítulo 17
El documento que da una introducción a las gramáticas generativas,
presentado en el capítulo 17 de este trabajo, fue escrito por primera vez en
Junio de 1991, con la colaboración de la profesora Rosa Díaz de Lopez, para
servir de apoyo teórico a la cátedra Idioma I de la carrera de Ingeniería en
Computación de la Universidad Católica de Santiago del Estero.
La primera revisión del documento fue realizada por el autor y por la
profesora al momento de terminar de escribirlo. La segunda revisión del
mismo fue realizada en Junio de 1992. La tercera revisión en Junio de 1993. Y
la última revisión en Febrero de 1996, durante su inclusión en este trabajo.
299
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
Capítulo 19: Códigos Fuentes de la Biblioteca de Soporte de SLR1
v 2.x
La biblioteca de soporte de la versión 1.x está incluida en esta versión,
por tal razón, su códifo fuente no es incluida y se incluye sólo los de la versión
2.x.
Los módulos fuentes presentados en este capítulo son independientes
del sistema operativo y del compilador con el cual se trabaje. No ocurre lo
mismo con la implementación de SLR1 v 2.x.
A los efectos de no repetir código fuente dentro de este trabajo, cuando
sea aplicable, se introducirán referencias hacia otras partes dentro de este
documento, en donde era oportuno incluirlos.
19.1 GRAMLC.H
# ifndef __GRAMLC_H
# define __GRAMLC_H
// GRAMLC.H: definición de las clases necesarias para tratar con
gramáticas
//
libres de contexto.
// Creación: 20-10-93
// Copyright (c) 1993 by Domingo Eduardo Becker.
// All rights reserved.
class Archivo; // declarada en archabst.h (de la biblioteca de clases
BCE)
class ArchivoSO; // declarada en archivo.h (de BCE)
# ifndef __ASCII0_H
# include <ascii0.h>
# endif
# ifndef __FVARIAS_H
# include <fvarias.h> // func Aceptar
# endif
class Simbolo {
protected:
Ascii0 * Cad;
Ent8 ReasignarCadena( const char * cad );
public:
Ent16ns Codigo : 15; // 15 bits para el código de símbolo (máx 23767
símbolos)
Ent8ns NoTerminal : 1; // 1 bit para decir si es no terminal o terminal
Simbolo() { Codigo = NoTerminal = 0; Cad = 0; }
Simbolo( const Simbolo & s );
Simbolo( const char * Cadena, Ent16ns Codigo, Ent8ns NoTerminal );
Simbolo( const Ascii0 & cadena, Ent16ns codigo, Ent8ns noterminal );
300
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
virtual ~Simbolo();
const Ascii0 & Cadena() const;
static Ascii0 ErrorCadenaNula; // por si Cad == 0
Ent8 Reasignar( const char * Cadena, Ent16ns Codigo, Ent8ns NoTerminal
);
Ent8 Reasignar( const Ascii0 & Cadena, Ent16ns Codigo, Ent8ns NoTerminal
);
Simbolo & operator = ( const Simbolo & s );
Ent8 operator == ( const char * cadena ) const;
Ent8 operator == ( Ent16ns CodComp ) const;
Ent16ns CodigoCompuesto() const;
enum { CAD, CAD_COD, CAD_TER, CAD_COD_TER };
static Ent8 Mostrar( Ent8 que = CAD ); //
// por defecto se muestra solo la cadena del símbolo
};
inline Simbolo::Simbolo( const Simbolo & s ) {
Codigo = NoTerminal = 0;
Cad = 0;
operator = (s);
}
inline Simbolo::Simbolo( const char * Cadena, Ent16ns Codigo, Ent8ns
NoTerminal ) {
Cad = 0;
Reasignar(Cadena,Codigo,NoTerminal);
}
inline Simbolo::Simbolo( const Ascii0 & cadena, Ent16ns codigo, Ent8ns
noterminal ) {
Cad = 0;
Reasignar(cadena,codigo,noterminal);
}
inline Ent8 Simbolo::ReasignarCadena( const char * cadena ) {
if (Cad != 0) {
delete Cad;
Cad = 0;
}
if (cadena == 0) return 1; // cadena fuente nula
Cad = new Ascii0;
if (Cad == 0) return 0;
*Cad = cadena;
Cad->Reasignar(); // hace que Cad tenga una copia de cadena en mem. din.
return CodError == 0;
}
inline Ent8 Simbolo::Reasignar( const char * cadena, Ent16ns cod, Ent8ns
noterm ) {
Codigo = cod;
NoTerminal = noterm;
return ReasignarCadena(cadena);
}
inline Ent8 Simbolo::Reasignar( const Ascii0 & cadena, Ent16ns cod, Ent8ns
noterm ) {
Codigo = cod;
NoTerminal = noterm;
return ReasignarCadena(cadena);
}
301
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
inline Simbolo & Simbolo::operator = ( const Simbolo & s ) {
Reasignar(s.Cadena(), s.Codigo, s.NoTerminal);
return *this;
}
inline Ent16ns CodigoCompuesto( Ent16ns cod, Ent8ns noterminal ) {
return noterminal ? 0x8000 | cod : cod;
}
inline Ent16ns Simbolo::CodigoCompuesto() const {
return ::CodigoCompuesto(Codigo, NoTerminal);
}
inline const Ascii0 & Simbolo::Cadena() const {
return Cad == 0 ? (ErrorCadenaNula.Vaciar(), ErrorCadenaNula) : *Cad;
}
extern "C" int stricmp( const char *, const char *);
inline Ent8 Simbolo::operator == ( const char * cadena ) const {
return Cad == 0 || ! Cad->Long() ? 0 : ! stricmp(cadena, *Cad);
}
inline Ent8 Simbolo::operator == ( Ent16ns CodComp ) const {
return CodComp == CodigoCompuesto();
}
Archivo & operator << ( Archivo & a, const Simbolo & s );
ArchivoSO & operator << ( ArchivoSO & a, const Simbolo & s );
ArchivoSO & operator >> ( ArchivoSO & a, Simbolo & s );
// Clase ConjSimb: define la forma que debe tener un conjunto de
// símbolos.
class ConjSimb { // Conjunto de Símbolos genérico
public:
ConjSimb() { }
virtual ~ConjSimb() { }
virtual void Vaciar() = 0; // vacía al conjuto de símbolos
// Si la implementación lo permite, las funciones Agregar deben
// agregar el símbolo al final de todos los anteriores.
virtual Ent8 Agregar( const char * cadena, Ent16ns codigo, Ent8ns
noterminal,
Ent8 AceptRedundancia ) = 0;
virtual Ent8 Agregar( const Simbolo & s, Ent8 AceptRedundancia ) = 0;
virtual const Simbolo * Buscar( const char * Cadena ) const = 0;
virtual const Simbolo * Buscar( Ent16ns CodigoCompSimb ) const = 0;
virtual Ent16ns NumSimb() const = 0; // devuelve el número de símbolos
Ent8 EsElemento( const char * Cadena ) const;
Ent8 EsElemento( const Ascii0 & Cadena ) const;
Ent8 EsElemento( Ent16ns CodigoCompSimb ) const;
Ent8 EsElemento( const Simbolo & s ) const;
};
inline Ent8 ConjSimb::EsElemento( const char * Cadena ) const {
return Buscar(Cadena) != 0;
}
inline Ent8 ConjSimb::EsElemento( const Ascii0 & Cadena ) const {
return ConjSimb::EsElemento((const char *) Cadena);
}
inline Ent8 ConjSimb::EsElemento( Ent16ns CodigoCompSimb ) const {
return Buscar(CodigoCompSimb) != 0;
302
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
}
inline Ent8 ConjSimb::EsElemento( const Simbolo & s ) const {
if (s.Cadena().Long())
return EsElemento(s.Cadena()) || EsElemento(s.CodigoCompuesto());
else
return EsElemento(s.CodigoCompuesto());
}
Ent8 CambAcepAmbig();
# ifndef __LSE_H
# include "lse.h"
# endif
// ConjSimbLSE: Conjunto de símbolos donde los símbolos se encuentran en
una
// lista simple encadenada.
class ConjSimbLSE : public ConjSimb {
protected:
void Agregar( register NodoLSE<Simbolo> * p );
public:
LSE<Simbolo> lse;
NodoLSE<Simbolo> * pUlt;
ConjSimbLSE() { pUlt = 0; }
ConjSimbLSE( const ConjSimbLSE & cs );
virtual ~ConjSimbLSE() { }
virtual void Vaciar() { lse.Vaciar(); pUlt = 0; } // vacia el conjunto
virtual Ent16ns NumSimb() const { return lse.NumElem(); }
virtual Ent8 Agregar( const char * cadena, Ent16ns codigo, Ent8ns
noterminal,
Ent8 AceptRedundancia = 0 );
virtual Ent8 Agregar( const Simbolo & s, Ent8 AceptRedundancia = 0 );
Ent8 Agregar( Ent16ns codigo, Ent8ns noterminal, Ent8 AceptRedundancia =
0 );
Ent8 AgregarSinCad( const Simbolo & s, Ent8 AceptRedundancia = 0 );
Ent16ns Agregar( const ConjSimbLSE & cs, Ent8 AceptRedundancia = 0 );
const Simbolo * Buscar( const char * Cadena ) const;
const Simbolo * Buscar( const Ascii0 & Cadena ) const;
const Simbolo * Buscar( Ent16ns CodigoCompSimb ) const;
};
inline ConjSimbLSE::ConjSimbLSE( const ConjSimbLSE & cs ) {
pUlt = 0;
Agregar(cs);
}
inline void ConjSimbLSE::Agregar( register NodoLSE<Simbolo> * p ) {
if (lse.Entrada == 0) lse.Entrada = pUlt = p;
else {
pUlt->pSig = p;
pUlt = p;
}
}
inline Ent8 ConjSimbLSE::Agregar( const Simbolo & s, Ent8 ar ) {
register NodoLSE<Simbolo> * p;
// Si no se acepta redundancia y el símbolo ya existe no se agrega
// antes del 30Ene96:
303
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
// if ( ! ar && ( EsElemento(s.CodigoCompuesto()) ||
//
(const char *) s.Cadena() != 0 &&
EsElemento(s.Cadena()) ) )
// ahora:
if ( ! ar && EsElemento(s) )
return 0;
p = new NodoLSE<Simbolo>(s);
if (p == 0) return 0;
Agregar(p);
return 1;
}
inline Ent8 ConjSimbLSE::Agregar( const char * cadena, Ent16ns codigo,
Ent8ns noterminal, Ent8 ar ) {
register NodoLSE<Simbolo> * p;
// Si no se acepta redundancia y el símbolo ya existe no se agrega
if (! ar && (EsElemento(CodigoCompuesto(codigo, noterminal)) ||
cadena != 0 && EsElemento(cadena)))
return 0;
p = new NodoLSE<Simbolo>;
if (p == 0) return 0;
p->Dato.Reasignar(cadena, codigo, noterminal);
Agregar(p);
return 1;
}
inline Ent8 ConjSimbLSE::Agregar( Ent16ns cod, Ent8ns noterm, Ent8 ar ) {
return ConjSimbLSE::Agregar(0, cod, noterm, ar);
}
inline Ent8 ConjSimbLSE::AgregarSinCad( const Simbolo & s, Ent8 ar ) {
return ConjSimbLSE::Agregar(0, s.Codigo, s.NoTerminal, ar);
}
inline const Simbolo * ConjSimbLSE::Buscar( const Ascii0 & Cadena ) const
{
return ConjSimbLSE::Buscar((const char *) Cadena);
}
Archivo & operator << ( Archivo & archivo, const ConjSimbLSE & conjunto );
class Alfabeto;
class ReglaLC : public ConjSimbLSE { // Regla de una gramática Libre de
Contexto
public:
Ascii0 AccSem; // acciones semánticas
ReglaLC() { }
ReglaLC( const ReglaLC & r );
virtual ~ReglaLC() { }
Ent8 Agregar( const char * cadena, Ent16ns codigo = 0, Ent8ns noterminal
= 0,
Ent8 AceptRedundancia = 1 );
Ent8
Ent8
Ent8
1 );
Ent8
Agregar( const Simbolo & s, Ent8 AceptRedundancia = 1 );
Agregar( const ConjSimbLSE & cs, Ent8 AceptRedundancia = 1 );
Agregar( Ent16ns codigo, Ent8ns noterminal, Ent8 AceptRedundancia =
AgregarSinCad( const Simbolo & s, Ent8 AceptRedundancia = 1 );
Ent16ns LongParteDer() const; // longitud de la parte derecha de la
regla
const Simbolo * ParteIzq() const { return SimboloI(0); }
304
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
const Simbolo * SimboloI( Ent16ns i ) const;
void Vaciar() { ConjSimbLSE::Vaciar(); AccSem.Vaciar(); }
};
inline ReglaLC::ReglaLC( const ReglaLC & r ) {
Agregar(r);
AccSem = r.AccSem;
}
inline Ent8 ReglaLC::Agregar( const char * cad, Ent16ns cod, Ent8ns nt,
Ent8 ar ) {
return ConjSimbLSE::Agregar(cad,cod,nt,ar);
}
inline Ent8 ReglaLC::Agregar( const Simbolo & s, Ent8 ar ) {
return ConjSimbLSE::Agregar(s,ar);
}
inline Ent8 ReglaLC::Agregar( const ConjSimbLSE & cs, Ent8 ar ) {
return ConjSimbLSE::Agregar(cs,ar);
}
inline Ent8 ReglaLC::Agregar( Ent16ns cod, Ent8ns noterm, Ent8 ar ) {
return ConjSimbLSE::Agregar(cod, noterm, ar);
}
inline Ent8 ReglaLC::AgregarSinCad( const Simbolo & s, Ent8 ar ) {
return ConjSimbLSE::AgregarSinCad(s, ar);
}
inline Ent16ns ReglaLC::LongParteDer() const {
register Ent16ns c = ConjSimbLSE::NumSimb();
return c ? c-1 : 0;
}
inline const Simbolo * ReglaLC::SimboloI( Ent16ns i ) const {
register ReglaLC * este = (ReglaLC *) this; // this es const ReglaLC *
return este->lse.DatoNodoI(i);
}
Archivo & operator << ( Archivo & a, const ReglaLC & r );
class Alfabeto : public ConjSimbLSE {
public:
Alfabeto() { }
Alfabeto( const Alfabeto & a ) : ConjSimbLSE(a) { }
virtual ~Alfabeto() { }
// Todas las funciones de ConjSimbLSE se heredan públicamente
// por lo que están disponibles para su uso.
};
class DescrTerminal {
public:
Ascii0 Cadena, NomArch;
DescrTerminal() { }
~DescrTerminal() { }
};
// Cadena: Ident que aparece en las directivas IGNORAR y TERMINAL. Si
//
Cadena no es hallado en el conj. de terminales, se usó IGNORAR.
// NomArch: nombre del archivo donde está la expresión regular. Si
//
! NomArch.Long() entonces el nombre es la Cadena del símbolo.
305
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
// DescrAccSem: clase que describe una acción semántica común a dos
// o más reglas.
class DescrAccSem {
public:
Ascii0 Ident, TxtAccSem;
DescrAccSem() { }
~DescrAccSem() { }
};
// Ident: identificador usado en la directiva ACCSEM.
// TxtAccSem: texto correspondiente al BlqCod especificado en la
directiva.
class Gramatica {
public:
Alfabeto Term, NoTerm;
LSE<ReglaLC> Reglas;
Ascii0 BlqCodInic, ClaseElemPila;
LSE<DescrAccSem> TablaAccSem; // Acciones semánticas comunes a dos o
// más reglas.
LSE<DescrTerminal> TablaTerminal; // si hay terminales descriptos por
// expresiones regulares, aquí están
los
// nombres de archivo.
Ent8 MayIgualMin;
static Ent16ns CodError;
Gramatica() { MayIgualMin = 0; }
Gramatica( Alfabeto & terminal, Alfabeto & no_terminal );
virtual ~Gramatica() { }
Ent8 Reasignar( const char * TxtGram, Ascii0 & CadPosErr );
// Reasignar carga gramática en formato texto de TxtGram. CadPosErr
tiene
// la posición del error si se produce alguno. En Gramatica::CodError
está
// el código de error luego de reasignar. Evalúe con los códigos de la
// clase AnalSLR1 declarada en slr1.h.
Ent8 AgregRegla( const ReglaLC & regla );
const Simbolo * SimbInic() const;
Ent16ns NumNoTerm() const { return NoTerm.NumSimb(); }
Ent16ns NumTerm() const {
return
Term.NumSimb(); }
Ent16ns ArmarAlfabetos();
// ArmarAlfabetos construye Term y NoTerm a partir de Reglas. Asigna
// códigos a los símbolos que aparecen en Reglas de acuerdo al orden de
// aparición en las mismas.
Ent8 AnulableSimple( Ent16ns CodCompSimbNoTerminal ) const;
Ent8 Anulable( Ent8 * pvBandAnulable ) const;
Ent16ns CalcPrimeroSinLambda( Alfabeto * pvaPrim, Ent8 * pvAnulable = 0
) const;
// CalcPrimeroSinLambda calcula Primero() para todos los símbolos no
// terminales de la gramática, pero sin agregar lambda a ninguno de los
// conjuntos. pvaPrim es un puntero a un vector de alfabetos cuyo tamaño
// es el número de símbolos no terminales de la gramática actual, cada
// elemento del vector contiene Primero() de cada símbolo
respectivamente,
// por orden de aparición de los símbolos en NoTerm.
Ent16ns CalcSiguiente( Alfabeto * pvaSig, Alfabeto * pvaPrim = 0,
306
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
Ent8 * pvAnulable = 0 ) const;
// CalcSiguiente() calcula Siguiente() para todos los no terminales de
la
// gramática. pvaSig
// cuyo tamaño es el
actual
// (NumNoTerm()). En
// pvaPrim, si no es
y pvaPrim apuntan cada uno a un vector de Alfabetos
número de simb. no terminales de la gramática
pvaSig se guardan los conjuntos siguientes y en
nulo, se guardan los conjuntos primero.
Ent8 ImprAccSem( Archivo & arch, const char * sufijo = 0 ) const;
// Imprime en formato C++ las acciones semánticas especificadas para
esta
// gramática.
Ent8 ImprAnaLex( Archivo & arch, const char * sufijo = 0 ) const;
// Imprime un analizador lexicográfico en formato C++ para la gramática,
// implementado con un objeto de la clase AnaLex (de expreg.h).
Ent16 ImprAnulPrimSig( Archivo & arch );
void Vaciar();
};
inline Ent8 Gramatica::AgregRegla( const ReglaLC & regla ) {
return Reglas.AgregFinal(regla);
}
inline const Simbolo * Gramatica::SimbInic() const {
return Reglas.NumElem() ? Reglas.Entrada->Dato.ParteIzq() : 0;
}
inline void Gramatica::Vaciar() {
Term.Vaciar();
NoTerm.Vaciar();
Reglas.Vaciar();
BlqCodInic.Vaciar();
TablaAccSem.Vaciar();
TablaTerminal.Vaciar();
MayIgualMin = 0;
}
// SimbFA es el nombre lógico del símbolo que representa al fin de archivo
extern Simbolo SimbFA; // ("FA", 0, 0) tiene código 0 y es terminal
Archivo & operator << ( Archivo & arch, const Gramatica & gram );
//ArchivoSO & operator << ( ArchivoSO & arch, const Gramatica & gram );
//ArchivoSO & operator >> ( ArchivoSO & arch, Gramatica & gram );
# endif // # ifndef __GRAMLC_H
19.2 SLR1.H
El código fuente de este módulo se presenta en la sección 12.14.1.
19.3 GENSLR.H
# ifndef __GENSLR_H
# define __GENSLR_H
307
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
// genslr.h: clases para el programa generador de tablas de análisis
//
sintáctico SLR(1).
// Copyright (c) 1995 by Domingo Eduardo Becker.
// All rights reserved.
# ifndef __GRAMLC_H
# include "gramlc.h"
# endif
class Archivo;
BCE)
// declarada en archabst.h ( de la biblioteca de clases
class ElemCanonLR0 { // elemento del análisis sintáctico LR(0)
public:
const NodoLSE<ReglaLC> * pr;
// puntero a la regla
const NodoLSE<Simbolo> * punto; // punto en la parte derecha de la regla
ElemCanonLR0() { pr = 0; punto = 0; }
ElemCanonLR0( const NodoLSE<ReglaLC> * Pr, const NodoLSE<Simbolo> * ps
);
Ent8 operator == ( const ElemCanonLR0 & oe ) const;
friend Archivo & operator << ( Archivo & a, const ElemCanonLR0 & eclr0
);
};
inline ElemCanonLR0::ElemCanonLR0( const NodoLSE<ReglaLC> * Pr,
const NodoLSE<Simbolo> * ps ) {
pr = Pr;
punto = ps;
}
inline Ent8 ElemCanonLR0::operator == ( const ElemCanonLR0 & oe ) const {
return pr == oe.pr && punto == oe.punto;
}
Archivo & operator << ( Archivo & a, const ElemCanonLR0 & eclr0 );
class ConjElem { // Conjunto de elementos LR(0)
public:
LSE<ElemCanonLR0> lse; // conjunto de elementos
Ent16ns numelem;
ConjElem() { numelem = 0; }
~ConjElem() { lse.Vaciar(); numelem = 0; }
Ent8 Agregar( const NodoLSE<ReglaLC> * Pr, const NodoLSE<Simbolo> * ps
);
Ent16ns AgregCerradura( const Gramatica & g );
void Vaciar() { lse.Vaciar(); numelem = 0; }
friend Archivo & operator << ( Archivo & a, const ConjElem & ce );
Ent8 operator == ( const ConjElem & ce ) const;
};
Archivo & operator << ( Archivo & a, const ConjElem & ce );
class Estado { // un estado es un conjunto de elementos LR(0)
public:
ConjElem * pce; // conjunto de elementos LR(0) (estado)
Ent16ns n;
// número de estado (o de conj. de elementos)
308
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
Ent16ns * ves; // vector de estados siguientes
Estado() { pce = 0; n = 0; ves = 0; }
Estado( ConjElem * Pce, Ent16ns N ) { pce = Pce;
n = N; ves = 0; }
};
class ConjEst { // conjunto de estados
public:
LSE<Estado> lse; // Conjunto de estados
Ent16ns numest; // número de estados
ConjEst() { numest = 0; }
~ConjEst() { Vaciar(); }
Ent8 Armar( Gramatica & g,
Ent8 (* FuncError) ( Ent16ns estado, Ent16ns val_previo,
Ent16ns num_regla, const Simbolo & s )
= 0 );
void Vaciar() { lse.Vaciar(); numest = 0; }
Ent8 ImprTabla( Archivo & a, const Gramatica & g ) const;
Ent8 ImprTabla( const char * NomArch, const Gramatica & g ) const;
Ent8 ImprTablaC( const char * NomArch, const Gramatica & g,
const char * sufijo = 0 ) const;
friend Archivo & operator << ( Archivo & a, const ConjEst & ce );
};
# endif // # ifndef __GENSLR_H
19.4 SIMB01.CMM
// simb01.cmm
Miércoles 20 de Octubre de 1993
// Copyright (c) 1993 by Domingo Eduardo Becker.
// All rights reserved.
# include "gramlc.h"
# include "archabst.h"
static Ent8 b = Simbolo::CAD;
Ent8 Simbolo::Mostrar( Ent8 que ) {
if (que > CAD_COD_TER) return 0;
b = que;
return 1;
}
Archivo & operator << ( Archivo & a, const Simbolo & s ) {
if (b != Simbolo::CAD) a << "(";
a << (const char *) s.Cadena();
if (b == Simbolo::CAD_COD || b == Simbolo::CAD_COD_TER)
a << ", " << s.Codigo;
if (b == Simbolo::CAD_TER || b == Simbolo::CAD_COD_TER)
a << ", " << (s.NoTerminal ? 'N' : 'T');
if (b != Simbolo::CAD) a << ")";
return a;
}
309
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
19.5 SIMB02.CMM
// simb02.cmm
viernes 22 de octubre de 1993
// Copyright (c) 1993 by Domingo Eduardo Becker.
// All rights reserved.
# include "gramlc.h"
Simbolo SimbFA("FA",0,0);
19.6 SIMB03.CMM
// simb03.cmm
Domingo 11 de diciembre de 1993
// Copyright (c) 1993 by Domingo Eduardo Becker.
// All rights reserved.
# include "gramlc.h"
# include "archivo.h"
ArchivoSO & operator << ( ArchivoSO & a, const Simbolo & s ) {
register Ent8 bin = a.TxtBin();
if (bin) {
a << s.Cadena();
a << s.Codigo;
a << s.NoTerminal;
}
else (Archivo &) a << s;
return a;
}
ArchivoSO & operator >> ( ArchivoSO & a, Simbolo & s ) {
register Ent8 bin = a.TxtBin();
Ascii0 cad;
Ent16ns cod;
Ent8ns noterm;
if (bin) {
a >> cad;
a >> cod;
a >> noterm;
s.Reasignar(cad, cod, noterm);
}
return a;
}
19.7 SIMB04.CMM
// simb04.cmm
// Copyright (c) 1993 by Domingo Eduardo Becker.
// All rights reserved.
# include "gramlc.h"
Simbolo::~Simbolo() {
310
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
ReasignarCadena(0);
}
Ascii0 Simbolo::ErrorCadenaNula;
19.8 CSLSE01.CMM
// cslse01.cmm
Viernes 22 de Octubre de 1993
// Copyright (c) 1993 by Domingo Eduardo Becker.
// All rights reserved.
# include "gramlc.h"
const Simbolo * ConjSimbLSE::Buscar( const char * Cadena ) const {
IterLSE<Simbolo> c;
// register const Ascii0 * pa;
//
for (c = lse; c != 0; ++c) {
pa = & c.Cursor->Dato.Cadena();
if (c.Cursor->Dato == Cadena) break;
}
return c != 0 ? & c.Cursor->Dato : 0;
}
19.9 CSLSE02.CMM
// cslse02.cmm
Viernes 22 de Octubre de 1993
// Copyright (c) 1993 by Domingo Eduardo Becker.
// All rights reserved.
# include "gramlc.h"
const Simbolo * ConjSimbLSE::Buscar( Ent16ns CodComp ) const {
IterLSE<Simbolo> c;
for (c = lse; c != 0; ++c)
if (c.Cursor->Dato == CodComp) break;
return c != 0 ? & c.Cursor->Dato : 0;
}
19.10 CSLSE03.CMM
// cslse03.cmm
Miércoles 20 de Octubre de 1993
// Copyright (c) 1993 by Domingo Eduardo Becker.
// All rights reserved.
# include "gramlc.h"
# include "archabst.h"
Archivo & operator << ( Archivo & a, const ConjSimbLSE & cs ) {
IterLSE<Simbolo> c = cs.lse;
register Ent8 coma = 0;
register Simbolo * ps;
311
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
Ent16ns n;
a << "{ ";
n = 0;
while (c != 0) {
if (coma) a << ", ";
else coma = 1;
a << c.Cursor->Dato;
++c;
if (++n == 5) {
a << "\n
";
n = 0;
}
}
return a << " }";
}
19.11 CSLSE04.CMM
// cslse04.cmm
Viernes 22 de octubre de 1993
// Copyright (c) 1993 by Domingo Eduardo Becker.
// All rights reserved.
# include "gramlc.h"
Ent16ns ConjSimbLSE::Agregar( const ConjSimbLSE & cs, Ent8 ar ) {
if (! ar && this == & cs) return 0;
IterLSE<Simbolo> c;
register Ent16ns i;
for (c = cs.lse, i = 0; c != 0; ++c)
if (Agregar(c.Cursor->Dato, ar)) ++i;
return i;
}
19.12 RLC01.CMM
// rlc01.cmm
Vie 27 Ene 95
// Copyright (c) 1995 by Domingo Eduardo Becker.
// All rights reserved.
# include "gramlc.h"
# include <archivo.h>
Archivo & operator << ( Archivo & a, const ReglaLC & r ) {
register const NodoLSE<Simbolo> * pns;
Ent8 b;
if ( (pns = r.lse.Entrada) != 0 ) {
b = Simbolo::Mostrar();
a << pns->Dato << " ---> ";
while (pns->pSig != 0) {
pns = pns->pSig;
a << pns->Dato << " ";
}
Simbolo::Mostrar(b);
}
312
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
return a;
}
19.13 GRAM01.CMM
// gram01.cmm
Viernes 20 de octubre de 1993
// Copyright (c) 1993 by Domingo Eduardo Becker.
// All rights reserved.
# include "gramlc.h"
Ent16ns Gramatica::ArmarAlfabetos() {
register Ent16ns cod;
register const Simbolo * pSimbEnAlf;
register NodoLSE<ReglaLC> * pRegla;
NodoLSE<Simbolo> * pnSimbEnRegla;
register Simbolo * pSimbEnRegla;
Ent16ns cant_simb;
// Armar alfabeto no terminal asignando los códigos en el mismo.
// A los símbolos de la izq. de la regla también se le asignan los
códigos.
pRegla = Reglas.Entrada;
cod = 1;
while (pRegla != 0) {
pSimbEnRegla = & pRegla->Dato.lse.Entrada->Dato;
if ( (pSimbEnAlf= NoTerm.Buscar(pSimbEnRegla->Cadena())) == 0) {
// El símbolo no existe en el alfabeto de símbolos no terminales.
// En el símbolo que reside en la regla se asigna el código
pSimbEnRegla->Codigo = cod++;
pSimbEnRegla->NoTerminal = 1; // no terminal
// Se agrega al alfabeto
NoTerm.Agregar(*pSimbEnRegla);
}
else { // El símbolo está en el alfabeto no terminal,
// asignar código ya asignado al símbolo de la regla
pSimbEnRegla->Codigo = pSimbEnAlf->Codigo;
pSimbEnRegla->NoTerminal = 1; // no terminal (no hay dudas)
}
pRegla = pRegla->pSig; // Avanzar al sig. elemento de la lista.
}
cant_simb = cod - 1;
// Luego armar alfabeto terminal y asignar los códigos.
// Si algún símbolo de la parte derecha de las reglas existe en algún
// alfabeto entonces se copia el código asignado.
pRegla = Reglas.Entrada;
cod = 1; // el 0 se reserva para "fin de archivo"
while (pRegla != 0) {
// Para todas las reglas ya se ejecutó la función Primero()
pnSimbEnRegla = pRegla->Dato.lse.Entrada->pSig;
while ( pnSimbEnRegla != 0 ) {
pSimbEnRegla = & pnSimbEnRegla->Dato;
if ( (pSimbEnAlf = NoTerm.Buscar(pSimbEnRegla->Cadena())) == 0 &&
(pSimbEnAlf =
Term.Buscar(pSimbEnRegla->Cadena())) == 0 ) {
// No está en ninguno de los alfabetos
// En el símbolo que reside en la regla se asigna el código
pSimbEnRegla->Codigo = cod++;
pSimbEnRegla->NoTerminal = 0;
// Se agrega al alfabeto
Term.Agregar(*pSimbEnRegla);
313
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
}
else { // El símbolo ya está en alguno de los alfabetos y
// pSimbEnAlf apunta a él
pSimbEnRegla->Codigo = pSimbEnAlf->Codigo;
pSimbEnRegla->NoTerminal = pSimbEnAlf->NoTerminal;
}
pnSimbEnRegla = pnSimbEnRegla->pSig;
}
pRegla = pRegla->pSig;
}
return cant_simb + cod - 1;
}
19.14 GRAM02.CMM
// gram02.cmm
Viernes 22 de octubre de 1993
// Copyright (c) 1993 by Domingo Eduardo Becker.
// All rights reserved.
# include "gramlc.h"
Ent8 Gramatica::AnulableSimple( Ent16ns CodSimb ) const {
if (! Reglas.NumElem() || ! (CodSimb & 0x8000)) return 0;
IterLSE<ReglaLC> i;
register const NodoLSE<Simbolo> * pr;
CodSimb &= 0x7fff;
for (i = Reglas; i != 0; ++i) {
pr = i.Cursor->Dato.lse.Entrada;
if (pr->Dato.Codigo == CodSimb && pr->pSig == 0) break;
}
return i != 0; // si encuentra una regla 'CodSimb --> ' CodSimb es
anulable
}
Ent8 Gramatica::Anulable( Ent8 * vAnul ) const {
if (! Reglas.NumElem() || vAnul == 0) return 0;
Ent8 iterar;
Ent16ns i, CodNTAct;
NodoLSE<ReglaLC> * pr;
NodoLSE<Simbolo> * ps;
for (ps = NoTerm.lse.Entrada; ps != 0; ps = ps->pSig) {
i = ps->Dato.Codigo - 1;
vAnul[i] = AnulableSimple( ps->Dato.CodigoCompuesto() );
}
do { // el proceso es iterativo hasta que no se cambia ninguna bandera
iterar = 0;
for (pr = Reglas.Entrada; pr != 0; pr = pr->pSig) {
CodNTAct = pr->Dato.lse.Entrada->Dato.Codigo;
for (ps = pr->Dato.lse.Entrada->pSig; ps != 0; ps = ps->pSig)
if (! ps->Dato.NoTerminal || ! vAnul[ ps->Dato.Codigo - 1])
break; // salir si alguno de la derecha no es anulable
if (ps == 0) { // todos son no terminales y anulables
if (! vAnul[CodNTAct - 1]) {
vAnul[CodNTAct - 1] = 1;
if (! iterar) iterar = 1; // se cambió al menos un elemento
}
// de vAnul
}
}
314
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
} while (iterar);
return 1;
}
Ent16ns Gramatica::CalcPrimeroSinLambda( Alfabeto * prim, Ent8 * vanul )
const {
// prim debe ser un vector de NoTerm.NumElem() elementos.
if (! Reglas.NumElem() || prim == 0) return 0;
Ent8 * Anul;
Anul = vanul != 0 ? vanul : new Ent8[ NumNoTerm() ];
if (Anul == 0) return 0;
if (vanul == 0) Anulable(Anul);
IterLSE<Simbolo> isa, isr; // isa: iterador de símbolos en alfabeto
// isr: iterador de símbolos en regla
IterLSE<ReglaLC> ir; // iterador de reglas (para el conjunto de reglas)
const register Simbolo * psa, * psr; // psa: puntero a un símbolo en
alfabeto
// psr: puntero a un símbolo en
regla
Ent8 agreg, iterar = 1;
Ent16ns i, numpas = 0;
// agreg: == 0 si agregó algún símbolo, != 0 si no agregó
// iterar: == 0 si se debe salir.
// numpas: contabiliza el número de pasadas (el cálculo de PRIMERO() es
//
iterativo).
while (iterar) { // se itera si se agrega algún símbolo,
// se para cuando en una iteración no se agregó ninguno
iterar = 0;
for (isa = NoTerm.lse, i = 0; isa != 0; ++isa, ++i) { // para cada
símbolo
// no terminal de la gramática
psa = & isa.Cursor->Dato;
for (ir = Reglas; ir != 0; ++ir) { // para cada regla del conj de
reglas
// si la regla es 'A --> Y' con A símbolo actual y Y' distinto a
lambda
if (ir.Cursor->Dato.ParteIzq()->Codigo == psa->Codigo &&
(isr = ir.Cursor->Dato.lse, ++isr) != 0) {
// isr apunta al primer símbolo de la parte derecha de la regla
if (isr.Cursor->Dato.NoTerminal) { // Símbolo no terminal
Ent8 cont = 1; // cont: continuar
while (cont) {
psr = & isr.Cursor->Dato;
// para A --> B C agrega Primero(B) a Primero(A) (B es no
terminal)
agreg = prim[i].Agregar( prim[psr->Codigo - 1] );
if (! iterar) iterar = agreg; // si se agregó se vuelve a
iterar
// Si el símbolo actual de la derecha (B en el ejemplo) es
anulable se
//
//
//
if
avanza al siguiente (C en el ejemplo) para agregar
Primero(símbolo siguiente) a Primero(símbolo actual)
( Primero(C) en el ejemplo ) y se continua iterando
( Anul[ psr->Codigo - 1 ] ) {
if (++isr == 0) cont = 0;
else if (! isr.Cursor->Dato.NoTerminal) {
agreg = prim[i].AgregarSinCad(isr.Cursor->Dato);
if (! iterar) iterar = agreg;
cont = 0; // símbolo terminal, fin del while (cont)
315
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
}
}
else cont = 0; // símbolo no anulable, fin del while (cont)
} // while (cont)
}
else { // Es un símbolo terminal
if (! numpas) { // si es la primera pasada
agreg = prim[i].AgregarSinCad(isr.Cursor->Dato);
if (! iterar) iterar = agreg;
}
}
}
} // segundo for
} // primer for
++numpas;
}
if (vanul == 0) delete [] Anul;
return numpas;
}
19.15 GRAM03.CMM
// gram03.cmm
viernes 22 de octubre de 1993
// Copyright (c) 1993 by Domingo Eduardo Becker.
// All rights reserved.
# include "gramlc.h"
Ent16ns Gramatica::CalcSiguiente( Alfabeto * sig, Alfabeto * primero,
Ent8 * vanul ) const {
if (! Reglas.NumElem() || sig == 0) return 0;
Ent16ns nt;
if ( ! (nt = NoTerm.NumSimb()) ) return 0; // ¿ siguiente de quién ?
// Primero se calcula el vector de banderas Anul (anulable)
Ent8 * Anul;
Anul = vanul != 0 ? vanul : new Ent8[nt];
if (Anul == 0) return 0;
if (vanul == 0) Anulable(Anul); // calcular sólo si no viene dado
// Luego se calculan los conjuntos primero
Alfabeto * prim = primero != 0 ? primero : new Alfabeto[nt];
if (prim == 0) {
if (vanul == 0) delete [] Anul;
return 0; // falta memoria
}
if (! CalcPrimeroSinLambda(prim, Anul)) {
if (primero == 0) delete [] prim;
if (vanul == 0) delete [] Anul;
return 0;
}
IterLSE<ReglaLC> ir;
ReglaLC * pr;
Ent8 iterar = 1, agreg;
Ent16ns numpas = 0;
while (iterar) {
316
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
iterar = 0;
// se agrega FA a Siguiente(O) donde O es el símbolo inicial
if (! numpas) iterar = sig[0].Agregar(SimbFA);
for (ir = Reglas; ir != 0; ++ir) {
// En adelante, el código es dependiente de las estructuras de datos
// que se usan.
if ( ir.Cursor->Dato.SimboloI(1) != 0 ) {
// si la regla no deriva en lambda ('A -> ')
register NodoLSE<Simbolo> * ps1, * ps2;
ps1 = ir.Cursor->Dato.lse.Entrada->pSig;
while (ps1 != 0) {
if (ps1->Dato.NoTerminal) { // si A --> B Y con B no terminal
if (ps1->pSig == 0) { // si Y de la regla de arriba era lambda
Ent16ns cod = ir.Cursor->Dato.lse.Entrada->Dato.Codigo; //
del
// símbolo de la izquierda de la regla
if (cod) {
agreg = sig[ps1->Dato.Codigo - 1].Agregar( sig[cod - 1] );
if (! iterar) iterar = agreg;
}
}
else {
ps2 = ps1->pSig;
// Se agrega Primero de los no terminales que siguen hasta
que
// haya un símbolo terminal o un no terminal no anulable.
while (ps2 != 0) {
if (ps2->Dato.NoTerminal) {
agreg = sig[ps1->Dato.Codigo - 1].Agregar(
prim[ps2->Dato.Codigo - 1] );
if (! iterar) iterar = agreg;
if ( Anul[ps2->Dato.Codigo - 1] ) {
ps2 = ps2->pSig;
if (ps2 == 0) { // todos los de la derecha son
anulables
// Agregar siguiente del de la izquierda de la regla
actual
agreg = sig[ps1->Dato.Codigo - 1].Agregar(
sig[ir.Cursor->Dato.lse.Entrada->Dato.Codigo - 1]
);
if (! iterar) iterar = agreg;
}
}
else ps2 = 0; // para salir del while
}
else { // es terminal
if (! numpas) { // si estamos en la primera pasada
agreg = sig[ps1->Dato.Codigo - 1].AgregarSinCad(
ps2->Dato );
if (! iterar) iterar = agreg;
}
ps2 = 0; // se llegó a un terminal, salir del while
}
} // while
} // else
} // if (ps1->Dato.NoTerminal)
ps1 = ps1->pSig; // avanzar al siguiente símbolo de la regla
} // while
} // if la regla no deriva en lambda
// Fin del código dependiente de las estr. de datos que se usan.
} // for
317
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
++numpas;
} // while (iterar)
if (primero == 0) delete[] prim;
if (vanul == 0) delete [] Anul;
return numpas;
}
19.16 GRAM04.CMM
// gram04.cmm
Lun 30 Ene 95
// Copyright (c) 1995 by Domingo Eduardo Becker.
// All rights reserved.
# include "gram.cmm" // generado por SLR1 v 2, son las acciones semánticas
Ent16ns Gramatica::CodError;
Ent8 Gramatica::Reasignar( const char * TxtGram, Ascii0 & CadPosErr ) {
if (TxtGram == 0 || ! *TxtGram) return 0;
Vaciar();
InicVarGlob();
pGram = this;
ClaseElemPila = "ElemPila";
// AnalSLR1<ElemPila> analizador(ntlpdGram, accionGram, ir_aGram,
AccSemGram);
alGram.Reiniciar(TxtGram);
if (! asGram.Analizar(alGram, CadPosErr)) {
CodError = asGram.CodError;
return 0;
}
InicVarGlob();
return 1;
}
19.17 GRAM05.CMM
// gram05.cmm
Vie 27 Ene 95
// Copyright (c) 1995 by Domingo Eduardo Becker.
// All rights reserved.
# include "gramlc.h"
# include <archivo.h>
Archivo & operator << ( Archivo & arch, const Gramatica & gram ) {
if (! gram.NumNoTerm()) return arch;
arch << "NoTerm = " << gram.NoTerm << "\nTerm
<< "\nGramática:\n";
=
" << gram.Term
IterLSE<ReglaLC> i;
for (i = gram.Reglas; i != 0; ++i)
arch << i.Cursor->Dato << "\n";
return arch;
}
318
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
19.18 GRAM06.CMM
// gram06.cmm
Lun 30 Ene 95
// Copyright (c) 1995 by Domingo Eduardo Becker.
// All rights reserved.
# include "gramlc.h"
# include <archivo.h>
# include <string.h>
void ImprBlqAccSem( Archivo & arch, const char * pblqcod ) {
register const char * p;
if ((p = pblqcod) == 0) return;
++p;
while (*p && *p != '%') {
if (*p == '$') {
arch << "Pila[PP+";
++p;
if (*p == '$') {
arch << "1";
++p;
}
else while ( Aceptar(*p, "0-9") ) arch << *p++;
arch << "]";
}
else arch << *p++;
}
arch << " break;\n";
}
Ent8 Gramatica::ImprAccSem( Archivo & arch, const char * sufijo ) const {
int est;
est = arch.Estado();
if (est != MA_E && est != MA_L_E || ! Reglas.NumElem() ) return 0;
arch << "\n// Código de acciones semánticas.\n"
"// Código generado por Gramatica::ImprAccSem versión 2.\n"
"// Domingo Eduardo Becker.\n\n";
// La siguiente línea es necesario para compilar
arch << "# ifndef __SLR1_H\n# include \"slr1.h\"\n# endif\n\n";
if (sufijo == 0) sufijo = "";
// Impresión del código previo a las acciones semánticas
unsigned n;
if ((n = BlqCodInic.Long()) != 0) {
char * p;
p = (char *) (const char *) BlqCodInic;
p += n - 2;
*p = *(p+1) = ' ';
p = (char *) (const char *) BlqCodInic;
p += 2; // saltea los primeros %{
arch << "\n// Código fuente previo a las acciones semánticas.\n"
<< p << "\n// Fin del código fuente previo a las acciones
semánticas.\n\n";
}
// Impresión de las acciones semánticas.
arch << "void AccSem" << sufijo << "( Ent16ns NumRegla, "
319
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
<< (const char *) ClaseElemPila
<< " * Pila, Ent16ns PP ) {\n switch (NumRegla) { ";
IterLSE<ReglaLC> ir;
IterLSE<DescrAccSem> ias;
register const char * pas, * pident;
register Ent16ns numregla;
Ent8 imprimir;
Ascii0 cad;
// Primero las acciones semánticas no repetidas
for (ir = Reglas, numregla = 1; ir != 0; ++ir, ++numregla) {
pas = ir.Cursor->Dato.AccSem;
if (pas == 0 || *pas != '%') continue;
cad = numregla;
arch << "\n
case " << (char *) cad << ": // " << ir.Cursor->Dato
<< "\n
";
ImprBlqAccSem(arch, pas);
}
// Luego las acciones semánticas comunes a una o más reglas:
for (ias = TablaAccSem; ias != 0; ++ias) {
imprimir = 0;
pident = ias.Cursor->Dato.Ident;
for (ir = Reglas, numregla = 1; ir != 0; ++ir, ++numregla) {
pas = ir.Cursor->Dato.AccSem;
if (pas == 0 || *pas == '%') continue;
if (! strcmp(pas, pident)) {
imprimir = 1;
cad = numregla;
arch << "\n
case " << (char *) cad << ": // " <<
ir.Cursor->Dato;
}
}
if (imprimir) {
arch << "\n
";
ImprBlqAccSem(arch, ias.Cursor->Dato.TxtAccSem);
}
else
arch << "// Acción semántica referenciada por " << pident
<< " ignorada.\n";
}
arch << " } // switch (NumRegla)\n} // Fin de AccSem"
<< sufijo << "\n\n// Fin del código de acciones semánticas.\n";
return 1;
}
Ent8 Gramatica::ImprAnaLex( Archivo & arch, const char * sufijo ) const {
int est;
est = arch.Estado();
if (est != MA_E && est != MA_L_E || ! Term.NumSimb()) return 0;
arch << "// Analizador lexicográfico para la gramática.\n"
"// Generado por Gramatica::ImprAnaLex versión 3.\n"
"// Domingo Eduardo Becker.\n\n";
// La siguiente línea es necesario para compilar
arch << "# ifndef __EXPREG_H\n# include \"expreg.h\"\n# endif\n";
if (sufijo == 0) sufijo = "";
IterLSE<DescrTerminal> it;
IterLSE<Simbolo> is;
register const Simbolo * ps;
320
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
register const char * nomarch;
register char * cad;
char aux, primero;
Ent16ns numrs;
Ascii0 NumCad;
// Primero imprimir los includes
for (it = TablaTerminal; it != 0; ++it) {
nomarch = it.Cursor->Dato.NomArch.Long()
? it.Cursor->Dato.NomArch
: it.Cursor->Dato.Cadena;
arch << "\n# include \"" << NomExt(nomarch, ".cmm") << "\" // afd"
<< (const char *) it.Cursor->Dato.Cadena;
}
// Después imprimir el vector de reconocedores de símbolos:
arch << "\n\nstatic RecSimb vrs[] = {";
numrs = 0;
for (is = Term.lse, primero = 1; is != 0; ++is) {
if (primero) {
arch << "\n ";
primero = 0;
}
else arch << ",\n ";
NumCad = is.Cursor->Dato.Codigo;
arch << (char *) NumCad << ", ";
cad = (char *) (const char *) is.Cursor->Dato.Cadena();
if (*cad == '\'' || *cad == '\"') { // es una cadena (literal)
aux = *cad;
*cad = *(cad + strlen(cad) - 1) = '\"';
arch << "0, 0, " << cad;
*cad = *(cad + strlen(cad) - 1) = aux;
}
else {
for (it = TablaTerminal; it != 0; ++it)
if (! strcmp(it.Cursor->Dato.Cadena, cad))
break; // terminal encontrado.
if (it != 0) // terminal descripto por una expresión regular.
arch << "1, & afd" << cad << ", 0";
else
arch << "0, 0, \"" << cad << "\" /* Debe armar un descriptor"
" adecuado para este terminal. */";
}
++numrs;
}
// A continuación se imprimen los reconocedores para los símbolos
// que serán ignorados por el analizador lexicográfico:
for (it = TablaTerminal; it != 0; ++it) {
ps = Term.Buscar( cad = (char *) (const char *) it.Cursor->Dato.Cadena
);
if (ps != 0) continue;
if (primero) {
arch << "\n ";
primero = 0;
}
else arch << ",\n ";
arch << "0, 1, & afd" << cad << ", 0";
++numrs;
321
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
}
NumCad = numrs;
arch << "\n};\n\n# define NUMRECSIMB " << (char *) NumCad
<< "\n\nAnaLex al" << sufijo << "(vrs, NUMRECSIMB";
if (MayIgualMin)
arch << ", 1";
arch << ");\n";
return 1;
}
19.19 GRAM07.CMM
// gram07.cmm
Vie 02 Feb 96
// Copyright (c) 1996 by Domingo Eduardo Becker.
// All rights reserved.
# include <vector.h>
# include <archivo.h>
# include "gramlc.h"
Ent16 Gramatica::ImprAnulPrimSig( Archivo & arch ) {
Ent16ns nNoTerm = NumNoTerm();
Vector<Alfabeto> Prim(nNoTerm), Sig(nNoTerm);
Vector<Ent8> Anul(nNoTerm);
if (! Sig.Tam || ! Prim.Tam || ! Anul.Tam)
return CodError = E_NOHAYMEMORIA;
Anulable(Anul);
CalcSiguiente(Sig, Prim, Anul);
Ent8 b = Simbolo::Mostrar(Simbolo::CAD);
// Impresión de Anulable
IterLSE<Simbolo> nt;
Ent16ns i;
for (nt = NoTerm.lse, i = 0; nt != 0; ++nt, ++i)
arch << "Anulable(" << nt.Cursor->Dato << "): "
<< (Anul[i] ? "Si" : "No") << "\n";
// Impresión de Primero
IterLSE<Simbolo> e;
const Simbolo * ps;
for (nt = NoTerm.lse, i = 0; nt != 0; ++nt, ++i) {
arch << "Primero(" << nt.Cursor->Dato << ") = {";
for (e = Prim[i].lse; e != 0; ++e) {
ps = Term.Buscar(e.Cursor->Dato.CodigoCompuesto());
if (ps != 0)
arch << " " << *ps;
}
arch << " }\n";
}
// Impresión de Siguiente:
for (nt = NoTerm.lse, i = 0; nt != 0; ++nt, ++i) {
arch << "Siguiente(" << nt.Cursor->Dato << ") = {";
for (e = Sig[i].lse; e != 0; ++e) {
ps = Term.Buscar(e.Cursor->Dato.CodigoCompuesto());
if (ps != 0)
322
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
arch << " " << *ps;
}
arch << " }\n";
}
Simbolo::Mostrar(b);
return CodError;
}
19.20 CELEM01.CMM
// celem01.cmm
// Copyright (c) 1995 by Domingo Eduardo Becker.
// All rights reserved.
# include "genslr.h"
Ent8 ConjElem::Agregar( const NodoLSE<ReglaLC> * Pr,
const NodoLSE<Simbolo> * ps ) {
register NodoLSE<ElemCanonLR0> * p;
register Ent8 b;
p = lse.Entrada;
b = 1; // por si lse está vacía
if (p != 0) {
while ( (b = p->Dato.pr != Pr || p->Dato.punto != ps) != 0 && p->pSig
!= 0)
p = p->pSig; // Si no se repite el nodo y se pueda avanzar se
avanza.
// Al salir p apuntará al último nodo si el elemento no
existe.
}
if (b) {
NodoLSE<ElemCanonLR0> * nn = new NodoLSE<ElemCanonLR0>;
if (nn == 0) return 0;
nn->Dato.pr = Pr;
nn->Dato.punto = ps;
if (p != 0) p->pSig = nn;
else lse.Entrada = nn;
++numelem; // se agregó un Elemento Canónico LR0
}
return b; // b != 0 si agrega
}
19.21 CELEM02.CMM
// celem02.cmm
// Copyright (c) 1995 by Domingo Eduardo Becker.
// All rights reserved.
# include "genslr.h"
Ent16ns ConjElem::AgregCerradura( const Gramatica & g ) {
register NodoLSE<ElemCanonLR0> * q;
register const NodoLSE<ReglaLC> * pr;
Ent16ns n = 0;
q = lse.Entrada;
while (q != 0) {
323
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
if (q->Dato.punto != 0 && // si el punto no está al final de la parte
derecha de la regla y
q->Dato.punto->Dato.NoTerminal ) { // el símbolo apuntado es un no
terminal
pr = g.Reglas.Entrada;
while (pr != 0) {
// Se busca en la gramática alguna regla que
empiece con tal símbolo
register const NodoLSE<Simbolo> * pns; // n de nodo
const Simbolo * ps;
pns = pr->Dato.lse.Entrada;
ps = & q->Dato.punto->Dato;
if (ps->CodigoCompuesto() == pns->Dato.CodigoCompuesto() ) {
// Si la regla empieza con el símbolo en cuestión
if ( Agregar(pr, pns->pSig) ) // dir. de la regla y posición del
punto
++n;
// se acaba de agregar un elemento (si Agregar() no
falló)
}
pr = pr->pSig; // avanzar a la siguiente regla
}
}
q = q->pSig; // avanzar al siguiente elemento (nodo de la lista)
}
return n;
}
19.22 CELEM03.CMM
// celem03.cmm
// Copyright (c) 1995 by Domingo Eduardo Becker.
// All rights reserved.
# include "genslr.h"
Ent8 ConjElem::operator == ( const ConjElem & ce ) const {
if (numelem != ce.numelem) return 0;
register NodoLSE<ElemCanonLR0> * q1, * q2;
Ent8 b;
q1 = lse.Entrada;
while (q1 != 0) { // buscar si los elementos de *this están en ce
q2 = ce.lse.Entrada;
while (q2 != 0) {
if (q1->Dato == q2->Dato) break;
q2 = q2->pSig;
}
if (q2 == 0) break; // elemento q1->Dato no encontrado en ce
q1 = q1->pSig;
}
return q1 == 0; // son iguales si q1 vale 0
}
19.23 CELEM04.CMM
// celem04.cmm
// Copyright (c) 1995 by Domingo Eduardo Becker.
// All rights reserved.
# include "genslr.h"
324
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
# include <archabst.h>
Archivo & operator << ( Archivo & a, const ElemCanonLR0 & eclr0 ) {
register const NodoLSE<Simbolo> * pns;
if ( (pns = eclr0.pr->Dato.lse.Entrada) != 0 ) {
a << (const char *) pns->Dato.Cadena() << " ---> ";
while (pns->pSig != 0) {
pns = pns->pSig;
if (eclr0.punto == pns) a << "• "; // caracter 249
a << (const char *) pns->Dato.Cadena() << " ";
}
if (eclr0.punto == 0) a << "• ";
}
return a;
}
Archivo & operator << ( Archivo & a, const ConjElem & ce ) {
register const NodoLSE<ElemCanonLR0> * q = ce.lse.Entrada;
while (q != 0) {
a << q->Dato << "\n";
if (CodError) break; // si hay error se sale.
q = q->pSig;
}
return a;
}
19.24 CEST01.CMM
// cest01.cmm
// Copyright (c) 1995 by Domingo Eduardo Becker.
// All rights reserved.
# include <string.h>
# include "genslr.h"
static void limpiar( Ent16ns * v, register Ent16ns tam ) {
if (v == 0) return;
register Ent16ns * p = v;
while (tam--) *p++ = 0;
}
Ent8 ConjEst::Armar( Gramatica & g,
Ent8 (* funcerror) ( Ent16ns e, Ent16ns vp, Ent16ns
nr,
const Simbolo & s) ) {
if (g.Reglas.Entrada == 0) return 0;
if (numest) Vaciar();
// Calcular los conjuntos Siguiente de cada no terminal.
Ent16ns n = g.NumNoTerm();
Alfabeto * sig = new Alfabeto[n];
if (sig == 0) return 0;
g.CalcSiguiente(sig); // calcula los conj. Siguiente para todos los no
term.
NodoLSE<ReglaLC> * rn;
const Simbolo * ps;
char * cad1;
// Buscar el símbolo inicial y generar el nuevo inicial.
ps = & g.Reglas.Entrada->Dato.lse.Entrada->Dato;
325
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
if (ps != 0) { // ps apunta al símbolo inicial
Ent16ns lon = ps->Cadena().Long() + 2;
cad1 = new char [lon];
if (cad1 == 0) return 0;
strncpy(cad1, ps->Cadena(), lon);
cad1[lon-2] = '\''; // le agrega la '
cad1[lon-1] = 0;
// terminación en 0
}
else return 0;
// Una vez individualizado el símbolo inicial,
// aumentará la gramática. Si O es el símbolo,
// O' ---> O
rn = new NodoLSE<ReglaLC>;
if (rn == 0) return 0;
rn->Dato.Agregar(cad1, 0, 1); // símbolo parte
0, no terminal)
rn->Dato.Agregar(*ps);
rn->pSig = g.Reglas.Entrada; // se engancha la
del
g.Reglas.Entrada = rn;
// conjunto de reglas
se crea una regla que
la regla a agregar será:
izq de la regla (O', cod
regla nueva al comienzo
de la gramática
// devolver memoria usada por cad1. Ya no se usará más.
delete cad1;
// Hasta ahora tenemos la gramática aumentada. Hay que generar el estado
0
// e iterar armando los estados siguientes (función ir_a(estado,
símbolo))
// para cada estado y para todos los símbolos de la gramática, hasta que
no
// se generen nuevos estados. (Recordar que un estado es un conjunto de
// elementos canónicos LR(0). )
ConjElem * estn, *esta; // estado nuevo, estado actual
estn = new ConjElem;
if (estn == 0) return 0;
estn->Agregar( rn, rn->Dato.lse.Entrada->pSig); // se agrega O' --> • O
al estado 0
estn->AgregCerradura(g); // se agrega la cerradura del conjunto { O' -->
• O }
NodoLSE<Estado> * pestn, * pesta, // puntero al estado nuevo, punt. al
est. actual
* pestaux;
// puntero auxiliar
pestn = new NodoLSE<Estado>; // crea nodo del estado 0
if (pestn == 0) return 0;
pestn->Dato.pce = estn;
pestn->Dato.n = 0;
Ent16ns numsimbG = g.NumNoTerm() + g.NumTerm();
pestn->Dato.ves = new Ent16ns [numsimbG + 1];
if (pestn->Dato.ves == 0) return 0;
limpiar(pestn->Dato.ves, numsimbG + 1);
// ves[numsimbG] se reserva para reducciones y aceptar con FA (fin de
// archivo) en ves[0] a ves[numsimbG-1] se colocan los valores de
// ir_a(est, simb) para cada símbolo de la gramática, primero los
// terminales y luego los no terminales.
lse.Entrada = pesta = pestn; // pone el estado 0 al comienzo de la lista
de estados
NodoLSE<ElemCanonLR0> * pelem;
NodoLSE<Simbolo> * psimb;
Ent16ns * pves;
// para los vectores de estados siguientes (función
ir_a() )
326
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
numest = 1; // campo numest del nodo actual
while (pesta != 0) { // para cada estado (conj. de elementos)
// El vector de estados siguientes (ves) tiene m + 1 entradas con
// m = g.NumTerm() + g.NumNoTerm(). Las primeras g.NumTerm() entradas
// corresponden a la operación desplazar para cada terminal en el
estado
// actual, en particular la entrada ves[m] (elemento m+1) corresponde
al
// símb FA, y no tiene operación de desplazamiento (sólo reducción ó
// aceptar). Las g.NumNoTerm() entradas que están a partir del
elemento
// ves[g.NumTerm()] corresponden a la operación ir_a para cada no
// terminal desde el estado actual.
pves = pesta->Dato.ves;
// A continuación se procede a construir las operaciones desplazar
// para el estado actual.
psimb = g.Term.lse.Entrada;
while (psimb != 0) { // para cada símbolo terminal
estn = new ConjElem;
if (estn == 0) return 0;
pelem = pesta->Dato.pce->lse.Entrada;
while (pelem != 0) { // para cada elemento del estado actual
if (pelem->Dato.punto != 0 &&
pelem->Dato.punto->Dato.CodigoCompuesto() ==
psimb->Dato.CodigoCompuesto()) { // si el • está antes del
// terminal actual agregar elemento al conj. de est. nuevo
estn->Agregar( pelem->Dato.pr, pelem->Dato.punto->pSig); // si
era A --> • a A agrega A --> a • A
} // la regla es la misma y el punto se corre al siguiente símbolo
pelem = pelem->pSig; // Avanzar al siguiente elemento del estado
actual
}
if (! estn->numelem) delete estn; // estado nuevo no usado, no se
agregaron elementos
else { // se agregaron elementos
estn->AgregCerradura(g); // agregar la cerradura del conjunto
pestn = new NodoLSE<Estado>;
if (pestn == 0) return 0;
pestn->Dato.pce = estn;
pestn->Dato.n = numest;
pestn->Dato.ves = new Ent16ns[numsimbG + 1];
if (pestn->Dato.ves == 0) return 0;
limpiar(pestn->Dato.ves, numsimbG + 1);
pestaux = lse.Entrada;
while (pestaux != 0) { // buscar si el estado nuevo no estaba, si
es así agregarlo al final
if ( *(pestaux->Dato.pce) == *estn) break; // salir del while,
estado repetido
else if (pestaux->pSig == 0) { // pestaux apunta al último nodo,
que tiene un conj. de elem. distinto al nuevo
pestaux->pSig = pestn; // agregar al final
*pves = numest++; // del actual se transiciona al estado
nuevo con el símbolo terminal actual
pestaux = 0; // para salir del while
}
else pestaux = pestaux->pSig;
}
if (pestaux != 0) { // si el nodo ya existía
delete pestn->Dato.ves;
delete pestn;
delete estn;
*pves = pestaux->Dato.n;
}
327
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
}
++pves; // *pves vale 0 por defecto, o bien puede valer numest
psimb = psimb->pSig; // avanzar al siguiente símbolo terminal
} // while que itera en el alfabeto terminal
// Luego se construyen las operaciones ir_a para el estado actual.
psimb = g.NoTerm.lse.Entrada;
while (psimb != 0) { // para cada símbolo no terminal
estn = new ConjElem;
if (estn == 0) return 0;
pelem = pesta->Dato.pce->lse.Entrada;
while (pelem != 0) { // para cada elemento del estado actual
if (pelem->Dato.punto != 0 &&
pelem->Dato.punto->Dato.CodigoCompuesto() ==
psimb->Dato.CodigoCompuesto() ) {
// agregar elemento al conj. de est. nuevo
estn->Agregar( pelem->Dato.pr, pelem->Dato.punto->pSig);
// si era A --> a • A agrega A --> a A •
} // la regla es la misma y el punto se corre al siguiente símbolo
pelem = pelem->pSig; // Avanzar al siguiente elemento del estado
actual
}
if (! estn->numelem) delete estn; // estado nuevo no usado
else {
estn->AgregCerradura(g);
pestn = new NodoLSE<Estado>;
if (pestn == 0) return 0;
pestn->Dato.pce = estn;
pestn->Dato.n = numest;
pestn->Dato.ves = new Ent16ns[numsimbG + 1];
if (pestn->Dato.ves == 0) return 0;
limpiar(pestn->Dato.ves, numsimbG + 1);
pestaux = lse.Entrada;
while (pestaux != 0) { // buscar si el estado nuevo no estaba, si
es así agregarlo al final
if ( *(pestaux->Dato.pce) == *estn) break; // salir del while
else if (pestaux->pSig == 0) { // pestaux apunta al último nodo,
que tiene un conj. de elem. distinto al nuevo
pestaux->pSig = pestn; // agregar al final
*pves = numest++; // del actual se transiciona al estado
nuevo con el símbolo terminal actual
pestaux = 0; // para salir del while
}
else pestaux = pestaux->pSig;
}
if (pestaux != 0) { // si el nodo (estado nuevo) ya existía
delete pestn->Dato.ves;
delete pestn;
delete estn;
*pves = pestaux->Dato.n; // enganchar con la primera copia
}
}
++pves; // *pves vale 0 por defecto, o bien puede valer numest
psimb = psimb->pSig; // avanzar al siguiente símbolo terminal
} // while que itera en el alfabeto no terminal
pesta = pesta->pSig; // avanzar al siguiente conjunto de elementos
}
//
//
//
//
Hasta aquí está armado el conjunto de estado con las operaciones de
desplazamiento e ir_a ya colocados. Ahora hay que colocar las
reducciones y la aceptación. En los lugares donde en ves quede 0 son
de error.
pesta = lse.Entrada;
while (pesta != 0) {
pelem = pesta->Dato.pce->lse.Entrada;
328
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
while (pelem != 0) {
if (pelem->Dato.punto == 0) { // si el elemento es " A -> X Y • "
// Buscar la regla en la gramática
Ent16ns numregla;
for (rn = g.Reglas.Entrada, numregla = 0;
rn != 0;
rn = rn->pSig, ++numregla)
if (rn == pelem->Dato.pr) break; // salir cuando la encuentre
if ( numregla ) { // Si no es la regla 0, A' -> A
// se agrega "reducir por regla numregla" a pesta->ves[i] para
todo
// símb i en Siguiente(A) donde A está en la parte izq. de la
regla.
Ent8ns cnt = pelem->Dato.pr->Dato.lse.Entrada->Dato.Codigo;
// cnt código del no terminal de la parte izq. de la regla
--cnt; // y ahora tiene cod. del no term. menos 1 puesto que no
// existe reducir por regla 0 (A' -> A). cnt indexa a
sig[]
psimb = sig[cnt].lse.Entrada;
char i;
while (psimb != 0) { // Mientras hayan símbolos en
Siguiente(cnt)
i = psimb->Dato.Codigo;
if (i) --i;
else i = numsimbG;
// Si la entrada no está definida o bien si funcerror dice
hacer la
// reducción, se asigna reducción por regla numregla a
pesta->ves[i]
if ( ! pesta->Dato.ves[i] || funcerror != 0 &&
(*funcerror)(pesta->Dato.n, pesta->Dato.ves[i], numregla,
*g.Term.Buscar(psimb->Dato.Codigo) ) )
pesta->Dato.ves[i] = 0x8000 | numregla; // 10 en los dos
últimos bits es reducir
psimb = psimb->pSig;
}
}
else { // La regla es A' -> A, la número 0
pesta->Dato.ves[numsimbG] = 0x4000; // 01 en los dos últ bits es
aceptar
// y se coloca para el símbolo terminal FA (entrada numsimbG)
}
}
pelem = pelem->pSig;
}
pesta = pesta->pSig;
}
//
// Llamar explícitamente a los destructores de los alfabetos Siguiente()
for (int c = 0; c < n; ++c ) sig[c].Alfabeto::~Alfabeto();
delete [] sig;
// En los dos últimos bits en el vector de estados siguientes (ves) de
cada
// estado se da la acción. La estructura puede representarse por la
clase
// siguiente, la que sirve para las tablas ir_a y acción:
// class ElemTabla {
//
Ent16ns n : 14; // 14 bits
//
Ent16ns a : 2; // 2 bits para indicar acción.
// }
// En a pueden haber los siguientes valores:
// 0 (00): si n == 0 entonces hay error de sintaxis.
//
si n != 0 entonces acción = desplazar y pasar al estado n.
// 1 (01): n valdrá 0 y no es usado. Acción = aceptar.
// 2 (10): acción = reducir por regla n. Siempre n != 0.
329
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
// Nunca se presenta el valor 3 (11).
return numest; // se devuelve el número de estados generados.
}
19.25 CEST02.CMM
// cest02.cmm
// Copyright (c) 1995 by Domingo Eduardo Becker.
// All rights reserved.
# include "genslr.h"
# include <archabst.h>
Archivo & operator << ( Archivo & a, const ConjEst & ce ) {
if (! ce.numest) return a;
register const NodoLSE<Estado> * q = ce.lse.Entrada;
while (q != 0) {
a << "Estado " << q->Dato.n << ":\n"
<< *(q->Dato.pce) << "\n";
q = q->pSig;
}
return a;
}
19.26 CEST03.CMM
// cest02.cmm
// Copyright (c) 1995 by Domingo Eduardo Becker.
// All rights reserved.
# include "genslr.h"
# include <archabst.h>
Archivo & operator << ( Archivo & a, const ConjEst & ce ) {
if (! ce.numest) return a;
register const NodoLSE<Estado> * q = ce.lse.Entrada;
while (q != 0) {
a << "Estado " << q->Dato.n << ":\n"
<< *(q->Dato.pce) << "\n";
q = q->pSig;
}
return a;
}
19.27 CEST04.CMM
// cest04.cmm
// Copyright (c) 1995 by Domingo Becker.
// All rights reserved.
# include "genslr.h"
# include <archivo.h>
330
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
// Ent8 ConjEst::ImprTablaC( const char *, const Gramatica &,
//
const char * ) const
// Imprime la tabla en formato de declaración del C
Ent8 ConjEst::ImprTablaC( const char * nom, const Gramatica & g,
const char * sufijo ) const {
if (! numest || g.Reglas.Entrada == 0) return 0;
ArchivoSO a;
if ( a.Abrir(nom, MA_E, MD_TXT) ) return 0;
if (sufijo == 0) sufijo = "";
Ent16ns numnt = g.NumNoTerm(), numt = g.NumTerm(),
c;
// noterm_long_pd tiene en [0] número de term y no term en la parte
// baja y alta respectivamente.
// en [1] en adelante las longitudes de las partes derechas de las
reglas
// en la parte baja y el código del no terminal en la parte alta.
a << "// Tablas generadas por ConjEst::ImprTablaC versión 2 (Nov 95).\n"
"// Domingo Eduardo Becker.\n\n"
"# ifndef __TIPOS_H\n# include <tipos.h>\n# endif\n"
"\nEnt16ns ntlpd" << sufijo << "[] = {\n";
a.printf(" 0x%x,", numnt << 8 | numt );
const NodoLSE<ReglaLC> * pr = g.Reglas.Entrada->pSig;
Ent16ns n = 0, x;
const NodoLSE<Simbolo> * ps;
Ascii0 cad;
while (pr != 0) {
if (! n) a << "\n ";
x = pr->Dato.lse.Entrada->Dato.Codigo << 8 | pr->Dato.LongParteDer();
cad.printf("0x%x", x);
a.printf(" %6s%c", (char *) cad, pr->pSig != 0 ? ',' : '\n' );
n += 8;
if (n > 70) n = 0;
pr = pr->pSig;
}
a << "};\n\n";
// accion[] tiene las acciones. en las posiciones 0 de la matriz tiene
// la acción para FA.
a << "Ent16ns accion" << sufijo << "[] = {\n ";
const NodoLSE<Estado> * q = lse.Entrada;
Ent16ns * ves;
while (q != 0) {
ves = q->Dato.ves;
a.printf(" %5u,", ves[numt + numnt]);
n = 7;
for (c = 0; c < numt; ++c) {
a.printf(" %5u", ves[c]);
if (c < numt - 1) a << ",";
n += 7;
if (n > 70) n = 0;
if (! n) a << "\n ";
}
q = q->pSig;
if (q != 0) a << ",\n ";
}
a << "\n};\n\n";
// ir_a[] tiene la función ir_a para cada no terminal
a << "Ent16ns ir_a" << sufijo << "[] = {\n ";
q = lse.Entrada;
while (q != 0) {
ves = q->Dato.ves + numt; // saltea los primeros numt elementos
for (c = 0, n = 0; c < numnt; ++c) {
a.printf(" %5u", ves[c]);
331
Códigos Fuentes de la Biblioteca de Soporte de SLR1 v 2.x
if (c < numnt - 1) a << ",";
n += 7;
if (n > 70) n = 0;
if (! n) a << "\n ";
}
q = q->pSig;
if (q != 0) a << ",\n ";
}
a << "\n};\n\n";
a.Cerrar();
return 1;
}
19.28 CEST05.CMM
// cest05.cmm
// Copyright (c) 1995 by Domingo Becker.
// All rights reserved.
# include "genslr.h"
# include <archivo.h>
// Ent8 ConjEst::ImprTabla( const char *, const Gramatica & g ) const
// Imprime la tabla en formato texto en un archivo de texto.
Ent8 ConjEst::ImprTabla( const char * nom, const Gramatica & g ) const {
if (! numest || g.Reglas.Entrada == 0) return 0;
ArchivoSO a;
if ( a.Abrir(nom, MA_E, MD_TXT) ) return 0;
return ImprTabla(a, g);
}
332
Códigos Fuentes de SLR1 v 2.x
Capítulo 20: Códigos Fuentes de SLR1 v 2.x
SLR1 v 2.x, al igual que la primera versión de SLR1, ha sido diseñado
como un programa del usuario que hace uso de la biblioteca de soporte para la
generación de analizadores sintácticos SLR. De esta manera es posible la
reutilización del generador de analizadores sintácticos en cualquier programa
del usuario.
A diferencia de la biblioteca de soporte, esta implementación es
dependiente del sistema operativo. Los módulos fuente aquí presentados
pueden ser compilados con Borland C++ para Windows (4.02 o posterior) o
para OS/2 (2.0 o posterior). Para el modo gráfico se utiliza la biblioteca OWL
v 2.x que viene incluida en esos compiladores, ganando así portabilidad entre
Windows y Presentation Manager. Para el modo caracter se utiliza la
biblioteca BCE, ganando así la portabilidad a cualquier sistema operativo que
disponga de una versión de BCE.
La versión 2.x de SLR1 incluye todas las opciones de SLR1 v 1.x, por
tal razón no se incluyen los fuentes de SLR1 v 1.x puesto que son muy
similares y sería redundante.
A los efectos de no repetir código fuente dentro de este trabajo, cuando
sea aplicable, se introducirán referencias hacia otras partes dentro de este
documento, en donde era oportuno incluirlos.
20.1 GENSLR1D.CMM
El código fuente de este módulo es una implementación basada en lo
propuesto en la sección 7.4.
Se puede generar una aplicación a partir de éste, compilándolo y
encadenandolo con la biblioteca BCE, la biblioteca de soporte de SLR1 v 2.x y
las bibliotecas estándar.
Este módulo no debe ser incluido junto con GENSLR1.CMM.
// genslr1d.cmm
Lun 27 Nov 95
// Creado a partir de genslr1.cmm y modificado el 23 Feb 96 para que
// funcione bajo DOS y OS/2 modo caracter.
// Copyright (c) 1996 by Domingo Eduardo Becker.
// All rights reserved.
# include <dir.h> // fnsplit y fnmerge
# include <string.h>
333
Códigos Fuentes de SLR1 v 2.x
# include <archivo.h>
# include "genslr.h"
static Ent8 FuncError ( Ent16ns estado, Ent16ns val_previo, Ent16ns
num_regla,
const Simbolo & s ) {
Ent16ns n = val_previo & 0x2fff,
AntesRed = val_previo & 0xc000;
Ascii0 antes, ahora;
const char * CadTipoConf = AntesRed ? "Conflicto de reduccion/reduccion"
: "Conflicto de desplazamiento/reduccion";
antes.printf("%c%u", AntesRed ? 'r' : 'd', n);
ahora.printf("r%u", num_regla);
salida << "\n" << CadTipoConf << " en (" << estado << ", " << s << "): "
<< antes << " / " << ahora;
return 0; // siempre dejar acción previa.
}
const char * NomExtSinDir( const char * NomArchCompleto, const char *
ExtNueva ) {
char disco[MAXDRIVE], dir[MAXDIR], nomarch[MAXFILE], extfue[MAXEXT],
nulo[] = "";
static char NombreNuevo[MAXPATH];
fnsplit(NomArchCompleto, disco,dir,nomarch,extfue);
fnmerge(NombreNuevo, nulo, nulo, nomarch, ExtNueva);
return NombreNuevo;
}
Ent8 GenerarSLR1( const char * NomArch, const char * Sufijo ) {
salida << "SLR1 v 2.3 para modo caracter - Feb 96\n"
"D.E.Becker Tel (085) 22-2488/39-0567\n\n";
if (NomArch == 0 || ! strlen(NomArch)) {
salida << "ERROR: Nombre no especificado o falta memoria.";
return 1;
}
Gramatica G;
ConjEst AutomataSLR1;
Ascii0 CadPosErr, GramTxt;
const char * nom,
cmm[] = ".cmm",
est[] = ".est",
tab[] = ".tab";
ArchivoSO a;
// Cargar la gramática en la memoria:
salida << "Cargando gramatica en memoria . . . ";
if ( a.Abrir(NomArch, MA_L) ) {
salida << "\nNo se puede abrir '" << NomArch << "' para lectura.";
return 4;
}
if (! GramTxt.Reasignar(a.Tam()+1)) {
salida << "Falta memoria para cargar archivo.";
return 5;
}
if ( ! a.Leer( (char *) GramTxt, a.Tam() ) ) {
salida << "ERROR: No se pudo leer el archivo.";
return 6;
}
a.Cerrar();
// Realizar análisis sintáctico y reasignar a objeto Gramatica
salida << "\nRealizando analisis sintactico . . . ";
if (! G.Reasignar(GramTxt, CadPosErr)) {
334
Códigos Fuentes de SLR1 v 2.x
salida << "ERROR en la posicion: \n" << CadPosErr;
return 7;
}
G.ArmarAlfabetos(); // terminal y no terminal
// Generar el código fuente con las acciones semánticas:
salida << "\nGenerando codigo C++ de acciones semanticas . . . ";
nom = NomExt(NomArch, cmm);
if (a.Abrir(nom, MA_E)) {
salida << "ERROR: No se puede abrir '" << nom << "' para
escritura.";
return 8;
}
a << "// Codigo fuente generado por SLR1 version 2.3 para modo caracter
(Feb 96)\n"
"// Domingo Eduardo Becker, Sgo. del Estero, Tel (085)
22-2488\n";
G.ImprAccSem(a, Sufijo);
a << "\n";
// Generar codigo para el analizador lexico:
salida << "\nGenerando codigo C++ de los analizadores lexico y
sintactico . . . ";
G.ImprAnaLex(a, Sufijo);
// Imprimir analizador sintactico:
a << "\n// Definicion del analizador sintactico (SLR1 v 2.3).\n"
"// Cambiar de lugar la definicion si es necesario.\n\n"
"# include \"" << NomExtSinDir(NomArch, tab)
<< "\" // tablas del analizador sintactico\n\nAnalSLR1<"
<< (const char *) G.ClaseElemPila << "> as" << Sufijo
<< "(ntlpd" << Sufijo << ", accion" << Sufijo << ", ir_a" << Sufijo
<< ", AccSem" << Sufijo << ");";
a.Cerrar();
// Imprimir la gramatica en archivo .est
salida << "\nImprimiendo la gramatica en archivo .EST . . . ";
nom = NomExt(NomArch, est);
if ( a.Abrir(nom, MA_E, MD_TXT) ) {
salida << "ERROR: No se puede abrir '" << nom << "' para escritura";
return 9;
}
a << G;
// Imprimir Anulable, Primero y Siguiente:
G.ImprAnulPrimSig(a);
// Armar las tablas de analisis sintactico
salida << "\nGenerando las tablas SLR(1) . . . ";
AutomataSLR1.Armar(G, FuncError);
// Imprimir las tablas en archivo .est
salida << "\nImprimiendo las tablas SLR(1) en archivo .EST . . . ";
a << "\n\nEstados: \n\n" << AutomataSLR1;
AutomataSLR1.ImprTabla(a, G);
a.Cerrar();
// Imprimir las tablas en archivo .tab
salida << "\nImprimiendo las tablas SLR(1) en archivo .TAB . . . ";
AutomataSLR1.ImprTablaC(NomExt(NomArch, tab), G, Sufijo);
salida << "\n\nAnalizador sintactico y lexicografico generados sin
problemas."
<< "\nTablas en C++ en:
" <<
NomExt(NomArch, tab);
335
Códigos Fuentes de SLR1 v 2.x
salida << "\nTablas y estados en texto en:
" << NomExt(NomArch,
est);
salida << "\nAcciones semanticas y analizadores: " << NomExt(NomArch,
cmm);
return 0;
}
int main(int
if (nArg <
salida
return
}
nArg, char * cArg[]) {
2) {
<< "Falta el nombre del archivo con la gramatica.";
1;
return GenerarSLR1(cArg[1], cArg[2]);
}
20.2 GENSLR1.CMM
El código fuente de este módulo es una implementación basada en lo
propuesto en la sección 7.4. Se agregó un diálogo en donde se presenta el
progreso de la generación y otro en donde se informan los conflictos y se da
posibilidad de corregirlos. Si hay error de sintaxis, se muestra la posición en
donde se produjo el error en otro diálogo.
// genslr1.cmm
Lun 27 Nov 95
// Copyright (c) 1995 by Domingo Eduardo Becker.
// All rights reserved.
#
#
#
#
#
#
include
include
include
include
include
include
"progreso.h"
"dlgerror.h"
"dlgconf.h"
<archivo.h>
"genslr.h"
<dir.h> // fnsplit y fnmerge
static TProgreso * pDlgProgreso = 0;
static Ent8 FuncError ( Ent16ns estado, Ent16ns val_previo, Ent16ns
num_regla,
const Simbolo & s ) {
Ent16ns n = val_previo & 0x2fff,
AntesRed = val_previo & 0xc000;
Ascii0 cad;
const char * CadTipoConf = AntesRed ? "Conflicto de reducción/reducción"
: "Conflicto de
desplazamiento/reducción";
TDlgConflicto dlg(pDlgProgreso);
dlg.Titulo = CadTipoConf;
dlg.Estado = estado;
dlg.Terminal = s.Cadena();
dlg.AccPrevia.printf("%c%u", AntesRed ? 'r' : 'd', n);
dlg.AccNueva.printf("r%u", num_regla);
return dlg.Execute() != IDOK; // si ==IDOK se elige acción previa.
}
const char * NomExtSinDir( const char * NomArchCompleto, const char *
ExtNueva ) {
336
Códigos Fuentes de SLR1 v 2.x
char disco[MAXDRIVE], dir[MAXDIR], nomarch[MAXFILE], extfue[MAXEXT],
nulo[] = "";
static char NombreNuevo[MAXPATH];
fnsplit(NomArchCompleto, disco,dir,nomarch,extfue);
fnmerge(NombreNuevo, nulo, nulo, nomarch, ExtNueva);
return NombreNuevo;
}
Ent8 GenerarSLR1( const char * NomArch, const char * Sufijo,
TWindow * VentPadre ) {
// Crear ventana diálogo de progreso
pDlgProgreso = new TProgreso(VentPadre);
if (pDlgProgreso == 0) return 1;
if (! pDlgProgreso->Create()) {
delete pDlgProgreso;
return 2;
}
pDlgProgreso->SetCaption("SLR1 v 2.3 - Dic 95");
if (NomArch == 0 || ! strlen(NomArch)) {
pDlgProgreso->MessageBox("Nombre no especificado o falta memoria.",
"ERROR",
MB_OK | MB_ICONHAND);
delete pDlgProgreso;
return 1;
}
Gramatica G;
ConjEst AutomataSLR1;
Ascii0 CadPosErr, GramTxt;
const char * nom,
cmm[] = ".cmm",
est[] = ".est",
tab[] = ".tab";
ArchivoSO a;
// Cargar la gramática en la memoria:
pDlgProgreso->SetDlgItemText(TXT_1, "Cargando gramática en memoria . .
.");
pDlgProgreso->GetApplication()->PumpWaitingMessages(); // (pseudo
multitarea)
if ( a.Abrir(NomArch, MA_L) ) {
CadPosErr.printf("No se puede abrir '%s'\npara lectura.", NomArch);
pDlgProgreso->MessageBox(CadPosErr, "ERROR", MB_OK | MB_ICONHAND);
delete pDlgProgreso;
return 4;
}
if (! GramTxt.Reasignar(a.Tam()+1)) {
pDlgProgreso->MessageBox("Falta memoria para cargar archivo.",
"ERROR",
MB_OK | MB_ICONHAND);
delete pDlgProgreso;
return 5;
}
if ( ! a.Leer( (char *) GramTxt, a.Tam() ) ) {
pDlgProgreso->MessageBox("No se pudo leer el archivo.", "ERROR",
MB_OK | MB_ICONHAND);
delete pDlgProgreso;
return 6;
}
a.Cerrar();
337
Códigos Fuentes de SLR1 v 2.x
// Realizar análisis sintáctico y reasignar a objeto Gramatica
pDlgProgreso->SetDlgItemText(TXT_1, "Gramática cargada en memoria.");
pDlgProgreso->SetDlgItemText(TXT_2, "Realizando análisis sintáctico . .
.");
pDlgProgreso->GetApplication()->PumpWaitingMessages(); // (pseudo
multitarea)
if (! G.Reasignar(GramTxt, CadPosErr)) {
TDlgError * pDlgError = new TDlgError(pDlgProgreso);
pDlgError->Cad = CadPosErr;
pDlgError->Execute();
delete pDlgError;
delete pDlgProgreso;
return 7;
}
G.ArmarAlfabetos(); // terminal y no terminal
// Generar el código fuente con las acciones semánticas:
pDlgProgreso->SetDlgItemText(TXT_2, "No hay problemas de sintaxis.");
pDlgProgreso->SetDlgItemText(TXT_3, "Generando código C++ de acciones
semánticas . . .");
pDlgProgreso->GetApplication()->PumpWaitingMessages(); // (pseudo
multitarea)
nom = NomExt(NomArch, cmm);
if (a.Abrir(nom, MA_E/*, MD_TXT*/)) {
CadPosErr.printf("No se puede abrir '%s'\npara escritura.", nom);
pDlgProgreso->MessageBox(CadPosErr, "ERROR", MB_OK | MB_ICONHAND);
delete pDlgProgreso;
return 8;
}
a << "// Código fuente generado por SLR1 versión 2.3 (Dic 95)\n"
"// Domingo Eduardo Becker, Sgo. del Estero, Tel (085) 22-2488\n";
G.ImprAccSem(a, Sufijo);
a << "\n";
// Generar código para el analizador léxico:
pDlgProgreso->SetDlgItemText(TXT_3, "Código C++ de acciones semánticas
generado.");
pDlgProgreso->SetDlgItemText(TXT_4, "Generando código C++ de los
analizadores léxico y sintáctico . . .");
pDlgProgreso->GetApplication()->PumpWaitingMessages(); // (pseudo
multitarea)
G.ImprAnaLex(a, Sufijo);
// Imprimir analizador sintáctico:
a << "\n// Definición del analizador sintáctico (SLR1 v 2.3).\n"
"// Cambiar de lugar la definición si es necesario.\n\n"
"# include \"" << NomExtSinDir(NomArch, tab)
<< "\" // tablas del analizador sintáctico\n\nAnalSLR1<"
<< (const char *) G.ClaseElemPila << "> as" << Sufijo << "(ntlpd" <<
Sufijo
<< ", accion" << Sufijo << ", ir_a" << Sufijo << ", AccSem" << Sufijo
<< ");";
a.Cerrar();
// Imprimir la gramática en archivo .est
pDlgProgreso->SetDlgItemText(TXT_4, "Código C++ de los analizadores
léxico y sintáctico generado.");
338
Códigos Fuentes de SLR1 v 2.x
pDlgProgreso->SetDlgItemText(TXT_5, "Imprimiendo la gramática en archivo
.EST . . .");
pDlgProgreso->GetApplication()->PumpWaitingMessages(); // (pseudo
multitarea)
nom = NomExt(NomArch, est);
if ( a.Abrir(nom, MA_E, MD_TXT) ) {
CadPosErr.printf("No se puede abrir '%s'\npara escritura.", nom);
pDlgProgreso->MessageBox(CadPosErr, "ERROR", MB_OK | MB_ICONHAND);
delete pDlgProgreso;
return 9;
}
a << G;
// Imprimir Anulable, Primero y Siguiente:
G.ImprAnulPrimSig(a);
// Armar las tablas de análisis sintáctico
pDlgProgreso->SetDlgItemText(TXT_5, "Gramática impresa en archivo
.EST.");
pDlgProgreso->SetDlgItemText(TXT_6, "Generando las tablas SLR(1) . .
.");
pDlgProgreso->GetApplication()->PumpWaitingMessages(); // (pseudo
multitarea)
AutomataSLR1.Armar(G, FuncError);
// Imprimir las tablas en archivo .est
pDlgProgreso->SetDlgItemText(TXT_6, "Tablas de análisis SLR(1)
generadas.");
pDlgProgreso->SetDlgItemText(TXT_7, "Imprimiendo las tablas SLR(1) en
archivo .EST . . .");
pDlgProgreso->GetApplication()->PumpWaitingMessages(); // (pseudo
multitarea)
a << "\n\nEstados: \n\n" << AutomataSLR1;
AutomataSLR1.ImprTabla(a, G);
a.Cerrar();
// Imprimir las tablas en archivo .tab
pDlgProgreso->SetDlgItemText(TXT_7, "Tablas de análisis SLR(1) impresas
en archivo .EST.");
pDlgProgreso->SetDlgItemText(TXT_8, "Imprimiendo las tablas SLR(1) en
archivo .TAB . . .");
pDlgProgreso->GetApplication()->PumpWaitingMessages(); // (pseudo
multitarea)
AutomataSLR1.ImprTablaC(NomExt(NomArch, tab), G, Sufijo);
delete pDlgProgreso;
return 0;
}
20.3 PROGRESO.CMM
El diseño de la ventana donde se muestra el progreso es el siguiente:
339
Códigos Fuentes de SLR1 v 2.x
Fig. 34 Diseño de la ventana donde se muestra el progreso de la
generación con SLR1 v 2.x
/*
Project slr1
Copyright © 1995 by Domingo Eduardo Becker. All Rights Reserved.
SUBSYSTEM:
FILE:
AUTHOR:
slr1.apx Application
progreso.cmm
Domingo Eduardo Becker
OVERVIEW
========
Source file for implementation of TProgreso (TDialog).
*/
#include <owl\owlpch.h>
#pragma hdrstop
#include "progreso.h"
//{{TProgreso Implementation}}
TProgreso::TProgreso (TWindow* parent, TResId resId, TModule* module):
TDialog(parent, resId, module)
{
// INSERT>> Your constructor code here.
}
TProgreso::~TProgreso ()
{
Destroy();
// INSERT>> Your destructor code here.
}
340
Códigos Fuentes de SLR1 v 2.x
20.4 DLGCONF.CMM
Diseño del diálogo donde se muestra un conflicto y donde se da la
posibilidad de corregirlo:
Fig. 35 Diseño del diálogo donde se muestran los conflictos.
/*
Project slr1
Copyright © 1995 by Domingo Eduardo Becker. All Rights Reserved.
SUBSYSTEM:
FILE:
AUTHOR:
slr1.apx Application
dlgconf.cmm
Domingo Eduardo Becker
OVERVIEW
========
Source file for implementation of TDlgConflicto (TDialog).
*/
#include <owl\owlpch.h>
#pragma hdrstop
#include "dlgconf.h"
//{{TDlgConflicto Implementation}}
TDlgConflicto::TDlgConflicto (TWindow* parent, TResId resId, TModule*
module):
TDialog(parent, resId, module)
{
// INSERT>> Your constructor code here.
341
Códigos Fuentes de SLR1 v 2.x
}
TDlgConflicto::~TDlgConflicto ()
{
Destroy();
// INSERT>> Your destructor code here.
}
void TDlgConflicto::SetupWindow ()
{
TDialog::SetupWindow();
//
if
if
if
if
if
INSERT>> Your code here.
(Titulo.Long()) SetCaption(Titulo);
(Estado.Long()) SetDlgItemText(TXT_1, Estado);
(Terminal.Long()) SetDlgItemText(TXT_2, Terminal);
(AccPrevia.Long()) SetDlgItemText(TXT_3, AccPrevia);
(AccNueva.Long()) SetDlgItemText(TXT_4, AccNueva);
}
20.5 DLGERROR.CMM
El diseño del diálogo donde se muestran los errores de sintaxis es el
siguiente:
Fig. 36 Diseño del diálogo donde se muestran los errores de
sintaxis.
/*
Project afd
Copyright © 1995. All Rights Reserved.
SUBSYSTEM:
afd.apx Application
342
Códigos Fuentes de SLR1 v 2.x
FILE:
AUTHOR:
dlgerror.cmm
Domingo Eduardo Becker
OVERVIEW
========
Source file for implementation of TDlgError (TDialog).
*/
#include <owl\owlpch.h>
#pragma hdrstop
#include "dlgerror.h"
//{{TDlgError Implementation}}
TDlgError::TDlgError (TWindow* parent, TResId resId, TModule* module):
TDialog(parent, resId, module)
{
// INSERT>> Your constructor code here.
}
TDlgError::~TDlgError ()
{
Destroy();
// INSERT>> Your destructor code here.
}
void TDlgError::SetupWindow ()
{
TDialog::SetupWindow();
// INSERT>> Your code here.
if (Cad.Long())
SetDlgItemText(IDC_CADENADLGERROR, Cad);
}
20.6 SL1TDLGC.CMM
El diseño de la ventana principal es el siguiente:
343
Códigos Fuentes de SLR1 v 2.x
Fig. 37 Diseño de la ventana principal de SLR1 v 2.x para modo
gráfico.
/*
Project slr1
Copyright © 1995 by Domingo Eduardo Becker. All Rights Reserved.
SUBSYSTEM:
FILE:
AUTHOR:
slr1.exe Application
sl1tdlgc.cmm
Domingo Eduardo Becker
OVERVIEW
========
Source file for implementation of slr1TDLGClient (TDialog).
*/
#include <owl\owlpch.h>
#pragma hdrstop
#include "slr1app.h"
#include "sl1tdlgc.h"
# include <owl\opensave.h>
# include <ascii0.h>
//
// Build a response table for all messages/commands handled
// by the application.
//
DEFINE_RESPONSE_TABLE1(slr1TDLGClient, TDialog)
//{{slr1TDLGClientRSP_TBL_BEGIN}}
EV_BN_CLICKED(IDOK, Procesar),
EV_BN_CLICKED(IDC_BUSCAR, BuscarArchivo),
//{{slr1TDLGClientRSP_TBL_END}}
END_RESPONSE_TABLE;
//{{slr1TDLGClient Implementation}}
//////////////////////////////////////////////////////////
// slr1TDLGClient
// ==========
// Construction/Destruction handling.
344
Códigos Fuentes de SLR1 v 2.x
slr1TDLGClient::slr1TDLGClient (TWindow *parent, TResId resId, TModule
*module)
: TDialog(parent, resId, module)
{
// INSERT>> Your constructor code here.
}
slr1TDLGClient::~slr1TDLGClient ()
{
Destroy();
// INSERT>> Your destructor code here.
}
Ent8 GenerarSLR1( const char * NomArch, const char * Sufijo, TWindow *
VentPadre );
void slr1TDLGClient::Procesar ()
{
// INSERT>> Your code here.
Ascii0 NomArch(100), Sufijo(50);
GetDlgItemText(IDC_NOMARCH, NomArch, NomArch.TamBlq());
GetDlgItemText(IDC_SUFIJO, Sufijo, Sufijo.TamBlq());
if (GenerarSLR1(NomArch, Sufijo, this))
MessageBox("Error", "ERROR", MB_OK | MB_ICONHAND);
else
MessageBox("No hay problemas", "Observación", MB_OK |
MB_ICONINFORMATION);
}
void slr1TDLGClient::BuscarArchivo ()
{
// INSERT>> Your code here.
TOpenSaveDialog::TData DatosDlg(OFN_HIDEREADONLY | OFN_FILEMUSTEXIST |
OFN_NOCHANGEDIR,
"Gramáticas (*.GLC)|*.glc|", 0,
0,"glc");
TFileOpenDialog dlg(this, DatosDlg);
if (dlg.Execute() == IDOK)
SetDlgItemText(IDC_NOMARCH, DatosDlg.FileName);
}
345
Códigos Fuentes de la Biblioteca ExpReg v 1.x
Capítulo 21: Códigos Fuentes de la Biblioteca ExpReg v 1.x
Los módulos fuentes presentados en este capítulo son independientes
del sistema operativo y del compilador con el cual se trabaje.
A los efectos de no repetir código fuente dentro de este trabajo, cuando
sea aplicable, se introducirán referencias hacia otras partes dentro de este
documento, en donde era oportuno incluirlos.
21.1 EXPREG.H
Este módulo se presenta en la sección 12.14.2.
21.2 GENAFD.H
# ifndef __GENAFD_H
# define __GENAFD_H
// genafd.h: clases para el generador de autómatas finitos determinísticos
//
a partir de expresiones regulares.
// Creación: Lun 09 Ene 95
// Copyright (c) 1995 by Domingo Becker.
// All rights reserved.
# ifndef __TIPOS_H
# include <tipos.h>
# endif
// independencia de la implementación de los tipos
// de datos fundamentales como por ejemplo el int.
# ifndef __LSE_H
# include "lse.h"
# endif
class NodoArbol {
public:
Ent16ns Tipo;
Ent8 PrimUltCalc;
NodoArbol * pIzq, * pDer;
LSE<Ent16ns> Prim, Ult;
NodoArbol() { Tipo = PrimUltCalc = 0; pIzq = pDer = 0; }
~NodoArbol() { Vaciar(); }
Ent8 Anulable() const; // para el árbol cuya raíz es éste nodo
void CalcPrimUltSig( LSE<Ent16ns> * Sig );
Ent16ns AgregPrim( const LSE<Ent16ns> & prim );
Ent16ns AgregUlt( const LSE<Ent16ns> & ult );
void BorrarSubarboles();
void Vaciar();
};
346
Códigos Fuentes de la Biblioteca ExpReg v 1.x
// Tipo: indica el tipo de nodo. Para las hojas, este campo tiene el
número
//
de hoja (no puede haber 2 hojas con el mismo número), valor que
//
est entre 0 y N_HOJA ambos inclusive. Para este campo se definen
//
constantes más adelante.
// IdCar: identificador del caracter, es un índice para acceder a un
vector
//
donde está la descripción de la expresión monocaracter.
// PrimUltCalc: tiene 0 si PrimeraPos (Prim) y UltimaPos (Ult) no han sido
//
calculados, != 0 si ya se calcularon.
// pIzq: subárbol de la izquierda del actual. Para los nodos '*', '+' y
'?'
//
el subárbol se engancha en este campo. Para las hojas == 0.
// pDer: subárbol de la derecha del actual. Se usa solamente para nodos
del
//
tipo '.' y '|'. Para los nodos '*', '+', '?' y hojas vale 0.
// Prim y Ult: son listas de identificadores de las hojas (valor del campo
//
Tipo de las mismas) que son PrimeraPos y UltimaPos
respecti//
vamente, del nodo actual.
// Para el campo Tipo:
// N_DIS: nodo disyunción,
'|'
// N_CON: nodo concatenación, '.'
// N_AST: nodo asterisco,
'*'
// N_MAS: nodo más,
'+'
// N_OPC: nodo opcional,
'?'
// N_HOJA: nodo hoja, las hojas se numeran desde 0 hasta N_HOJA.
# define N_DIS 0xffff
# define N_CON 0xfffe
# define N_AST 0xfffd
# define N_MAS 0xfffc
# define N_OPC 0xfffb
# define N_HOJA 0xfffa
class DescrHoja {
public:
Ent16ns Id;
Ent8ns IdCar;
DescrHoja() { Id = IdCar = 0; }
};
// Id: número de hoja en el árbol sintáctico.
// IdCar: número de elemento en la lista de caracteres.
//
//
la
//
//
La tabla de descripciones de hoja es una LSE<DescrHoja>.
Con el campo IdCar se accede a una lista de cadenas donde se encuentra
descripción del caracter o rango de caracteres aceptables como unidad.
La lista de cadenas se implementar como LSE<Ascii0>
Ent16ns AgregLSE( LSE<Ent16ns> & des, const LSE<Ent16ns> & fue );
// agrega a des una copia de los elementos de fue
class Estado {
public:
Ent16ns Id, * Tran;
LSE<Ent16ns> * Pos;
Estado() { Id = 0; Tran = 0; Pos = 0; }
};
// Id: identificador del estado (0..n-1 si hay n estados).
347
Códigos Fuentes de la Biblioteca ExpReg v 1.x
// Tran: vector de transiciones a estados siguientes. Este vector es de
//
NumHojas elementos donde NumHojas es el número de hojas del árbol
//
sintáctico de la expresión regular.
// Pos: lista de las hojas del árbol sintáctico que se agrupan en este
//
estado.
# endif // # ifndef __GENAFD_H
21.3 AFD01.CMM
// afd01.cmm
Vie 13 Ene 95
// Copyright (c) 1995 by Domingo Becker.
// All rights reserved.
# include "expreg.h"
# include <archivo.h>
int ImprimirAFD( Archivo & arch, const AutomFinDet & afd ) {
arch << "Expresión regular: "
<< (afd.ExpRegular != 0 ? afd.ExpRegular : "Desconocida");
if (afd.NumCar > 1) arch << "\nCaracteres y/o rangos: ";
else if (afd.NumCar == 1) arch << "\nCaracter o rango: ";
if (! afd.NumCar) {
arch << "ERROR en el autómata, campo NumCar == 0.\n";
return 0;
}
Ent16ns i, j, estmayor, numcol, t;
if (afd.Caracter != 0)
for (i = 0; i < afd.NumCar; ++i) {
if (i) arch << ", ";
arch << "(" << i << ", \"";
if (afd.Caracter[i] == 0) arch << "?#@!";
else ImprCadena(arch, afd.Caracter[i]);
arch << "\")";
}
arch << "\nTabla de transiciones:\n";
if (afd.Transicion == 0) {
arch << "ERROR en el autómata, campo Transicion == 0.\n";
return 0;
}
estmayor = 1;
arch << "
";
numcol = afd.NumCar;
for (i = 0; i < numcol; ++i) arch.printf("%3d ", i);
arch << "\n";
for (i = 0; i < estmayor; ++i) {
arch.printf("%3d ", i);
for (j = 0; j < numcol; ++j) {
t = afd.Transicion[i * numcol + j];
if (t == TNDEF) arch << " - ";
else {
arch.printf("%3d ", t);
if (t >= estmayor) estmayor = t + 1;
}
}
arch << "\n";
}
if (afd.EstFinales == 0) {
arch << "ERROR en el autómata, campo EstFinales == 0.\n";
return 0;
348
Códigos Fuentes de la Biblioteca ExpReg v 1.x
}
if (afd.EstFinales[0] > 1) arch << "Estados finales: ";
else arch << "Estado final: ";
if (afd.EstFinales[0]) {
for (i = 1; i <= afd.EstFinales[0]; ++i) {
if (i > 1) arch << ", ";
arch << (Ent16ns) afd.EstFinales[i];
}
arch << "\n";
}
else arch << "ERROR: EstFinales[0] == 0, no hay estados finales.\n";
return 1;
}
21.4 AFD02.CMM
// afd02.cmm
Lun 16 Ene 95
// Copyright (c) 1995 by Domingo Becker.
// All rights reserved.
# include "expreg.h"
# include <archivo.h>
# include <string.h>
int ImprFuenteAFD( Archivo & arch, const AutomFinDet & afd,
const char * NomObj, const char * NomSubobj ) {
if (NomObj == 0) NomObj = "";
if (NomSubobj == 0) NomSubobj = NomObj;
arch << "// AFD generado por la versión 3.4 de ExpReg::Reasignar (Nov
95)\n"
"// Domingo Eduardo Becker, Sgo. del Estero, (085) 22-2488/1088.\n"
"\n# ifndef __EXPREG_H\n# include \"expreg.h\"\n# endif\n\n";
arch << "static const char er" << NomSubobj << "[] = \"";
if (afd.ExpRegular != 0) ImprCadena(arch, afd.ExpRegular);
arch << "\";\n";
if (! afd.NumCar) {
arch << "ERROR en el autómata, campo NumCar == 0.\n";
return 0;
}
unsigned i, j, estmayor, numcol, t, lon;
if (afd.Caracter != 0) {
arch << "static const char * vc" << NomSubobj << "[] = {\n ";
for (i = lon = 0; i < afd.NumCar; ++i) {
if (i) {
arch << ", ";
lon += 2;
}
if (lon >= 80) {
arch << "\n ";
lon = 0;
}
arch << "\"";
if (afd.Caracter[i] != 0) ImprCadena(arch, afd.Caracter[i]);
arch << "\"";
lon += 2 + strlen(afd.Caracter[i]);
}
arch << "\n};\n";
}
if (afd.Transicion == 0) {
arch << "ERROR en el autómata, campo Transicion == 0.\n";
349
Códigos Fuentes de la Biblioteca ExpReg v 1.x
return 0;
}
arch << "static const Ent16ns t" << NomSubobj << "[] = {\n";
estmayor = 1;
numcol = afd.NumCar;
for (i = 0; i < estmayor; ++i) {
if (i) arch << ",\n";
arch << " ";
for (j = 0; j < numcol; ++j) {
t = afd.Transicion[i * numcol + j];
if (j) arch << ", ";
if (t == TNDEF) arch << "TNDEF";
else {
arch.printf("%5d", t);
if (t >= estmayor) estmayor = t + 1;
}
}
}
arch << "\n};\n";
if (afd.EstFinales == 0) {
arch << "ERROR en el autómata, campo EstFinales == 0.\n";
return 0;
}
if (afd.EstFinales[0]) {
arch << "static const Ent16ns ef" << NomSubobj << "[] = {\n ";
for (i = 0; i <= afd.EstFinales[0]; ++i) {
if (i) arch << ", ";
arch << (Ent16ns) afd.EstFinales[i];
}
arch << "\n};\n";
}
else {
arch << "ERROR: EstFinales[0] == 0, no hay estados finales.\n";
return 0;
}
arch << "AutomFinDet afd" << NomObj << " = { er" << NomSubobj
<< ", vc" << NomSubobj << ", " << (Ent16ns) afd.NumCar << ", t"
<< NomSubobj << ", ef" << NomSubobj << " };\n";
return 1;
}
21.5 ANALEX01.CMM
// analex01.cmm
Mar 17 Ene 95
// Copyright (c) 1995 by Domingo Becker.
// All rights reserved.
# include "expreg.h"
# include <ascii0.h>
# include <string.h>
unsigned AnaLex::Examinar( Ascii0 & CadSimb, int may ) {
Ent8 aux = MayIgualMin;
MayIgualMin = may;
unsigned r = Examinar(CadSimb);
MayIgualMin = aux;
return r;
}
350
Códigos Fuentes de la Biblioteca ExpReg v 1.x
unsigned AnaLex::Examinar( Ascii0 & CadSimb ) {
unsigned i, tama, tamafd, iafd, tamcad, icad, Cod;
ExpReg er;
char Ignorar, HayUnAFD, HayUnLiteral;
Ignorar = 1;
CadSimb.Vaciar();
do {
if (Tama) {
register const char * p;
// ver si en el símbolo anterior habían '\n'
for (i = 0, p = pTxt + Inic; i < Tama; ++i)
if (*p++ == '\n') {
++NumLin;
ComLin = Inic + i + 1;
}
// ahora avanzar Inic
Inic += Tama;
Tama = 0;
}
// Si no hay más que analizar, salir.
if (! pTxt[Inic]) {
CodError = 0;
return 0;
}
iafd = icad = tvrs;
tamafd = tamcad = 0;
// Buscar si hay algún AFD que reconozca el símbolo siguiente
for (i = 0; i < tvrs; ++i)
if (vrs[i].EsAFD) {
er.Reasignar( * vrs[i].pAFD );
if (! er.Examinar(pTxt, Inic, tama) && tama > tamafd) {
tamafd = tama;
iafd = i;
}
}
// Sea o no que haya un AFD que reconozca al símbolo, verificar
// si corresponde a una constante.
for (i = 0; i < tvrs; ++i)
if (! vrs[i].EsAFD) {
tama = strlen(vrs[i].pCad);
if ((! MayIgualMin && ! strncmp(vrs[i].pCad, pTxt + Inic, tama) ||
MayIgualMin && ! strnicmp(vrs[i].pCad, pTxt + Inic, tama) )
&&
tama > tamcad) {
tamcad = tama;
icad = i;
}
}
HayUnLiteral = icad < tvrs;
HayUnAFD = iafd < tvrs;
// Si hay una cadena literal y un AFD que reconocen a la cadena de
// caracteres siguiente, elegir entre los dos el más largo. Si ambos
tienen
// igual longitud o el literal es más largo que la cadena reconocida
por el
// AFD entonces elegir el literal.
if (HayUnLiteral && HayUnAFD) {
if (tamafd > tamcad) {
Cod = vrs[iafd].Id;
Ignorar = ! Cod;
CodError = 0;
Tama = tamafd;
351
Códigos Fuentes de la Biblioteca ExpReg v 1.x
if (! Ignorar) Simbolo(CadSimb);
}
else {
Cod = vrs[icad].Id;
Ignorar = ! Cod;
CodError = 0;
Tama = tamcad;
if (! Ignorar) Simbolo(CadSimb);
}
}
else if (HayUnLiteral) {
Cod = vrs[icad].Id;
Ignorar = ! Cod;
CodError = 0;
Tama = tamcad;
if (! Ignorar) Simbolo(CadSimb);
}
else if (HayUnAFD) {
Cod = vrs[iafd].Id;
Ignorar = ! Cod;
CodError = 0;
Tama = tamafd;
if (! Ignorar) Simbolo(CadSimb);
}
else {
Cod = fErrorLex != 0 ? (*fErrorLex)(MayIgualMin, *this, CadSimb) :
0xffff;
CodError = Cod == 0xffff ? 1 : 0;
Ignorar = ! Cod;
}
} while (Ignorar);
return Cod;
}
21.6 ANALEX02.CMM
// analex02.cmm
Mié 18 Ene 95
// Copyright (c) 1995 by Domingo Becker.
// All rights reserved.
# include "expreg.h"
# include <ascii0.h>
# include <string.h>
unsigned AnaLex::Simbolo( Ascii0 & Simb ) const {
if (! Tama) return 0;
if (! Simb.Reasignar(Tama + 1)) return 0;
strncpy(Simb, pTxt + Inic, Tama);
return Tama;
}
21.7 ANALEX03.CMM
// analex03.cmm
Sáb 21 Ene 95
// Copyright (c) 1995 by Domingo Eduardo Becker.
// All rights reserved.
352
Códigos Fuentes de la Biblioteca ExpReg v 1.x
#
#
#
#
#
include
include
include
include
include
"blanco.cmm"
"coment.cmm"
"caract.cmm"
"rango.cmm"
"idafd.cmm"
static RecSimb vrs[] =
0,
1,
0,
1,
0)
_id_CteCar,
1,
_id_Rango,
1,
_id_Ident,
1,
_id_Disyuncion,
0,
_id_Uno_o_Mas,
0,
_id_Cero_o_Mas,
0,
_id_Opcional,
0,
_id_Abre_Paren,
0,
_id_Cierra_Paren, 0,
_id_Numeral,
0,
_id_CteCar,
0,
};
{
& afdBlanco,
& afdComent,
& afdCaract,
& afdRango,
& afdIdent,
0,
0,
0,
0,
0,
0,
0,
0,
0, // ignora los blancos (Id == 0)
0, // ignora los comentarios (Id ==
0,
0,
0,
"|",
"+",
"*",
"?",
"(",
")",
"#",
".",
# ifndef __ASCII0_H
# include <ascii0.h>
# endif
static unsigned CorregirErrLex( int , AnaLex & analex, Ascii0 & cad ) {
register char car, * p;
if ( ! (car = analex.Saltear()) ) return 0; // 0 == Fin de archivo
if (! cad.Reasignar(2)) return 0; // ?? falta memoria
p = (char *) cad;
*p++ = car;
*p = 0; // terminaci¢n en 0
return _id_CteCar;
}
// El analizador léxico es el objeto AnaLexExpReg siguiente:
AnaLex AnaLexExpReg(vrs, 13, 0, CorregirErrLex);
// 13 elementos RecSimb en vrs.
21.8 ANALEX04.CMM
// analex04.cmm
Jue 26 Ene 95
// Copyright (c) 1995 by Domingo Becker.
// All rights reserved.
# include "expreg.h"
unsigned AnaLex::Saltear( unsigned tam ) {
if (! tam || Tama || pTxt == 0 || ! pTxt[Inic]) return 0;
register unsigned t;
register const char * p;
for (t = 0, p = pTxt + Inic; t < tam; ++t, ++p)
if (! *p) break;
return Tama = t;
}
353
Códigos Fuentes de la Biblioteca ExpReg v 1.x
21.9 ANALEX05.CMM
// analex05.cmm
Jue 26 Ene 95
// Copyright (c) 1995 by Domingo Becker.
// All rights reserved.
# include "expreg.h"
# include <ascii0.h>
# include <string.h>
unsigned AnaLex::CadError( Ascii0 & Cad ) const {
register char * p;
register unsigned t, n;
// Contar la cantidad de caracteres hasta el siguiente '\n' o fin de
archivo
for (t = 0, p = (char *) pTxt + ComLin; *p && *p != '\n'; ++t, ++p);
Cad.Vaciar();
if (! t) return 0;
if (! Cad.Reasignar(t * 2 + 2)) return 0;
strncpy(Cad, pTxt + ComLin, t);
p = (char *) Cad + t;
*p++ = '\n';
for (n = ComLin; t; --t, ++n)
*p++ = n != Inic ? ' ' : '^';
*p = 0;
return Cad.Long();
}
21.10 ER01.CMM
// er01.cmm
Lun 16 Ene 95
// Copyright (c) 1995 by Domingo Becker.
// All rights reserved.
# include "expreg.h"
void ExpReg::Vaciar() {
if (afd == 0) return;
if (! apu) {
if (afd->Transicion != 0)
delete (void *) afd->Transicion;
if (afd->EstFinales != 0)
delete (void *) afd->EstFinales;
delete afd;
}
afd = 0;
apu = 0;
}
354
Códigos Fuentes de la Biblioteca ExpReg v 1.x
21.11 ER02.CMM
// er02.cmm
Lun 16 Ene 95
// Copyright (c) 1995 by Domingo Becker.
// All rights reserved.
# include "expreg.h"
# include <fvarias.h>
# include <string.h>
int ExpReg::Examinar( const char * Cadena, unsigned Inicio,
unsigned & Tam ) const {
Ent16ns Estado, NumCar, Car, EstadoNuevo, i;
const char * * Caracter, * pCad;
const Ent16ns * Transicion, * EstFinales;
Tam = 0;
if (afd == 0) return AFDNDEF;
Caracter = afd->Caracter;
Transicion = afd->Transicion;
EstFinales = afd->EstFinales;
NumCar = afd->NumCar;
Estado = 0;
if (Caracter == 0 || Transicion == 0 ||EstFinales == 0 || ! NumCar)
return AFDERR;
if (Cadena == 0 || Inicio >= strlen(Cadena)) return CADNULA;
pCad = Cadena + Inicio;
do {
// Primero buscar qué caracter es
for (Car = 0; Car < NumCar; ++Car)
if (Aceptar(*pCad, Caracter[Car])) break;
if (Car == NumCar) break; // salir del bucle, posible parada en
// estado final
// Luego ver si hay transición para ese caracter y el estado actual
EstadoNuevo = Transicion[Estado * NumCar + Car];
if (EstadoNuevo != TNDEF) { // si hay, avanzar un caracter
++Tam;
++pCad;
Estado = EstadoNuevo;
}
} while (EstadoNuevo != TNDEF || ! *pCad);
// Finalmente ver si el estado en el que se qued¢ es estado final
for (i = 1; i <= EstFinales[0]; ++i)
if (Estado == EstFinales[i]) break;
if (i > EstFinales[0])
if (Car == NumCar) return CARINESP; // caracter inesperado
else return TRANSNDEF; // es caracter esperado pero no hay transici¢n
return 0;
}
21.12 ER03.CMM
// er03.cmm
Mar 17 Ene 95
// Copyright (c) 1995 by Domingo Becker.
// All rights reserved.
355
Códigos Fuentes de la Biblioteca ExpReg v 1.x
# include "expreg.h"
# include <string.h>
int ExpReg::Buscar( const char * Cadena, unsigned & Inicio,
unsigned & Tam, unsigned Desde ) const {
unsigned inicio, loncad;
loncad = Cadena != 0 && *Cadena ? strlen(Cadena) : 0;
if (Desde >= loncad) return CADNULA;
inicio = Desde;
Tam = 0;
while (inicio < loncad && Examinar(Cadena, inicio, Tam)) ++inicio;
Inicio = inicio < loncad ? inicio : Desde;
return 0;
}
21.13 ER04.CMM
// er04.cmm
Mié 25 Ene 95
// Copyright (c) 1995 by Domingo Becker.
// All rights reserved.
# include "expreg.h"
# include <archivo.h>
int ExpReg::ImprFuente( const char * NomArch, const char * NomObj ,
const char * NomSubobj ) const {
register int r;
ArchivoSO arch;
if ( arch.Abrir(NomArch, MA_E, MD_TXT) ) return 0;
r = ImprFuente(arch, NomObj, NomSubobj);
arch.Cerrar();
return r;
}
21.14 NARBOL01.CMM
// narbol01.cmm
Mié 11 Ene 95
// Copyright (c) 1995 by Domingo Becker.
// All rights reserved.
# include "genafd.h"
Ent8 NodoArbol::Anulable() const {
register char r;
switch (Tipo) {
case N_AST: // '*'
case N_OPC: // '?'
r = 1;
break;
case N_DIS: // '|'
r = pIzq->Anulable() || pDer->Anulable();
break;
case N_CON: // '.'
r = pIzq->Anulable() && pDer->Anulable();
break;
356
Códigos Fuentes de la Biblioteca ExpReg v 1.x
default: // Tipo <= N_HOJA || Tipo == N_MAS
r = 0;
'+'
}
return r;
}
Ent16ns AgregLSE( LSE<Ent16ns> & des, const LSE<Ent16ns> & fue ) {
register NodoLSE<Ent16ns> * p, * q;
Ent16ns c;
for (p = fue.Entrada, c = 0; p != 0; p = p->pSig) {
for (q = des.Entrada; q != 0; q = q->pSig)
if (q->Dato == p->Dato) break; // si lo encuentra salir
if (q != 0) continue; // nodo existente, no agregar
des.AgregComienzo(p->Dato); // lo agrega
++c;
}
return c;
}
Ent16ns NodoArbol::AgregPrim( const LSE<Ent16ns> & primfue ) {
return AgregLSE(Prim, primfue);
}
Ent16ns NodoArbol::AgregUlt( const LSE<Ent16ns> & ultfue ) {
return AgregLSE(Ult, ultfue);
}
void AgregSig( LSE<Ent16ns> * Sig, const LSE<Ent16ns> & Desde,
const LSE<Ent16ns> & Hacia ) {
// Todas las hojas que hay en Hacia son SiguientePos de todas las hojas
// que hay en Desde.
register NodoLSE<Ent16ns> * p;
for (p = Desde.Entrada; p != 0; p = p->pSig)
AgregLSE(Sig[p->Dato], Hacia);
}
void NodoArbol::CalcPrimUltSig( LSE<Ent16ns> * Sig ) {
if (PrimUltCalc) return; // ya fue realizado
switch (Tipo) {
case N_AST: // '*'
case N_OPC: // '?'
case N_MAS: // '+'
pIzq->CalcPrimUltSig(Sig);
AgregPrim(pIzq->Prim);
AgregUlt(pIzq->Ult);
PrimUltCalc = 1;
break;
case N_DIS: // '|'
pIzq->CalcPrimUltSig(Sig);
pDer->CalcPrimUltSig(Sig);
AgregPrim(pIzq->Prim);
AgregPrim(pDer->Prim);
AgregUlt(pIzq->Ult);
AgregUlt(pDer->Ult);
PrimUltCalc = 1;
break;
case N_CON: // '.'
pIzq->CalcPrimUltSig(Sig);
pDer->CalcPrimUltSig(Sig);
// PrimeraPos
AgregPrim(pIzq->Prim);
if (pIzq->Anulable()) AgregPrim(pDer->Prim);
357
Códigos Fuentes de la Biblioteca ExpReg v 1.x
// UltimaPos
AgregUlt(pDer->Ult);
if (pDer->Anulable()) AgregUlt(pIzq->Ult);
// Ahora se calcula SiguientePos para nodos '.'
AgregSig(Sig, pIzq->Ult, pDer->Prim); // todas las posiciones dentro
de
// Prim del hijo derecho están en SiguientePos de todas las
posiciones
// dentro Ult del hijo izquierdo del actual.
break;
default: // Tipo <= N_HOJA
Prim.AgregComienzo(Tipo);
Ult.AgregComienzo(Tipo);
}
PrimUltCalc = 1;
// Se calcula SiguientePos para nodos '*' y nodos '+'
if (Tipo == N_AST || Tipo == N_MAS)
AgregSig(Sig, Ult, Prim); // todas las posiciones de Prim son
// siguientes a las posiciones de Ult
}
void NodoArbol::BorrarSubarboles() {
if (pIzq != 0) {
delete pIzq;
pIzq = 0;
}
if (pDer != 0) {
delete pDer;
pDer = 0;
}
}
void NodoArbol::Vaciar() {
BorrarSubarboles();
Prim.Vaciar();
Ult.Vaciar();
}
//
//
//
//
//
//
//
El conjunto T de terminales fue generado por SLR1.EXE versión 1.
El analizador lexicográfico debe devolver los códigos cuyos números
se especifican para que funcione correctamente el analizador
sintáctico que aquí se utiliza (generado por SLR1 v1).
T = { ('#', 1), (Ident, 2), (CteCar, 3), (Rango, 4), ('|', 5),
('?', 6), ('+', 7), ('*', 8), ('(', 9), (')', 10) }
Ver definición de las constantes en expreg.h.
//
//
//
//
//
A continuación, el código para cargar la expresión regular en memoria
y armar el árbol sintáctico, previo análisis sintáctico de la misma.
Se utiliza el generador de analizadores sintácticos SLR1 v 1.
Para realizar el análisis sintáctico se utiliza la implementación de
analizadores sintácticos SLR(1) preparada para SLR1 v 2.
# include "expreg.cmm" // tablas de análisis sintáctico de una exp reg.
# include "slr1.h"
// analizador SLR(1).
class ElemPilaER : public ElemPila { // elemento de la pila para exp reg
public:
NodoArbol * pNodo;
ElemPilaER() { pNodo = 0; }
~ElemPilaER();
};
358
Códigos Fuentes de la Biblioteca ExpReg v 1.x
ElemPilaER::~ElemPilaER() {
if (pNodo != 0) {
delete pNodo;
pNodo = 0;
}
}
//
//
//
//
//
//
AccSem implementa las acciones semánticas.
Si la regla es Simb0 --> Simb1 Simb2, las posiciones en pila son:
Simb0 y Simb1 están ambos en pila[pp+1], por lo que primero se debe
trabajar sobre Simb1 para luego dejar el resultado al final en Simb0.
Simb2 se encuentra en la posición pila[pp+2], y así sucesivamente.
pila y pp son variables globales.
class DescrIdent {
public:
Ascii0 Cad;
Ent8ns Id;
DescrIdent() { Id = 0; }
};
// Variables globales:
static LSE<DescrHoja> Hoja; // lista de descripciones de hojas del árbol
static LSE<Ascii0> Caracter; // lista de cadenas descriptoras de
caracteres
static Ent8ns MaxCar;
static Ent16ns NumHoja;
// número actual de hojas
static LSE<DescrIdent> TablaIdent;
static NodoArbol * RaizAnalSint;
static void InicVariablesGlob() {
Hoja.Vaciar();
Caracter.Vaciar();
MaxCar = 0;
NumHoja = 0;
TablaIdent.Vaciar();
RaizAnalSint = 0;
}
static void ElimComillaCambSecEsc( char * pCad ) {
register char * p;
if ((p = pCad) == 0 || ! *p) return;
while (*p) {
*p = *(p+1); // desplazar uno a la izquierda
if (*p) ++p;
}
*(p-1) = 0; // elimina último caracter
CambSecEsc(pCad);
}
# include <string.h>
static void AccSem( Ent16ns numregla, ElemPilaER * pila, Ent16ns pp ) {
NodoArbol * pn;
NodoLSE<Ascii0> * pCar, * pFinal;
Ent8ns c;
DescrHoja dh;
NodoLSE<DescrIdent> * pDI;
if (numregla == 1) {
// 1: ExpReg ----> Defs Disy
RaizAnalSint = pila[pp+2].pNodo;
pila[pp+2].pNodo = 0;
}
359
Códigos Fuentes de la Biblioteca ExpReg v 1.x
else if (numregla == 2) {
// 2: ExpReg ----> Disy
RaizAnalSint = pila[pp+1].pNodo;
pila[pp+1].pNodo = 0;
}
else if (numregla == 5 || numregla == 6) {
// 5: Def -------> '#' Ident CteCar
// 6: Def -------> '#' Ident Rango
for (pDI = TablaIdent.Entrada; pDI != 0; pDI = pDI->pSig)
if (! strcmp(pila[pp+2].CadTerm, pDI->Dato.Cad)) break;
if (pDI == 0) {
pDI = new NodoLSE<DescrIdent>;
if (pDI != 0) {
pDI->Dato.Cad << pila[pp+2].CadTerm;
if (pila[pp+3].CadTerm.Long() >= 3)
ElimComillaCambSecEsc(pila[pp+3].CadTerm);
// Agregar CteCar o Rango a la lista Caracter, si no existe.
// Obtener el correspondiente Id del mismo.
for (c = 0, pCar = pFinal = Caracter.Entrada;
pCar != 0; pCar = pCar->pSig, ++c) {
if (! strcmp(pila[pp+3].CadTerm, pCar->Dato)) break;
if (pCar->pSig != 0) pFinal = pCar->pSig;
}
if (pCar == 0) { // agregar si no existe
pCar = new NodoLSE<Ascii0>;
if (pCar != 0) {
pCar->Dato << pila[pp+3].CadTerm;
if (pFinal != 0) pFinal->pSig = pCar;
else Caracter.Entrada = pCar;
// c queda con el valor que tenía
++MaxCar; // hay un caracter más en la lista
}
else c = 0;
}
pDI->Dato.Id = c;
// Enganchar el descriptor del Ident a la entrada de TablaIdent
pDI->pSig = TablaIdent.Entrada;
TablaIdent.Entrada = pDI;
}
}
// else ... si pDI != 0, la definición de Ident es incorrecta,
// se la ingorará
pila[pp+2].CadTerm.Vaciar();
pila[pp+3].CadTerm.Vaciar();
}
else if (numregla == 7 || numregla == 9) {
// 7: Disy ------> Disy '|' Concat
// 9: Concat ----> Concat Unario
char indice;
indice = numregla == 7 ? 3 : 2;
pn = new NodoArbol;
if (pn == 0) return;
pn->Tipo = numregla == 7 ? N_DIS : N_CON; // '|' o '.'
pn->pIzq = pila[pp+1].pNodo;
pn->pDer = pila[pp + indice].pNodo;
pila[pp+1].pNodo = pn;
pila[pp + indice].pNodo = 0; // no se usa hasta nuevo aviso
}
else if (numregla == 11 || numregla == 12 || numregla == 13) {
// 11: Unario ----> Par_Car '?'
// 12: Unario ----> Par_Car '+'
// 13: Unario ----> Par_Car '*'
pn = new NodoArbol;
if (pn == 0) return;
pn->Tipo = numregla == 11 ? N_OPC : (numregla == 12 ? N_MAS : N_AST);
360
Códigos Fuentes de la Biblioteca ExpReg v 1.x
pn->pIzq = pila[pp+1].pNodo;
pila[pp+1].pNodo = pn;
}
else if (numregla == 15) {
// 15: Par_Car ---> '(' Disy ')'
pila[pp+1].pNodo = pila[pp+2].pNodo;
pila[pp+2].pNodo = 0;
}
else if (numregla == 16) {
// 16: Par_Car ---> Caracter
pn = new NodoArbol;
if (pn == 0) return;
pn->Tipo = NumHoja++; // asigna número de hoja e incrementa NumHoja
// Agrega descriptor de hoja:
// primero busca caracter en la lista Caracter
for (c = 0, pCar = pFinal = Caracter.Entrada;
pCar != 0; pCar = pCar->pSig, ++c) {
if (! strcmp(pila[pp+1].CadTerm, pCar->Dato)) break;
if (pCar->pSig != 0) pFinal = pCar->pSig;
}
if (pCar == 0) { // agregar si no existe
pCar = new NodoLSE<Ascii0>;
if (pCar != 0) {
pCar->Dato << pila[pp+1].CadTerm;
if (pFinal != 0) pFinal->pSig = pCar;
else Caracter.Entrada = pCar;
// c queda con el valor que tenía
++MaxCar; // hay un caracter más en la lista
}
else c = 0;
}
dh.Id = pn->Tipo;
dh.IdCar = c;
Hoja.AgregFinal(dh);
// enganchar con elemento actual de la pila LR
pila[pp+1].pNodo = pn;
// anular campo CadTerm del elemento actual de la pila LR para que no
// use memoria
pila[pp+1].CadTerm.Vaciar();
}
else if (numregla == 17) {
// 17: Caracter --> Ident
for (pDI = TablaIdent.Entrada; pDI != 0; pDI = pDI->pSig)
if (! strcmp(pila[pp+1].CadTerm, pDI->Dato.Cad)) break;
if (pDI != 0) // si Ident fue definido, se cambia Ident por su def.
pila[pp+1].CadTerm = * Caracter.DatoNodoI( pDI->Dato.Id );
// sino queda Ident como cte. caracter.
}
else if (numregla == 18) {
// 18: Caracter --> CteCar
if (pila[pp+1].CadTerm.Long() >= 3)
ElimComillaCambSecEsc(pila[pp+1].CadTerm);
else {
char * pCad;
pCad = (char *) pila[pp+1].CadTerm;
if (*pCad == '.' && ! *(pCad+1)) {
pila[pp+1].CadTerm = "^\n";
pila[pp+1].CadTerm.Reasignar(pila[pp+1].CadTerm.TamBlq());
}
}
}
else if (numregla == 19) {
// 19: Caracter --> Rango
if (pila[pp+1].CadTerm.Long() >= 3)
ElimComillaCambSecEsc(pila[pp+1].CadTerm);
361
Códigos Fuentes de la Biblioteca ExpReg v 1.x
}
}
// La función que genera el autómata finito determinístico es la
siguiente:
# ifndef __EXPREG_H
# include "expreg.h"
# endif
int ExpReg::Reasignar( const char * ExpRegular, Ascii0 & CadPosErr ) {
if (ExpRegular == 0 || *ExpRegular == 0) return 0;
Vaciar();
// Iniciar el analizador lexicográfico:
AnaLexExpReg.Reiniciar(ExpRegular);
// Iniciar variables del analizador sintáctico:
InicVariablesGlob();
// Analizador sintáctico SLR(1)
AnalSLR1<ElemPilaER> analizador(noterm_long_pd, accion, ir_a, AccSem);
// Generar el árbol sintáctico usando el analizador sintáctico:
if (! analizador.Analizar(AnaLexExpReg, CadPosErr)) {
// Los siguientes objetos son tablas generadas por AccSem.
// Se debe devolver la memoria usada por ellas.
// lista de descriptores de hojas del árbol sintáctico
Hoja.Vaciar();
// conjunto de caracteres que aparecieron en la expresión regular
Caracter.Vaciar();
// Tabla de identificadores
TablaIdent.Vaciar();
}
return 0; // la memoria del arbol generado la devuelve el destructor
// de la clase ElemPilaER al hacer 'delete pNodo'.
// RaizAnalSint es la raíz del árbol sintáctico generado por el
// analizador. Se debe agregar la concatenación con caracter '#'
FinArch.
NodoArbol * raiz, * HojaFinal;
Ent8ns c;
DescrHoja dh;
int resultado;
resultado = 0; // por defecto, resultado indica que hay problemas.
// Primero crear la hoja para el caracter de fin de expresión regular
'#'
HojaFinal = new NodoArbol;
if (HojaFinal == 0) {
delete RaizAnalSint; // árbol generado por el analizador sintáctico
Hoja.Vaciar(); // lista de descriptores de hojas del árbol sintáctico
Caracter.Vaciar();
TablaIdent.Vaciar();
return 0;
}
HojaFinal->Tipo = NumHoja; // asigna número de hoja sin incrementar
NumHoja
// Agrega descriptor de hoja:
dh.Id = HojaFinal->Tipo;
dh.IdCar = MaxCar;
Hoja.AgregFinal(dh);
// Luego crear el nodo raiz
raiz = new NodoArbol;
if (raiz == 0) {
delete RaizAnalSint; // árbol generado por el analizador sintáctico
Hoja.Vaciar(); // lista de descriptores de hojas del árbol sintáctico
362
Códigos Fuentes de la Biblioteca ExpReg v 1.x
Caracter.Vaciar();
TablaIdent.Vaciar();
return 0;
}
raiz->Tipo =
raiz->pIzq =
raiz->pDer =
RaizAnalSint
N_CON; // '.'
RaizAnalSint;
HojaFinal;
= 0;
// Ahora se calcula SiguientePos para todas las hojas del árbol
LSE<Ent16ns> * Sig;
Sig = new LSE<Ent16ns>[ NumHoja ]; // pide un vector de LSE de NumHoja
elem
if (Sig == 0) {
delete raiz;
// árbol sintáctico
Hoja.Vaciar(); // lista de descriptores de hojas del árbol sintáctico
Caracter.Vaciar();
TablaIdent.Vaciar();
return 0;
}
raiz->CalcPrimUltSig(Sig);
LSE<Estado> EstadosD;
NodoLSE<Estado> * pEstAct, * pFinal, * pAuxEst;
LSE<Ent16ns> * U;
NodoLSE<Ent16ns> * pPos, * pPos2;
NodoLSE<DescrHoja> * pHoja;
Ent16ns NumEst, i, j;
// El estado inicial es PrimeraPos(raiz)
pEstAct = new NodoLSE<Estado>;
if (pEstAct == 0) { // falta memoria
delete raiz; // árbol sintáctico
Hoja.Vaciar(); // lista de descriptores de hojas del árbol
Caracter.Vaciar();
TablaIdent.Vaciar();
delete [] Sig; // Vector de SiguientePos(h) para cada hoja
return 0;
}
pEstAct->Dato.Pos = new LSE<Ent16ns>;
if (pEstAct->Dato.Pos == 0) { // falta memoria
delete pEstAct;
delete raiz; // árbol sintáctico
Hoja.Vaciar(); // lista de descriptores de hojas del árbol
Caracter.Vaciar();
TablaIdent.Vaciar();
delete [] Sig; // Vector de SiguientePos(h) para cada hoja
return 0;
}
AgregLSE(* pEstAct->Dato.Pos, raiz->Prim);
pEstAct->Dato.Tran = new Ent16ns[NumHoja];
if (pEstAct->Dato.Tran == 0) { // falta memoria
delete pEstAct->Dato.Pos;
delete pEstAct;
delete raiz; // árbol sintáctico
Hoja.Vaciar(); // lista de descriptores de hojas del árbol
Caracter.Vaciar();
TablaIdent.Vaciar();
delete [] Sig; // Vector de SiguientePos(h) para cada hoja
return 0;
}
for (i = 0; i < NumHoja; ++i) pEstAct->Dato.Tran[i] = TNDEF;
// se agrega el estado inicial a la lista de estados
pFinal = EstadosD.Entrada = pEstAct;
NumEst = 1;
sintáctico
h
sintáctico
h
sintáctico
h
363
Códigos Fuentes de la Biblioteca ExpReg v 1.x
while (pEstAct != 0) {
for (c = 0; c < MaxCar; ++c) { // para cada símbolo de entrada c hacer
U = new LSE<Ent16ns>;
if (U == 0) {
delete raiz; // árbol sintáctico
Hoja.Vaciar(); // lista de descriptores de hojas del árbol
sintáctico
Caracter.Vaciar();
TablaIdent.Vaciar();
EstadosD.Vaciar(); // Conjunto de estados
delete [] Sig; // Vector de SiguientePos(h) para cada hoja h
return 0;
}
// en U se guardará la unión de todos los conjuntos
SiguientePos(pPos)
// para las posiciones pPos del estado actual tales que el símbolo
en
// esa posición pPos es c.
// Se recorre el estado actual para ver si alguna posición
corresponde
// al símbolo actual c.
for (pPos = pEstAct->Dato.Pos->Entrada; pPos != 0; pPos =
pPos->pSig) {
// Para cada posición, se busca la misma en la lista descriptora
de
// hojas; es allí donde dice a qué caracter corresponde.
for (pHoja = Hoja.Entrada; pHoja != 0; pHoja = pHoja->pSig)
// si encuentra el descriptor de la hoja salir
if (pPos->Dato == pHoja->Dato.Id) break;
// Si la hoja corresponde al caracter c, agregar SiguientePos de
// esa hoja a U.
if (pHoja != 0 && pHoja->Dato.IdCar == c)
AgregLSE(*U, Sig[pHoja->Dato.Id]);
}
if (U->Entrada != 0) { // Si U es un conjunto no vacío, hay
transición
// Buscar si el estado se repite. Si se repite, pAuxEst apuntará
al
// estado previamente agregado, sino pAuxEst valdrá 0.
for (pAuxEst = EstadosD.Entrada; pAuxEst != 0;
pAuxEst = pAuxEst->pSig) { // Para cada estado ya agregado
...
// si el número de elementos de U es distinto se continua el
bucle
if (pAuxEst->Dato.Pos->NumElem() != U->NumElem()) continue;
// sino se busca si cada elemento de U se repite en ese estado.
for (pPos2 = U->Entrada; pPos2 != 0; pPos2 = pPos2->pSig) {
for (pPos = pAuxEst->Dato.Pos->Entrada; pPos != 0;
pPos = pPos->pSig)
// Si se encuentra el elemento de U en el estado se sale
if (pPos->Dato == pPos2->Dato) break;
// sino, pPos valdrá 0 al salir del for y al menos un
elemento
// de U no está en el actual
if (pPos == 0) break; // salir, este estado no es igual al
actual
}
// si U coincide con el estado actual, el estado no es nuevo
if (pPos2 == 0) { // si todos los elementos de U están en el
estado
U->Vaciar();
// apuntado por pAuxEst, eliminar U y usar
ése.
delete U;
U = 0;
364
Códigos Fuentes de la Biblioteca ExpReg v 1.x
break; // salir del for, estado repetido
}
}
// si pAuxEst == 0 el estado es nuevo
if (pAuxEst == 0) {
// crear un estado nuevo
pAuxEst = new NodoLSE<Estado>;
if (pAuxEst == 0) { // falta memoria
delete U;
delete raiz; // árbol sintáctico
Hoja.Vaciar(); // lista de descriptores de hojas del árbol
sintáctico
Caracter.Vaciar();
TablaIdent.Vaciar();
EstadosD.Vaciar(); // Conjunto de estados
delete [] Sig; // Vector de SiguientePos(h) para cada hoja h
return 0;
}
pAuxEst->Dato.Pos = U; // se usa U, posiciones del estado
U = 0; // y U se pone a 0 para la siguiente iteración
pAuxEst->Dato.Id = NumEst++;
pAuxEst->Dato.Tran = new Ent16ns[NumHoja];
if (pAuxEst->Dato.Tran == 0) { // falta memoria
delete pAuxEst->Dato.Pos; // antes era U
delete pAuxEst;
delete raiz; // árbol sintáctico
Hoja.Vaciar(); // lista de descriptores de hojas del árbol
sintáctico
Caracter.Vaciar();
TablaIdent.Vaciar();
EstadosD.Vaciar(); // Conjunto de estados
delete [] Sig; // Vector de SiguientePos(h) para cada hoja h
return 0;
}
for (i = 0; i < NumHoja; ++i) pAuxEst->Dato.Tran[i] = TNDEF;
// enganchar estado al final de la lista de estados
pFinal->pSig = pAuxEst;
pFinal = pAuxEst;
}
// Del actual se transiciona al estado apuntado por pAuxEst.
pEstAct->Dato.Tran[c] = pAuxEst->Dato.Id;
}
else { // no hay transición para el caracter c, U es vacío
delete U;
U = 0;
}
} // for (c = ...
pEstAct = pEstAct->pSig; // avanzar al siguiente estado
} // while
afd = new AutomFinDet;
if (afd == 0) {
delete raiz; // árbol sintáctico
Hoja.Vaciar(); // lista de descriptores de hojas del árbol sintáctico
Caracter.Vaciar();
TablaIdent.Vaciar();
EstadosD.Vaciar(); // Conjunto de estados
delete [] Sig; // Vector de SiguientePos(h) para cada hoja h
return 0;
}
apu = 0;
afd->ExpRegular = ExpRegular;
afd->Caracter = 0;
afd->NumCar = MaxCar;
365
Códigos Fuentes de la Biblioteca ExpReg v 1.x
afd->Transicion = 0; // AutomFinDet no tiene constructor por defecto
afd->EstFinales = 0; //
"
"
Ent16ns * Transicion, * EstFinales, NumEstFinales, * TranEstAct;
Transicion = new Ent16ns[NumEst * MaxCar];
if (Transicion == 0) {
Vaciar();
delete raiz; // árbol sintáctico
Hoja.Vaciar(); // lista de descriptores de hojas del árbol sintáctico
Caracter.Vaciar();
TablaIdent.Vaciar();
EstadosD.Vaciar(); // Conjunto de estados
delete [] Sig; // Vector de SiguientePos(h) para cada hoja h
return 0;
}
afd->Transicion = Transicion;
EstFinales = new Ent16ns[NumEst + 1];
if (EstFinales == 0) {
Vaciar();
delete raiz; // árbol sintáctico
Hoja.Vaciar(); // lista de descriptores de hojas del árbol sintáctico
Caracter.Vaciar();
TablaIdent.Vaciar();
EstadosD.Vaciar(); // Conjunto de estados
delete [] Sig; // Vector de SiguientePos(h) para cada hoja h
return 0;
}
afd->EstFinales = EstFinales;
for (pEstAct = EstadosD.Entrada, i = 0, NumEstFinales = 0;
pEstAct != 0; pEstAct = pEstAct->pSig) {
// Copiar el vector de transiciones del estado actual a la
// tabla de transiciones que se está armando.
TranEstAct = pEstAct->Dato.Tran;
for (j = 0; j < MaxCar; ++j, ++i)
Transicion[i] = TranEstAct[j];
// Luego verificar si el estado actual es un estado final
for (pPos = pEstAct->Dato.Pos->Entrada; pPos != 0; pPos = pPos->pSig)
{
for (pHoja = Hoja.Entrada; pHoja != 0; pHoja = pHoja->pSig)
// si encuentra el descriptor de la hoja salir
if (pPos->Dato == pHoja->Dato.Id) break;
if (pHoja != 0 && pHoja->Dato.IdCar == MaxCar) {
// se incrementa el número de estados finales y se guarda en
vector
// de estados finales.
EstFinales[++NumEstFinales] = pEstAct->Dato.Id;
break; // salir del for, ya se sabe que el estado actual es final
}
}
}
EstFinales[0] = NumEstFinales;
// ahora realizar una copia de los caracteres encontrados en la exp reg
char ** pvcar;
Ascii0 * pCarI;
pvcar = new char *[MaxCar];
if (pvcar != 0) {
for (i = 0; i < MaxCar; ++i) {
pCarI = Caracter.DatoNodoI(i);
if (pCarI != 0) {
pvcar[i] = new char[pCarI->Long() + 1];
if (pvcar[i] != 0)
366
Códigos Fuentes de la Biblioteca ExpReg v 1.x
strncpy(pvcar[i], *pCarI, pCarI->Long() + 1);
}
}
afd->Caracter = (const char **) pvcar;
}
resultado = 1;
// Eliminación de la memoria utilizada por este módulo (se realiza en
// orden inverso al que aparecieron las variables):
// Conjunto de estados
EstadosD.Vaciar();
// Vector de conjuntos SiguientePos(h) para cada hoja h
delete [] Sig;
// árbol sintáctico
delete raiz;
// lista de descriptores de hojas del árbol sintáctico
Hoja.Vaciar();
// conjunto de caracteres que aparecieron en la expresión regular
Caracter.Vaciar();
// Tabla de identificadores
TablaIdent.Vaciar();
return resultado;
}
21.15 SECESC1.CMM
// secesc1.cmm
Jue 19 Ene 95
// Copyright (c) 1995 by Domingo Becker.
// All rights reserved.
static const char * cad[] = {
"\\a", // campana, 7
"\\b", // backspace, 8
"\\t", // tab, 9
"\\n", // nueva l¡nea, 10
"\\v", // tab vertical, 11
"\\f", // salto de p gina, 12
"\\r", // retorno de carro, 13
"\\\\", // \, 92
"\\\'", // comilla simple, 39
"\\\"" // comilla doble, 34
};
const char * CadSecEscape( char c ) {
register const char * res;
if (c >= 7 && c <= 13) res = cad[c-7];
else if (c == '\\') res = cad[7];
else if (c == '\'') res = cad[8];
else if (c == '\"') res = cad[9];
else res = 0;
return res;
}
char CarSecEscape( const char * pCad ) {
if (*pCad != '\\') return 0;
register char c;
switch ( *(pCad+1) ) {
case 'a': c = '\a'; break;
case 'b': c = '\b'; break;
367
Códigos Fuentes de la Biblioteca ExpReg v 1.x
case 't': c = '\t'; break;
case 'n': c = '\n'; break;
case 'v': c = '\v'; break;
case 'f': c = '\f'; break;
case 'r': c = '\r'; break;
case '\\': c = '\\'; break;
case '\'': c = '\''; break;
case '\"': c = '\"'; break;
default: c = 0;
}
return c;
}
21.16 SECESC2.CMM
// secesc2.cmm
Jue 19 Ene 95
// Copyright (c) 1995 by Domingo Becker.
// All rights reserved.
# include <archivo.h>
# include "expreg.h"
int ImprCaracter( Archivo & arch, char c ) {
const char * carsecesc;
if (! c) return 0;
carsecesc = CadSecEscape(c);
if (carsecesc != 0) arch << carsecesc;
else arch << c;
return CodError;
}
int ImprCadena( Archivo & arch, const char * cad ) {
register const char * p;
if ((p = cad) == 0) return 0;
while (*p) ImprCaracter(arch, *p++);
return 0;
}
21.17 SECESC3.CMM
// secesc3.cmm
Vie 20 Ene 95
// Copyright (c) 1995 by Domingo Becker.
// All rights reserved.
# include "expreg.h"
int CambSecEsc( char * pCad ) {
if (pCad == 0) return 0;
register char * p, * q, carsecesc;
for (p = pCad; *p; ++p)
if (*p == '\\') { // cambiar '\Eabc' a 'eabc'
carsecesc = CarSecEscape(p); // cambia \E en e
if (carsecesc) {
*p = carsecesc; // cambia '\Eabc' en 'eEabc'
for (q = p+1; *q; ++q) // cambia 'eEabc' en 'eabc'
*q = *(q+1);
}
368
Códigos Fuentes de la Biblioteca ExpReg v 1.x
}
return 1;
}
369
Códigos Fuentes de AFD v 3.x
Capítulo 22: Códigos Fuentes de AFD v 3.x
AFD v 3.x, al igual que las versiones anteriores, ha sido diseñado como
un programa del usuario que hace uso de la biblioteca ExpReg de soporte para
la generación de autómatas finitos determinísticos. De esta manera es posible
la reutilización del generador de AFDs en cualquier programa del usuario.
Esta implementación es dependiente del sistema operativo. Los módulos
fuente aquí presentados pueden ser compilados con Borland C++ para
Windows (4.02 o posterior) o para OS/2 (2.0 o posterior). Para el modo gráfico
se utiliza la biblioteca OWL v 2.x que viene incluida en esos compiladores,
ganando así portabilidad entre Windows y Presentation Manager. Para el modo
caracter se utiliza la biblioteca BCE, ganando así la portabilidad a cualquier
sistema operativo que disponga de una versión de BCE.
A los efectos de no repetir código fuente dentro de este trabajo, cuando
sea aplicable, se introducirán referencias hacia otras partes dentro de este
documento, en donde era oportuno incluirlos.
22.1 AFDD.CMM
Se puede generar una aplicación a partir de este módulo, compilándolo y
encadenándolo con la biblioteca BCE, la biblioteca de soporte ExpReg y las
bibliotecas estándar.
Este módulo no debe ser incluídos con el resto de módulos presentado
en este capítulo.
Esta implementación está basada en la que se propone en la sección 6.7.
// afdd.cmm
23Feb96
// Implementación de la versión para DOS, OS/2 modo caracter y Windows 95
// y NT modo caracter de AFD
# include "expreg.h"
# include <archivo.h>
int main(int nArg, char * cArg[]) {
salida << "AFD v 3.4 para modo caracter (Feb 96)\nD.E.Becker Tel (085)
22-2488/39-0567\n";
if (nArg < 2) {
salida << "Falta el nombre del archivo con la expresion regular";
return 1;
}
// Determinar cadenas postfijos de los nombres:
const char * PostfijoObj, * PostfijoSubObj;
370
Códigos Fuentes de AFD v 3.x
PostfijoObj = cArg[2];
PostfijoSubObj = nArg > 3 ? cArg[3] : PostfijoObj;
// Cargar archivo en memoria:
ArchivoSO arch;
Ent16ns tam;
Ascii0 texto;
if (arch.Abrir(cArg[1], MA_L, MD_BIN)) {
salida << "ERROR al intentar abrir " << cArg[1] << "\n";
return 1;
}
tam = (Ent16ns) arch.Tam();
if (! texto.Reasignar(tam + 1)) {
salida << "Falta memoria para cargar la expresión regular en
memoria.\n";
return 1;
}
if (arch.Leer(texto, tam), CodError) {
salida << "ERROR al intentar leer el archivo de entrada.";
return 1;
}
*texto[tam] = 0;
if (! texto.Long()) {
salida << "ERROR: el archivo no contiene una expresion regular.";
return 1;
}
// Probar generar el AFD a partir del texto fuente:
ExpReg er;
Ascii0 CadPosErr;
if (! er.Reasignar(texto, CadPosErr)) {
salida << "ERROR de sintaxis en la expresion regular:\n" <<
CadPosErr;
return 1;
}
// Guardar fuente C++
if (! er.ImprFuente(NomExt(cArg[1], ".cmm"), PostfijoObj,
PostfijoSubObj))
salida << "Error al abrir archivo C++.\n";
// Guardar archivo de texto con autómata
arch.Cerrar();
if (arch.Abrir(NomExt(cArg[1], ".txt"), MA_E, MD_TXT))
salida << "No se genero archivo de texto.\n";
else {
er.Imprimir(arch);
arch.Cerrar();
}
// Mensajes finales:
salida << "Automata generado sin problemas.\n";
salida << NomExt(cArg[1], ".cmm") << " contiene el fuente C++.\n";
salida << NomExt(cArg[1], ".txt") << " contiene el AFD en formato
legible.\n";
salida << "\nGracias por usar AFD.";
return 0;
}
371
Códigos Fuentes de AFD v 3.x
22.2 AFDEDTVW.CMM
/*
Project AFD
Copyright © 1995. All Rights Reserved.
SUBSYSTEM:
FILE:
AUTHOR:
afd.exe Application
afdedtvw.cmm
Domingo Eduardo Becker
OVERVIEW
========
Source file for implementation of AFDEditView (TEditView).
*/
#include <owl\owlpch.h>
#pragma hdrstop
#include "afdapp.h"
#include "afdedtvw.h"
#include <stdio.h>
# include "dlgdatos.h"
# include "dlgerror.h"
# ifndef __ASCII0_H
# include <ascii0.h>
# endif
# ifndef __ARCHIVO_H
# include <archivo.h>
# endif
# ifndef __EXPREG_H
# include "expreg.h"
# endif
//{{AFDEditView Implementation}}
//
// Build a response table for all messages/commands handled
// by AFDEditView derived from TEditView.
//
DEFINE_RESPONSE_TABLE1(AFDEditView, TEditView)
//{{AFDEditViewRSP_TBL_BEGIN}}
EV_WM_GETMINMAXINFO,
EV_COMMAND(CM_GENERARAFD, GenerarAFD),
//{{AFDEditViewRSP_TBL_END}}
END_RESPONSE_TABLE;
//////////////////////////////////////////////////////////
// AFDEditView
// ==========
// Construction/Destruction handling.
AFDEditView::AFDEditView (TDocument& doc, TWindow* parent)
: TEditView(doc, parent)
{
// INSERT>> Your constructor code here.
}
372
Códigos Fuentes de AFD v 3.x
AFDEditView::~AFDEditView ()
{
// INSERT>> Your destructor code here.
}
//
// Paint routine for Window, Printer, and PrintPreview for a TEditView
client.
//
void AFDEditView::Paint (TDC& dc, bool, TRect& rect)
{
AFDApp *theApp = TYPESAFE_DOWNCAST(GetApplication(), AFDApp);
if (theApp) {
// Only paint if we're printing and we have something to paint,
otherwise do nothing.
if (theApp->Printing && theApp->Printer && !rect.IsEmpty()) {
// Use pageSize to get the size of the window to render into.
For a Window it's the client area,
// for a printer it's the printer DC dimensions and for print
preview it's the layout window.
TSize
pageSize(rect.right - rect.left, rect.bottom rect.top);
HFONT
hFont = (HFONT)GetWindowFont();
TFont
font("Arial", -12);
if (hFont == 0)
dc.SelectObject(font);
else
dc.SelectObject(TFont(hFont));
TEXTMETRIC tm;
int fHeight = (dc.GetTextMetrics(tm) == true) ? tm.tmHeight +
tm.tmExternalLeading : 10;
// How many lines of this font can we fit on a page.
int linesPerPage = MulDiv(pageSize.cy, 1, fHeight);
if (linesPerPage) {
TPrintDialog::TData &printerData =
theApp->Printer->GetSetup();
int maxPg = ((GetNumLines() / linesPerPage) + 1.0);
// Compute the number of pages to print.
printerData.MinPage = 1;
printerData.MaxPage = maxPg;
// Do the text stuff:
int
fromPage = printerData.FromPage == -1 ? 1 :
printerData.FromPage;
int
toPage = printerData.ToPage == -1 ? 1 :
printerData.ToPage;
char
buffer[255];
int
currentPage = fromPage;
while (currentPage <= toPage) {
int startLine = (currentPage - 1) * linesPerPage;
int lineIdx = 0;
while (lineIdx < linesPerPage) {
// If the string is no longer valid then there's
nothing more to display.
if (!GetLine(buffer, sizeof(buffer), startLine +
lineIdx))
373
Códigos Fuentes de AFD v 3.x
break;
dc.TabbedTextOut(TPoint(0, lineIdx * fHeight),
buffer, strlen(buffer), 0, NULL, 0);
lineIdx++;
}
currentPage++;
}
}
}
}
}
void AFDEditView::EvGetMinMaxInfo (MINMAXINFO far& minmaxinfo)
{
AFDApp *theApp = TYPESAFE_DOWNCAST(GetApplication(), AFDApp);
if (theApp) {
if (theApp->Printing) {
minmaxinfo.ptMaxSize = TPoint(32000, 32000);
minmaxinfo.ptMaxTrackSize = TPoint(32000, 32000);
return;
}
}
TEditView::EvGetMinMaxInfo(minmaxinfo);
}
void AFDEditView::GenerarAFD ()
{
// INSERT>> Your code here.
// Primero sacar el texto del TEditView
Ent16ns tam = GetTextLen() + 1;
Ascii0 cad(tam), CadPosErr;
if (! GetText(cad, tam)) return; // si no hay texto editado
// Crear una ventana de diálogo para pregunar más datos:
OtrosDatosAFD * pdlg = new OtrosDatosAFD(this);
Parent->GetWindowTextTitle();
pdlg->ArchTXT = Parent->Title;
if (pdlg->Execute() == IDCANCEL) {
MessageBox("Autómata no generado.", "OBSERVACION",
MB_OK | MB_ICONINFORMATION);
return;
}
// Probar generar el AFD a partir del texto fuente:
ExpReg er;
if (! er.Reasignar(cad, CadPosErr)) {
TDlgError * pDlgError = new TDlgError(this);
pDlgError->Cad = CadPosErr;
pDlgError->Execute();
delete pDlgError;
return;
}
// Guardar fuente C++
if (pdlg->GenerarCMM && pdlg->ArchCMM.Long() &&
! er.ImprFuente(pdlg->ArchCMM, pdlg->PostfijoAFD,
pdlg->PostfijoResto)) {
MessageBox("Error al abrir archivo C++.", "ERROR",
MB_ICONHAND | MB_OK);
return;
}
// Guardar archivo de texto con autómata
ArchivoSO arch;
374
Códigos Fuentes de AFD v 3.x
if (! pdlg->ArchTXT.Long() || arch.Abrir(pdlg->ArchTXT, MA_E, MD_TXT))
{
MessageBox("No se generó archivo de texto.", "ERROR",
MB_ICONHAND | MB_OK);
return;
}
er.Imprimir(arch);
arch.Cerrar();
// Mensaje final
MessageBox("Autómata Finito Determinístico\ngenerado sin problemas.",
"Resultado", MB_OK | MB_ICONINFORMATION);
}
22.3 DLGDATOS.H
#if !defined(__dlgdatos_h)
not already included.
#define __dlgdatos_h
/*
// Sentry, use file only if it's
Project afd
Copyright © 1995. All Rights Reserved.
SUBSYSTEM:
FILE:
AUTHOR:
afd.apx Application
dlgdatos.h
Domingo Eduardo Becker
OVERVIEW
========
Class definition for OtrosDatosAFD (TDialog).
*/
#include <owl\owlpch.h>
#pragma hdrstop
#include <owl\checkbox.h>
#include "afdapp.rh"
// Definition of all resources.
# ifndef __ASCII0_H
# include <ascii0.h>
# endif
//{{TDialog = OtrosDatosAFD}}
struct OtrosDatosAFDXfer {
//{{OtrosDatosAFDXFER_DATA}}
bool
ChkGenCMM;
//{{OtrosDatosAFDXFER_DATA_END}}
};
class OtrosDatosAFD : public TDialog {
public:
OtrosDatosAFD (TWindow* parent, TResId resId = IDD_DLGMASDATOS,
TModule* module = 0);
virtual ~OtrosDatosAFD ();
Ascii0 ArchCMM, ArchTXT, PostfijoAFD, PostfijoResto;
Ent8 GenerarCMM;
375
Códigos Fuentes de AFD v 3.x
//{{OtrosDatosAFDVIRTUAL_BEGIN}}
public:
virtual void SetupWindow ();
//{{OtrosDatosAFDVIRTUAL_END}}
//{{OtrosDatosAFDXFER_DEF}}
protected:
TCheckBox *ChkGenCMM;
//{{OtrosDatosAFDXFER_DEF_END}}
//{{OtrosDatosAFDRSP_TBL_BEGIN}}
protected:
void Aceptar ();
//{{OtrosDatosAFDRSP_TBL_END}}
DECLARE_RESPONSE_TABLE(OtrosDatosAFD);
};
//{{OtrosDatosAFD}}
#endif
// __dlgdatos_h sentry.
22.4 DLGDATOS.CMM
El diseño del diálogo donde se introducen los datos faltantes es el
siguiente:
Fig. 38 Diseño del diálogo para la entrada de datos adicionales
usados por AFD v 3.x
/*
Project afd
Copyright © 1995. All Rights Reserved.
SUBSYSTEM:
FILE:
AUTHOR:
afd.apx Application
dlgdatos.cmm
Domingo Eduardo Becker
OVERVIEW
376
Códigos Fuentes de AFD v 3.x
========
Source file for implementation of OtrosDatosAFD (TDialog).
*/
#include <owl\owlpch.h>
#pragma hdrstop
#include "dlgdatos.h"
# include <archivo.h>
//
// Build a response table for all messages/commands handled
// by the application.
//
DEFINE_RESPONSE_TABLE1(OtrosDatosAFD, TDialog)
//{{OtrosDatosAFDRSP_TBL_BEGIN}}
EV_BN_CLICKED(IDOK, Aceptar),
//{{OtrosDatosAFDRSP_TBL_END}}
END_RESPONSE_TABLE;
//{{OtrosDatosAFD Implementation}}
static OtrosDatosAFDXfer OtrosDatosAFDData;
OtrosDatosAFD::OtrosDatosAFD (TWindow* parent, TResId resId, TModule*
module):
TDialog(parent, resId, module)
{
//{{OtrosDatosAFDXFER_USE}}
ChkGenCMM = new TCheckBox(this, IDC_GENCMM, 0);
SetTransferBuffer(&OtrosDatosAFDData);
//{{OtrosDatosAFDXFER_USE_END}}
// INSERT>> Your constructor code here.
}
OtrosDatosAFD::~OtrosDatosAFD ()
{
Destroy();
// INSERT>> Your destructor code here.
}
void OtrosDatosAFD::SetupWindow ()
{
TDialog::SetupWindow();
// INSERT>> Your code here.
ArchTXT = NomExt(ArchTXT, ".TXT");
ArchCMM = NomExt(ArchTXT, ".CMM");
SetDlgItemText(IDC_ARCHTXT, ArchTXT);
SetDlgItemText(IDC_FUENTECMM, ArchCMM);
ChkGenCMM->SetCheck(BF_CHECKED);
}
void OtrosDatosAFD::Aceptar ()
377
Códigos Fuentes de AFD v 3.x
{
// INSERT>> Your code here.
ArchTXT.Reasignar(200);
GetDlgItemText(IDC_ARCHTXT, ArchTXT, ArchTXT.TamBlq());
ArchCMM.Reasignar(200);
GetDlgItemText(IDC_FUENTECMM, ArchCMM, ArchCMM.TamBlq());
if (PostfijoAFD.Reasignar(50))
GetDlgItemText(IDC_POSTFIJOAFD, PostfijoAFD, PostfijoAFD.TamBlq());
if (PostfijoResto.Reasignar(50))
GetDlgItemText(IDC_POSTFIJORESTO, PostfijoResto,
PostfijoResto.TamBlq());
if (! PostfijoResto.Long()) PostfijoResto = PostfijoAFD;
GenerarCMM = ChkGenCMM->GetCheck() == BF_CHECKED;
CmOk();
}
22.5 DLGERROR.CMM
Fue incluido en la sección 20.4.
378
Bibliografía
Capítulo 23: Bibliografía
23.1 Principales (por orden de importancia)
Alfred Aho - Ravi Sethi - Jeffrey Ullman [1990]. "Compiladores: Principios
Técnicas y Herramientas". Addison-Wesley Iberoamericana.
Sanchis Llorca - Galán Pascual [1986]. "Compiladores: Teoría y
Construcción". Paraninfo.
Alfred Aho - Jeffrey Ullman [1977]. "Principles of Compiler Design".
Addison-Wesley.
Manuales del Programador del Sistema Operativo XENIX. Microsoft Corp.
Bjarne Stroustrup [1992]. "The C++ Programming Language - 2nd Edition".
Addison-Wesley.
Manuales del Programador del Borland C++ 4.02 para Windows. Borland Intl.
Inc.
Manuales del Programador del Borland C++ 2.0 para OS/2. Borland Intl. Inc.
Manuales del Programador del Borland C++ 4.5 para Windows. Borland Intl.
Inc.
Manuales del Programador de Paradox 4.5 para Windows. Borland Intl. Inc.
Manuales del Programador de dBase V para Windows. Borland Intl. Inc.
"Reference Guide" del Borland Visual Solutions Pack Volume 1 para
Windows. Capítulo 51: "SQL Primer", págs. 665 a 674. Borland Intl. Inc.
J. Tamagnini [1994]. "Un generador de analizadores sintácticos recursivos
descendentes". Tesis de Grado. Universidad Católica de Santiago del Estero.
Allen Holub [1990]. "Compiler Design in C". Prentice Hall.
Christian Nique [1985]. "Introducción metódica a la gramática generativa".
Ediciones Cátedra.
379
Bibliografía
Bjarne Stroustrup [1994]. "The design and Evolution of C++". Addison
Wesley. Págs. 337 a 381.
23.2 Secundarios (por orden alfabético)
A. V. Aho y S. C. Johnson [1974]. "LR Parsing". Computing Surveys 6:2,
págs 99-124.
A. V. Aho, S. C. Johnson y J. D. Ullman [1977]. "Code generation for
expressions with common subexpressions". Journal ACM 14:1, págs. 146-160.
A. V. Aho, B. W. Kernighan y P. J. Weinberger [1979]. "AWK - a pattern
scanning and processing language". Software - Practice and Experience 9:4,
págs. 267-280.
A. V. Aho y J. D. Ullman [1972]. "The Theory of Parsing, Translation and
Compiling, Vol I: Parsing". Prentice-Hall.
A. V. Aho y J. D. Ullman [1973a]. "The Theory of Parsing, Translation and
Compiling, Vol II: Compiling". Prentice-Hall.
A. V. Aho y J. D. Ullman [1973b]. "A technique for speeding up LR(k)
parsers". SIAM J. Computing 2:2, págs. 106-127.
T. Anderson, J. Eve y J. J. Horning [1973]. "Efficient LR(1) Parsers". Acta
Informatica 2:1, págs. 12-39.
R. C. Backhouse [1976]. "An alternative aproach to the improvement of LR
parsers". Acta Informatica 6:3, págs. 277-296.
J. W. Backus [1981]. "Transcript of presentation on the history of Fortran I, II
and III". En Wexelblat [1981], págs 45-66.
F. L. Bauer [1976]. "Historical remarks on compiler construction". en Bauer y
Eichel [1976], págs 603-621. Suplemento de Ershov. A. P. págs 622-626.
F. L. Bauer y J. Eichel [1976]. "Compiler Construction: An Advanced
Course". 2da Edición. Lecture Notes in Computer Science 21,
Springer-Verlag, Berlín.
380
Bibliografía
B. M. Brosgol [1974]. "Deterministic Translation Grammars". Tesis doctoral,
TR 3-74. Universidad de Harvard, Cambridge, Massachusetts.
Noam Chomsky [1956]. "Three models for the description of language". IRE
Trans. on Information Theory IT-2:3, págs. 113-124.
M. E. Conway y W. L. Maxwell [1963]. "CORC - the Cornell computing
language". Comm. ACM 6:6, págs. 317-321.
M. E. Conway y T. R. Wilcox [1973]. "Design and implementation of a
diagnostic compiler for PL/I". Comm. ACM 16:3, págs. 169-179.
A. J. Demers [1975]. "Elimination of single productions and merging of
nonterminal symbols in LR(1) grammars". Journal of Computer Languages
1:2, págs. 105-119.
F. DeRemer [1969]. "Practical Translators for LR(k) Languages". Tesis
doctoral, M.I.T., Cambridge, Massachusetts.
F. DeRemer [1971]. "Simple LR(k) grammars". Comm. ACM 14:7, págs.
453-460.
J. Earley [1970]. "An efficient context-free parsing algorithm". Comm. ACM
13:2, págs. 94-102.
J. Earley [1975]. "Ambiguity and precedence in syntax description". Acta
Informática 4:2, págs. 183-192.
S. I. Feldman [1979]. "Implementation of a portable Fortran 77 compiler
using modern tools". ACM SIGPLAN Notices 14:8, págs 255-265.
J. M. Foster [1968]. "A syntax improving program". Computer Journal 11:1,
págs. 31-34.
C. A. R. Hoare [1962]. "Report on the Elliott ALGOL translator". Computer
Journal 5:2, págs. 127-129.
D. A. Huffman [1954]. "The synthesis of sequential machines". J. Franklin
Inst. 257, págs. 3-4, 161, 190, 275-303.
P. Z. Ingerman [1967]. "Panini-Backus form suggested". Comm. ACM 10:3,
pág. 137.
381
Bibliografía
E. T. Irons [1961]. "A syntax directed compiler for ALGOL 60". Comm.
ACM 4:1, págs 51-55.
J. F. Jarvis [1976]. "Feature recognition in line drawings using regular
expressions". Proc. 3rd Intl. Joint Conf. on Pattern Recognition, págs.
189-192.
W. L. Johnson, J. H. Porter, S. I. Ackley y D. T. Ross [1968]. "Automatic
generation of efficient lexical processors using finite state techniques".
M. L. Joliat [1976]. "A simple technique for partial elimination of unit
productions from LR(k) parser tables". IEEE Trans. on Computers C-25:7,
págs. 763-764.
T. Kasami [1965]. "An efficient recognition and syntax analysis algorithm for
context-free languages". AFCRL-65-758, Air Force Cambridge Research
Laboratory, Bedford, Massachusetts.
B. W. Kernigan y R. Pike [1984]. "The UNIX Programming Environment".
Prentice-Hall.
S. C. Kleene [1956]. "Representation of events in nerve nets". en Shannon y
McCarthy [1956], págs. 3-40.
D. E. Knuth [1964]. "Backus Normal Form vs. Backus Naur Form". Comm.
ACM 7:12, págs. 735 y 736.
D.E. Knuth[1965]. "On the translation of languages from left to right".
Information and Control 8:6, págs. 607-639.
D.E. Knuth [1971]. "Top-down syntax analysis". Acta Informatica 1:2, págs.
79-110.
D.E. Knuth [1973]. "The Art of Computer Programming: Vol 1 2nd Edition,
Fundamental Algorithms", Addison-Wesley.
A. J. Korenjak [1969]. "A practical method for constructing LR(k)
processors". Comm ACM 12:11, págs. 613-623.
M. E. Lesk [1975]. "Lex - a lexical analyzer generator". Computing Science
Technical Report 39, AT&T Bell Laboratories.
382
Bibliografía
J. K. Levy [1975]. "Automatic correction of syntax errors in programming
languages". Acta Informatica 4, págs. 271-292.
P. M. Lewis II, D. J. Rosenkrantz y R. E. Stearns [1976]. "Compiler Design
Theory". Addison-Wesley.
P. M. Lewis II y R. E. Stearns [1968]. "Syntax-directed transduction". J.
ACM 15:3, págs. 465-488.
P. Lucas [1961]. "The structure of formula translators". Elektronische
Rechenanlagen 3, págs 159-166.
J. McCarthy [1963]. "Towards a mathematical science of computation".
Information Processing 1962, págs 21-28.
R. M. McClure [1965]. "TMG - a syntax-directed compiler". Proc. 20th ACM
National Conf., págs. 262-274.
W. S. McCullough y W. Pitts [1943]. "A logical calculus of the ideas
immanent in nervous activity". Bulletin of Math. Biophysics 5, págs. 115-133.
R. McNaughton y H. Yamada [1960]. "Regular expressions and state graphs
for automata". IRE Trans. on Electronic Computers EC-9:1, págs. 38-47.
E. F. Moore [1956]. "Gedanken experiments in sequential machines". En
Shannon y McCarthy [1956], págs 129-153.
P. G. Moulton y M. E. Muller [1967]. "DITRAN - a compiler emphasizing
diagnostics". Comm. ACM 10:1, págs. 52-54.
P. Naur [1963]. "Revised report on the algorithmic language ALGOL 60".
Comm. ACM 6:1, págs. 1-17.
D. Pager [1977]. "Eliminating unit productions from LR(k) parsers". Acta
Informatica 9, págs. 249-268.
V. R. Pratt [1973]. "Top-down operator precedence". ACM Symposium on
Principles of Programming Languages, págs. 41-51.
P. Purdom y C. A. Brown [1980]. "Semantic routines and LR(k) parsers".
Acta Informatica 14:4, págs. 299-315.
383
Bibliografía
M. O. Rabin y D. Scott [1959]. "Finite automata and their decision
problems". IBM Journal of Research and Development 3:2, págs. 114-125.
J. Röhrich [1980]. "Methods for the automatic construction of error correcting
parsers". Acta Informatica 13:2, págs. 115-139.
D. J. Rosenkrantz y R. E. Stearns [1970]. "Properties of Deterministics
top-down grammars". Information and Control 17:3, págs. 226-256.
D. V. Schorre [1964]. "Meta-II: a syntax-oriented compiler writing language".
Proc. 19th ACM National Conf., DI., 3-1 - DI. 3-11.
C. Shannon y J. McCarthy [1956]. "Automata Studies". Princeton University
Press.
E. Soisalon-Soininem [1980]. "On the space optimizing effect of eliminating
single productions from LR parsers". Acta Informatica 12, págs. 157-174.
E. Soisalon-Soininem y E. Ukkonen [1979]. "A method for transforming
grammars into LL(k) form". Acta Informatica 12, págs. 339-369.
R. E. Stearns [1971]. "Deterministic top-down parsing". Proc. 5th Annual
Princeton Conf. on Information Sciences and Systems, págs. 182-188.
J. Strong, J. H. Wegstein, A. Tritter, J. Olsztyn, O. Mock y T. Steel [1958].
"The problem of programming communication with changing machines: a
proposed solution". Comm. ACM 1:8 (agosto), págs 12-18. Segunda parte 1:9
(setiembre), págs 9-15. Informe del Comité sobre lenguas universales.
K. C. Tai [1978]. "Syntactic error correction in programming languages".
IEEE Trans. Software Engineering SE-4:5, págs. 414-425.
T. Tokuda [1981]. "Eliminating unit reductions from LR(k) parsers using
minimum contexts". Acta Informatica 15, págs. 447-470.
D. A. Watt [1977]. "The parsing problem for affix grammars". Acta
Informatica 8, págs. 1-20.
J. H. Wegstein [1981]. "Notes on ALGOL 60". en Wexelblat [1981], págs.
126-127.
R. L. Wexelblat [1981]. "History of Programming Languages". Academic
Press. New York.
384
Bibliografía
D. Wood [1969]. "The Theory of left factored languages". Computer Journal
12:4, págs. 349-356.
D. H. Younger [1967]. "Recognition and parsing of context-free languages in
time n3 ". Information and Control 10:2, págs. 189-208.
385
Conclusiones
Capítulo 24: Conclusiones
Muchos trabajos de programación, incluyendo los trabajos complejos
como por ejemplo el desarrollo de analizadores sintácticos, son tareas
repetitivas cuya ejecución podría automatizarse. Por ejemplo, nadie escribiría
hoy en día en forma directa el código fuente para una interfase de un programa
que trabaje en modo gráfico, sino que más bien usaría un programa que lo
genere a partir de especificaciones de alto nivel. Lo único que haría "a mano"
es el desarrollo de las partes de la interfase que no fueron automatizadas por el
generador de interfases. En el desarrollo de interfases es normal olvidarse de
ciertas restricciones de la interfase para el desarrollo de aplicaciones, lo que
provocará, en el mejor de los casos, que el programa se "cuelgue", y en el peor,
que provoque una caida de toda una red (si se está trabajando en red).
Entonces, es evidente que, por más compleja que sea una tarea de
desarrollo de software, si la misma es automatizable se la debe automatizar.
Pero, para que esto sea posible, el desarrollo de esos generadores de software
también debe ser una tarea medianamente simple, de manera que no se pierda
demasiado tiempo en su desarrollo (se debe recordar que los programadores
constantemente trabajan contra reloj). Es poco común ver programadores de
nuestro medio que sigan esta técnica de trabajo (esto es, construir un
generador para automatizar el desarrollo de software en las áreas que sea
posible), y esto se debe, principalmente, a que en nuestro medio no hay
disponible una herramienta que simplifique el desarrollo de tales traductores
que generarán, a partir de especificaciones de alto nivel, código fuente que
ejecute tareas rutinarias. Por ejemplo, en un sistema de bases de datos, aunque
la estructura del registro de un archivo sea distinto para diferentes
aplicaciones, los módulos de alta-bajas-modificaciones son muy similares.
El aporte más grande de este trabajo quizás sea el de simplificar el
desarrollo de tales traductores para generar partes de programas. Antes, para la
escritura de un traductor, un programador debía tener conocimientos de:
gramáticas generativas, técnicas de análisis sintáctico, técnicas de análisis
lexicográfico, construcción de un analizador sintáctico, construcción de un
analizador lexicográfico y construcción del esquema de traducción, entre otras
de menor importancia. Mientras que, es objetivo de este trabajo que para el
desarrollo de un traductor, un programador solamente deba tener
conocimientos de: gramáticas generativas, construcción del esquema de
traducción, conocimiento de la técnica de análisis sintáctico y de análisis
lexicográfico usada por los analizadores obtenidos a partir de los generadores
que se presentan, y conocimiento del lenguaje objeto usado (el C++). La parte
teórica más compleja ha sido eliminada, y la que quedó requiere de poca
386
Conclusiones
inversión de tiempo para su aprendizaje; a tal efecto se incluye documentación
lo suficientemente extensa en este trabajo como para poder orientar a cualquier
programador que se inicie en el área, pero no se incluye el aprendizaje de C++,
porque se asume que el mismo debe formar parte del conjunto de herramientas
de cualquier programador universitario.
Los generadores presentados en este trabajo son, finalmente, un humilde
aporte del autor a todos aquellos interesados en el uso de la Teoría de los
Lenguajes Formales en sus aplicaciones y para la simplificación del desarrollo
de las mismas.
387
Descargar