- Federación Iberoamericana de

Anuncio
Software para la evaluación de la ambigüedad en textos
legales
Software tool for the evaluation of the ambiguity in legal texts
Yarina Amoroso Fernández
Yordanis Garcia Leiva
Marilé Lemus Martinez
Profesores del Centro de Gobierno Electrónico, Universidad de Ciencias Informáticas, Cuba.
Resumen
La ambigüedad es el término que hace referencia a aquellas estructuras gramaticales que
pueden entenderse de varios modos o admitir distintas interpretaciones y dar, por
consiguiente, motivo a dudas, incertidumbre o confusión. En el lenguaje legal está
presente este problema lo cuál dificulta la comprensión y aplicación de las normas
jurídicas. El artículo expone el desarrollo de una herramienta informática que permite
evaluar la ambigüedad presente en los textos legales, tomando como fuente la legislación
cubana. La solución informática funciona con reglas definidas por los autores a partir del
análisis de técnicas del procesamiento del lenguaje natural y la minería de texto, permiten
identificar qué tipo de ambigüedades presenta un texto, su localización en el documento y
el nivel de ambigüedad total que presenta el texto. Contribuir a resolver los problemas de
ambigüedad en el Derecho ha sido una preocupación de los precursores de la Informática
Jurídica, el resultado que se presenta en una contribución a seguir buscando soluciones
tecnológicas en el ámbito jurídico.
Palabras clave: Informática Jurídica, minería de texto, procesamiento del lenguaje
natural, reglas, Lenguaje jurídico.
Abstract
Ambiguity is the term that refers to those grammatical structures that can be understood in
various ways or to support different interpretations and therefore reason to doubt,
uncertainty or confusion. In legal language this problem which hinders the understanding
and application of legal norms is present. The article describes the development of a
software tool to evaluate the ambiguity present in legal texts, using as source the Cuban
legislation. The software solution works with defined by the authors from the analysis of
techniques of natural language processing and text mining rules, to identify what kind of
ambiguity presents a text, its location in the document and the overall level of ambiguity
which has the text. Contribute to solving the problems of ambiguity in the law has been a
concern of the precursors of Legal Informatics, the result presented in a contribution to
keep looking technological solutions in the legal field.
Keywords: ambiguity, natural language processing, rules, software tool, text mining
Introducción
La variedad de estructuras lingüísticas y reglas gramaticales que caracterizan los
lenguajes naturales1, complejizan en ocasiones el entendimiento de determinados
escritos, originando ambigüedad en la comprensión e interpretación de los mismos. La
ambigüedad en un escrito se identifica cuando a través del análisis de un contexto no es
posible determinar el significado de una palabra o una oración en general. La existencia
de textos ambiguos da lugar a la ocurrencia de incertidumbre, duda e indefinición en la
comprensión de un contexto.
La ambigüedad en los textos parte de las características del lenguaje natural, en el cual
existen múltiples expresiones y palabras que pueden tener diferentes significados, en
dependencia de las circunstancias de uso. Este problema puede tratarse a partir de
distintas perspectivas, desde la ambigüedad debida a palabras polisémicas2, hasta la
ambigüedad producida por las diferentes interpretaciones que pueda tener una oración.
1
Lenguaje Natural: es la lengua o idioma hablado o escrito por humanos para propósitos generales de comunicación
2
Polisémicas: palabras que tienen varios significados, ejemplo Sierra es una Herramienta para cortar madera y a la vez significa
Cordillera de montañas de picos afilados.
Cada uno de estos tipos de manifestaciones de la ambigüedad en un texto, corresponde a
una clasificación (sintáctica, léxica o semántica).
La ambigüedad puede estar presente en textos de diferentes orígenes; los jurídicos no
están exentos de la existencia de este fenómeno que interfiere en la comprensión de los
mismos. Por ello, este asunto es un tema de investigación que ha acompañado a las
ciencias jurídicas en conjunto con las ciencias filológicas y la lingüística computacional,
para llegar a contar con herramientas que basadas en reglas y modelos de redacción de
documentos legales ayuden a los operadores jurídicos a redactar y revisar los
documentos que emiten, a través de la incorporación de la informática en los procesos de
almacenamiento, tratamiento y distribución de la información jurídica.
En el ámbito internacional se han obtenido métodos y herramientas que permiten reducir
la ambigüedad en diferentes tipos de contextos, ejemplo de esto lo constituye las
herramientas Natural Language Toolkit (NLTK) y 3LB-SAT (3LB-Herramienta de
Anotación Semántica), las cuales a pesar de contar con funcionalidades para detectar los
sentidos de la palabra y hacer análisis sintáctico y semántico, características
fundamentales para la representación de ambigüedades, aun no son capaces de
representar las ambigüedades en todos los sentidos.
En el ámbito del Derecho existen pocos avances en el diseño e implementación de
soluciones informáticas que posibiliten mejorar la compresión de textos jurídicos y reducir
la ambigüedad existente en los mismos. Por ello la Sociedad Cubana de Derecho e
Informática, organización académica que contribuye al desarrollo de la Informática
Jurídica en Cuba y el Centro de Gobierno de Electrónico de la Universidad de Ciencias
Informáticas unen esfuerzos para la identificación de los problemas de ambigüedad
presentes en los textos legales, caracterizados por:
• La existencia de dificultades lingüísticas que posibilitan la ocurrencia de
ambigüedad en la interpretación de los términos.
• Incertidumbre en la interpretación y comprensión de los escritos.
• Inconsistencia en el análisis de contenidos.
• Baja comprensión de los textos.
A partir de la problemáticas identificadas se procede a investigar el estado del arte del
tema con el objetivo de desarrollar una herramienta informática que permita evaluar la
ambigüedad presente en los textos legales, tomando como fuente la legislación cubana.
Desarrollo
Definición y clasificación de la ambigüedad en un texto
Ambigüedad: término que hace referencia a aquellas estructuras gramaticales que
pueden entenderse de varios modos o admitir distintas interpretaciones y dar, por
consiguiente, motivo a dudas, incertidumbre o confusión (Ramos, 2012).
Ambigüedad: puede presentarse cuando es posible admitir diferentes interpretaciones a
partir de la representación de una oración; también, se presenta cuando existe confusión
al tener diversas estructuras asociadas a la misma oración (Zapata, y otros, 2007).
Se distinguen tres tipos principales de ambigüedad: léxica, sintáctica y semántica. Según
la autora (Ramos, 2012):
Ambigüedad sintáctica: también conocida como estructural, es aquella que se presenta en
oraciones de tal manera que estas puedan ser representadas por más de una estructura
sintáctica. Por ejemplo, en la oración: “María habló con el profesor del instituto”, se puede
entender dos cosas diferentes:
• el profesor pertenece al instituto.
• el tema del que habló María con el profesor fue el instituto.
Ambigüedad léxica: la ambigüedad léxica de una palabra o una frase consiste en los
múltiples significados que tiene una palabra, tal como puede quedar reflejado en un
diccionario; a este fenómeno en el español se le denomina polisemia.
Ambigüedad semántica: es aquella que se presenta en una expresión, de tal manera que
esta puede expresar diferentes sentidos dependiendo del contexto local, el tópico global y
el mundo pragmático en el que se manifiesta. Por ejemplo, la expresión banco pequeño
puede significar institución financiera pequeña, la orilla de un lago, asiento de poco
tamaño.
Técnicas para la evaluación de la ambigüedad en un texto
El Procesamiento del Lenguaje Natural (PLN) es una disciplina estrechamente vinculada
con la minería de texto, que combina la lingüística computacional y la informática con el
fin de modelar el lenguaje humano desde el punto de vista computacional. El PLN está
basado en entender el lenguaje humano para poder explotar el conocimiento lingüístico
de los textos, mientras que la minería de texto se enfoca en la extracción de información e
identificación de patrones en los mismos.
Existen técnicas que permiten la evaluación de la ambigüedad tanto desde el PLN o
desde la minería de textos. Desde el PLN existen varios métodos de desambiguación de
sentido de palabras (WSD)3, los cuales se clasifican según los recursos que utilizan en:
diccionarios, corpus o programación directa. (Ramos, 2012).
Diccionarios:
3
Es el problema de seleccionar un sentido de un conjunto de posibilidades predefinidas para una palabra dada en un texto o discurso
(Ramos, 2009)
Los métodos que utilizan diccionarios pueden ser de sentidos y otros como WordNet4.
Estos proporcionan una lista de sentidos para las palabras. Los métodos que utilizan sólo
diccionarios de sentidos, buscan elegir un sentido (de esta lista) para cada palabra en un
texto dado, tomando en cuenta el contexto en el que aparece. Además existen algoritmos
como el de Lesk que utilizan no sólo diccionarios de sentidos, sino diccionarios como
WordNet (Ramos, 2012).
Corpus:
Los métodos que utilizan corpus pueden ser no marcados y marcados. Los no marcados
son los no supervisados, estos utilizan recursos como WordNet para poder asignar un
sentido a cada palabra que aparece en los textos no marcados. Consisten básicamente
en elegir de un diccionario las palabras relacionadas con la palabra a desambiguar. Por
otra parte, los marcados son los métodos supervisados. Los cuales reducen la
desambiguación de sentidos de palabras a un problema de clasificación, donde a una
palabra dada se le asigna el sentido más apropiado de acuerdo a un conjunto de
posibilidades, basadas en el contexto en el que ocurre (Ramos, 2012).
Programación directa:
Estos métodos se basan en reglas que especifican el sentido de una palabra de acuerdo
al contexto en el que aparece. Un ejemplo son las restricciones de selección, las cuales
definen reglas de acuerdo a la palabra a desambiguar y su argumento. Ejemplo: el verbo
comer puede tener como restricción que su tema argumento sea comida (comer-comida)
(Ramos, 2012).
4
Diccionario electrónico semántico que tiene como fin la construcción de una base de datos léxico-semántica para las lenguas
castellano, holandés, italiano e inglés.
La minería de texto también adopta un conjunto de técnicas procedentes de la
recuperación de la información y la lingüística computacional, encaminadas a reducir la
ambigüedad en textos. Estas técnicas incluyen:
Pre-procesamiento de los documentos:
Consiste en extraer las palabras utilizadas en un documento, o segmentar el texto en
distintas formas gráficas. Incluye la eliminación de los signos de puntuación y palabras
vacías, así como la extracción de las palabras (Brun, y otros, 2004).
Identificación de nombres propios:
La extracción de nombres propios relativos a personas, organizaciones, eventos,
funciones, así como cantidades monetarias y fechas, es una de las principales funciones
que debe satisfacer la minería textual. También debe permitir identificar las relaciones que
existen entre estos nombres propios y constatar así hechos descritos en los documentos
(Brun, y otros, 2004).
Categorización automática:
Se utiliza para clasificar los documentos en categorías preestablecidas. Existen dos tipos
de categorización: etiqueta simple y etiqueta múltiple. En el primero se asigna a cada
documento una única categoría. En el segundo, un mismo documento puede asignarse a
más de una categoría (Brun, y otros, 2004).
Las características de los diferentes tipos se ambigüedad que existen y las técnicas antes
descritas, fueron aplicadas en el diseño de un conjunto de reglas, que constituyen una
guía para la implementación de la herramienta informática descrita en el artículo, la cual
permite identificar qué tipo de ambigüedades presenta un texto de la legislación cubana,
su localización en el escrito y el nivel de ambigüedad total que presenta el texto.
Reglas definidas
Para evaluar la ambigüedad sintáctica:
Regla 1: si una frase contiene más de una conjunción sintácticamente ambigua y dichas
conjunciones pertenecen al grupo de conjunciones coordinantes copulativas (y, e, ni,
que), entonces la frase presenta ambigüedad coordinativa copulativa.
Regla 2: si una frase contiene más de una conjunción sintácticamente ambigua y dichas
conjunciones pertenecen al grupo de conjunciones coordinantes disyuntivas (o, u, sea,
bien), entonces la frase presenta ambigüedad coordinativa disyuntiva.
Regla 3: si una frase contiene más de una conjunción sintácticamente ambigua y dichas
conjunciones pertenecen al grupo de conjunciones coordinantes disyuntivas o al grupo de
conjunciones
coordinantes
copulativas
entonces
la
frase
presenta
ambigüedad
coordinativa mixta.
Regla 4: si una frase contiene al menos una preposición separable (a, con, de, en), que
sea sintácticamente ambigua entonces la frase presenta ambigüedad preposicional.
Para evaluar la ambigüedad léxica:
Regla: si en el contexto que se analiza, existe una palabra que contiene más de un
significado o sea una palabra polisémica, entonces se puede determinar que existe una
ambigüedad léxica.
Para evaluar la ambigüedad semántica:
Regla: si existen al menos dos palabras en un contexto, una a continuación de la otra, que
tengan más de una relación, este contexto contiene más de una interpretación de dichas
palabras y por tanto genera ambigüedad semántica.
Descripción del desarrollo de la herramienta:
Para la implementación de las reglas definidas con el propósito de identificar la
ambigüedad sintáctica en textos de la legislación cubana, se diseñó la clase Regla,
encargada de llevar a cabo la identificación, conteo y análisis de las conjunciones y
preposiciones que contiene el texto y luego evaluar si presenta ambigüedad sintáctica y
clasificar la misma. En el siguiente pseudocódigo se describe el método implementado en
la clase, a partir de las 4 reglas definidas para la identificación de este tipo de
ambigüedad:
Figura 1: Pseudocódigo que describe el método implementado para identificar la ambigüedad sintáctica.
Para aplicar las reglas que permiten identificar la ambigüedad léxica y semántica presente
en textos de la legislación cubana, se diseñaron métodos basados en técnicas del PLN y
la minería de texto, tales como los basados en diccionario, siguiendo la filosofía del
WordNet, y el pre-procesamiento de documentos. A continuación se muestra el
pseudocódigo que describe el método diseñado para detectar la ambigüedad léxica:
Figura 2: Pseudocódigo que describe el método implementado para identificar la ambigüedad léxica.
La funcionalidad detectatAmbiguedadLexica es la encargada de, dada una oración,
recorrer cada palabra e ir buscando en el diccionario electrónico definido, con términos
propios de la legislación cubana, una lista de vocablos que aparezcan registrados con el
lexema que se está analizando. Si la cantidad de elementos que tiene la lista es mayor
que uno, quiere decir que para el lexema que se analiza existe más de un significado, por
lo cual es una palabra polisémica y el texto presenta entonces ambigüedad léxica.
El siguiente pseudocódigo describe el método diseñado para identificar la ambigüedad
semántica:
Figura 3: Pseudocódigo que describe el método implementado para identificar la ambigüedad semántica.
La funcionalidad detectarAmbiguedadSemantica es la encargada de, dado un conjunto de
palabras, ir buscando las relaciones o caminos existentes entre cada palabra y la que está
a continuación, e ir evaluando si poseen más de un camino que las relacione. Para ello se
definió una matriz que almacena el camino de la palabra que se encuentra en la posición i
de la lista de palabras y la que se encuentra en la posición j, guardándose en la casilla i;j,
luego se obtiene el camino desde la palabra en j hasta la palabra en i y se guarda en la
casilla j;i. Luego se verifica si los caminos que se encuentran en las casillas son iguales,
en caso de ser diferentes significa que hay más de una relación entre las dos palabras
que se analizan, por tanto hay presencia de ambigüedad semántica en el texto analizado.
Los métodos descritos en el pseudocódigo ilustrados en las figuras 1, 2 y 3, así como las
clases diseñadas para la implementación de estos, permitieron obtener una herramienta
informática de tipo desktop, desarrollada en tecnologías de software libre, que permite
identificar la existencia de términos ambiguos en textos de la legislación cubana y brindar
una clasificación sobre el tipo y grado de ambigüedad que presentan. Los contenidos
analizados por la misma pueden ser redactados de forma directa en esta o importados
desde un documento en formato word. La herramienta una vez que obtiene y analiza los
textos, es capaz de señalar dónde existe la ambigüedad y determinar cuál es el la tipo
que presenta, con el propósito de que la palabra o porción del texto ambiguo pueda ser
corregido por la persona indicada.
Conclusiones
El resultado del presente trabajo constituye un aporte al desarrollo de la Informática
Jurídica en Cuba, aplicable a cualquier corpus documental de habla hispana. El resultado
es una herramienta de Técnica Legislativa que permite ser aplicada tanto a textos en
estatus de proyectos legislativos como para hacer estudios sobre ambigüedad en textos
promulgados.
El resultado representa un punto de partida para nuevas investigaciones que permitan
extender el alcance de esta herramienta, con el propósito de poder obtener a través de la
misma una propuesta de desambiguación de los textos analizados.
Referencias bibliográficas
Bisbal, Empar, y otros. 2003. 3LB-SAT : una herramienta de anotación semántica. [En
línea] 2003. http://rua.ua.es/dspace/handle/10045/1510.
Brun, Ricardo Eíto y Senso, José A. 2004. Minería Textual. [En línea] 2004.
http://eprints.rclis.org/11491/1/Artmineriapdf.pdf.
López, Miguel Alejandro. 2002. Técnica Legislativa. México
HILL/INTERAMERICANA EDITORES ,S.A, 2002. págs. 67-68.
D.F :
McGRAW
Manterola, Iker, y otros. 2010. Recursos en euskera para la herramienta NLTK para
enseñanza
de
procesamiento
del
lenguaje
natural.
[En
línea]
2010.
http://journal.sepln.org/index.php/pln/article/viewFile/818/672.
Pérez, Sonia Vázquez. 2009. Resolución de la ambigüedad semántica mediante métodos
basados en conocimiento y su aportación a tareas de PNL. [En línea] 2009.
Ramos, Sulema Torres. 2012. Estudio sobre métodos de tipo lesk usados para la
desambiguación de sentidos de palabras. [En línea] 2012.
Yorke,
Gordon.
2011.
EclipseLink
http://refcardz.dzone.com/refcardz/eclipselink-jpa.
JPA.
[En
línea]
2011.
Zapata, Carlos, Palomino, Karla y Rosero, Roberto. 2007. Un método para la
desambiguación sintáctica de tipo coordinativo y preposicional. [En línea] 2007.
Descargar