evaluación automática de coherencia textual en noticias

Anuncio
RLA. Revista de Lingüística Teórica y Aplicada
Concepción (Chile), 48 (2), II Sem. 2010, pp. 115-139.
CL ISSN 0033 - 698X
EVALUACIÓN AUTOMÁTICA DE COHERENCIA
TEXTUAL EN NOTICIAS POLICIALES
UTILIZANDO ANÁLISIS SEMÁNTICO LATENTE*
AUTOMATIC EVALUATION OF TEXTUAL COHERENCE IN
POLICE NEWS USING LATENT SEMANTIC ANALYSIS
SERGIO HERNÁNDEZ OSUNA
Universidad de Concepción. Concepción, Chile.
[email protected]
ANITA FERREIRA CABRERA
Universidad de Concepción. Concepción, Chile.
[email protected]
RESUMEN
El presente artículo expone los resultados de una investigación que buscó evaluar la coherencia textual en forma automática, utilizando el método de Análisis Semántico Latente,
en el dominio formado por noticias policiales. Con este fin se construyó una herramienta
prototipo, empleando únicamente software libre, que se puede obtener desde Internet.
Para validar el funcionamiento del prototipo se comparó su evaluación con la realizada por
ocho evaluadores humanos: cuatro periodistas y cuatro profesores de español con estudios
de postgrado en lingüística.
Palabras clave: Coherencia, Análisis Semántico Latente, noticias policiales.
ABSTRACT
This article presents the results of an investigation that aimed to assess textual coherence
automatically, using the method of Latent Semantic Analysis in the domain formed by
police news. For this purpose, a prototype tool was built using only free software, which
can be obtained from the Internet. To validate the performance of the prototype, its
evaluation was compared with that made by eight human evaluators: four journalists and
four spanish’s teachers with graduate studies in linguistics.
Keywords: Coherence, Latent Semantic Analysis, police news.
Recibido: 26/04/2010. Aceptado: 07/09/2010
*
Esta investigación está inserta en el contexto del Proyecto de Fomento a la Investigación en
Ciencias Sociales, Humanidades, Economía y Educación, DIUC 209603010-1 “Un Sistema Tutorial Inteligente para la enseñanza del Español como Lengua Extranjera”.
115
RLA. Revista de Lingüística Teórica y Aplicada, 48 (2), II Sem. 2010
1. INTRODUCCIÓN
U
na de las problemáticas principales en el proceso de publicación de un medio
de prensa escrito es subsanar los errores lingüísticos producidos al construir
un texto por el periodista. Tradicionalmente, esta labor recayó sobre el corrector
de pruebas. Estos profesionales dedicados a corregir los textos elaborados por los
periodistas, previamente a su publicación, han ido desapareciendo como consecuencia de los avances de la tecnología. La razón principal es que ahora la tarea de
colocar el texto en la página que se imprimirá o se publicará en Internet se ha automatizado, pasando a ser responsabilidad del mismo periodista, gracias a softwares
especializados como Milenium Cross Media, en el caso de los medios impresos, o
los gestores de contenidos –como Joomla, Wordpress o similares– para el caso de
los medios en Internet.
Si bien es indudable que esta automatización significa un gran avance en agilizar el proceso de publicación de un medio de prensa, la ausencia del corrector
de pruebas implica que los errores en la construcción de los textos lleguen con
más frecuencia hasta los lectores de los mismos, dado que ya no existe el corrector
humano que reparaba los errores lingüísticos. Además, estos errores se tornan más
frecuentes por el vértigo en que se desarrolla la labor del periodista –más aún desde
la masificación de Internet–, ya que debe escribir siempre contra el tiempo, intentando llegar con la noticia al público antes que los demás medios de prensa.
La presente investigación tuvo como fin estudiar sólo un aspecto de los múltiples problemas que podrían derivarse de esta automatización. Éste es el problema
de los errores de coherencia en la construcción de los textos periodísticos. El trabajo realizado no buscó solucionar la problemática planteada directamente, sino
que es sólo un primer paso para avanzar en dicha dirección. El foco del trabajo fue
investigar sobre la efectividad de utilizar herramientas informáticas para evaluar la
coherencia textual, específicamente, aplicando el método del Análisis Semántico
Latente. El tipo de texto con el que se trabajó es la noticia, también llamada información periodística (Martínez Albertos, 2004; Leñero y Marín, 1986). La idea
fue observar si una máquina era capaz de detectar las alteraciones de coherencia
de la misma forma en que lo haría un grupo de humanos expertos en el tipo de
texto utilizado y otro grupo experto en el estudio del fenómeno denominado coherencia.
La investigación tuvo como objetivo general evaluar la coherencia de una noticia del dominio policial en forma automática. La hipótesis de trabajo fue: “La
evaluación automática de coherencia textual, utilizando la técnica del Análisis Semántico Latente, es equivalente a la evaluación humana en el dominio formado
por las noticias policiales”. El término equivalente no debe entenderse en el sentido de que la evaluación entregada por la herramienta prototipo de medición
automática de coherencia sea igual a la entregada por los humanos. Es decir, no
116
฀
฀ ฀
฀
฀ ฀
฀
฀
฀
฀ ฀S. HERNÁNDEZ, A. FERREIRA
se pretende probar que si la máquina asigna una evaluación X a un texto determinado, los evaluadores humanos también asignen X. El sentido en que debe
entenderse equivalente es que ambas evaluaciones –máquina y humanos– sigan
tendencias similares y se correlacionen. Esto indicaría que la evaluación automática de coherencia realizada por la herramienta prototipo es correcta y que puede
utilizarse como información útil para perfeccionar el texto.
2. MARCO DE REFERENCIA
A continuación se expondrá brevemente sobre coherencia (y cohesión) y Análisis
Semántico Latente, conceptos que son fundamentales para comprender el trabajo
que se presenta.
2.1. Coherencia y cohesión
Álvarez (1995) señala que el texto es una configuración lingüística. Agrega que
este texto “resulta, por una parte, de operaciones enunciativas que realiza el locutor y, por otra parte, de operaciones seriales que permiten a este mismo locutor
conectar las oraciones individuales para constituir secuencias cohesivas y coherentes”. Singer y Zwaan (2003) añaden que para que un texto sea comprensible debe
ser coherente. Los lectores deben poder identificar las relaciones entre las ideas del
texto.
El mismo Álvarez (1995) señala que “un texto es una secuencia de oraciones;
pero no cualquier secuencia de oraciones constituye texto. Para que una secuencia
de oraciones constituya texto, es decir sea aceptada como un texto coherente en
una interacción determinada, tiene que cumplir con ciertas normas de buena formación textual […]. Generalmente, las exigencias de la buena formación textual
se engloban bajo los términos de cohesión y coherencia”.
Por lo tanto, si un texto carece de esta buena formación textual, no tendrá
coherencia ni cohesión y, en consecuencia, los lectores no podrán identificar las
relaciones entre las ideas de este texto y les será incomprensible.
Si bien coherencia y cohesión son términos relacionados, no son lo mismo. La
cohesión alude al “aspecto formal, gramatical de las relaciones que existen de una
oración a otra en el texto” y la coherencia “designa el aspecto mental, conceptual
de la relación que se postula entre los hechos denotados” (Álvarez, 1995). Por su
parte, Jurafsky y Martin (2008) reconocen que coherencia y cohesión son términos a menudo confundidos. Para ellos la cohesión se refiere a la forma en que las
unidades textuales son enlazadas. Indican que una relación cohesiva es como una
clase de pegamento que agrupa dos unidades en una sola unidad mayor. Por otro
lado, para los citados autores la coherencia alude a las relaciones de significados
117
RLA. Revista de Lingüística Teórica y Aplicada, 48 (2), II Sem. 2010
entre dos unidades. Una relación de coherencia explica cómo el significado de
diferentes unidades textuales puede combinarse para construir un significado discursivo mayor.
Relacionado con el hecho de que la coherencia se refiera a un aspecto mental,
hay que señalar que los psicolingüistas consideran que “la coherencia es más bien
una función cognitiva; dicho de otro modo, la coherencia está en la mente y no en
el texto” (De Vega, Díaz y León, 1999). De esta forma, el lector de un texto entiende las relaciones de coherencia entre las diversas partes de éste gracias, en gran
medida, a sus conocimientos pragmáticos del mundo. O sea, “la coherencia es el
resultado de la interacción entre el texto y el saber sobre el mundo” que comparten
el autor del escrito como quien lo lee (Álvarez, 1995).
Como ejemplo de lo anterior se presentan estas dos secuencias citadas por De
Vega, Díaz y León (1999):
(1) Al terminar de cenar en el restaurante con mis padres llamé al camarero y le pedí
la cuenta.
(2) Al terminar de cenar en casa de mis padres llamé al camarero y le pedí la cuenta.
Si bien ambos textos son parecidos en términos gramaticales e incluso en las
palabras que utilizan, sólo el primero resulta perfectamente coherente. “La coherencia o incoherencia viene determinada, en este caso, por el conocimiento de
mundo sobre los restaurantes y las cenas familiares que comparten tanto el autor
como el lector” (De Vega, Díaz y León, 1999).
Jurafsky y Martin (2008) aportan otro ejemplo:
(3) John escondió las llaves del auto de Bill. Él estaba ebrio.
(4) John escondió las llaves del auto de Bill. A él le gustan las espinacas.
Mientras que la mayoría de las personas no encontrarían nada fuera de lo
común en la primera oración, la segunda les parecería extraña. ¿Por qué ocurre
esto? Si bien ambas oraciones están correctamente construidas, algo parece estar
equivocado en las sentencias que se suceden en (4). Entonces, quien se enfrenta a
ellas podría perfectamente cuestionarse cuál es la relación entre esconder las llaves
de un auto y que a alguien le gusten las espinacas. Al realizar esta pregunta, lo que
se está cuestionado es la coherencia del pasaje.
De esta misma forma, quien lee las oraciones podría intentar construir una
explicación que le dé coherencia al pasaje. Por ejemplo, que alguien le ofreció a
John espinacas a cambio de esconderle las llaves del auto a Bill. De hecho, si se
considera un contexto en el cual esto ya es conocido, el pasaje se percibe como
correcto. ¿Por qué ocurre esto? La razón es que esta conjetura permite a quien lee
el texto identificar el gusto de John por las espinacas como la causa de que escon118
฀
฀ ฀
฀
฀ ฀
฀
฀
฀
฀ ฀S. HERNÁNDEZ, A. FERREIRA
da las llaves del auto de Bill, lo que explica la conexión que habría entre ambas
sentencias. El hecho de que los lectores traten de identificar tales conexiones, demuestra la necesidad de establecer coherencia como una parte de la comprensión
del discurso.
Finalmente, cabe apuntar que a menudo se suele distinguir entre la coherencia
local, que establece el lector entre los contenidos próximos (por ejemplo, dos oraciones consecutivas); y la coherencia global, que establece entre contenidos muy
distantes o distribuidos a lo largo del texto (De Vega, Díaz y León, 1999).
2.2. Análisis Semántico Latente
El Análisis Semántico Latente (o LSA, según sus iniciales en inglés) es una técnica
que utiliza procesos estadísticos para extraer y representar los significados de las
palabras. Los significados son representados en términos de su semejanza con otras
palabras en un extenso corpus de documentos (Boonthum, Levinstein y McNamara, 2007).
Su propósito es “superar un problema fundamental que se produce con las
técnicas de recuperación que pretenden hacer coincidir las palabras de búsqueda
con las palabras en los documentos (como sería el caso de los buscadores de información en Internet)” (Venegas, 2003). Los autores de la técnica suponen que
hay algo que subyace latente en la estructura semántica de los datos, que está parcialmente oculto por la elección aleatoria de las palabras (Deerwester et al., 1990,
también citados en Venegas, 2003).
Landauer, Foltz y Laham (1998, también citados en Venegas, 2003) definen al
Análisis Semántico Latente como “una técnica matemático-estadística totalmente
automática para extraer e inferir relaciones de uso contextual esperado de palabras
en pasajes de discurso. No es un procesamiento de idioma natural tradicional
o programa de inteligencia artificial; no usa ningún diccionario construido humanamente, bases de conocimiento, redes semánticas, gramáticas, segmentadores
sintácticos, o morfologías y toma como input sólo la segmentación del texto en
palabras, pasajes, frases o párrafos”.
McCarthy, Briner, Rus y McNamara (2007) señalan sobre el Análisis Semántico Latente que está basado en la idea de que las palabras (o grupos de palabras)
aparecen en algunos contextos pero no en otros. La ventaja práctica del LSA sobre
otros tipos de mediciones como shallow word overlap es que va más allá de las si฀
฀
฀
฀
฀ ฀
฀ ฀
฀ ฀
฀ ฀
฀ ฀
฀
฀
฀
฀
฀
฀
฀
฀฀
bosque. De este modo, el Análisis Semántico Latente no sólo nos dice que dos
términos están relacionados, sino que también nos señala cuán similares son.
Landauer (2002), para explicar el funcionamiento del LSA, señala que el significado de un pasaje de texto está contenido en sus palabras, y que todas sus pala119
RLA. Revista de Lingüística Teórica y Aplicada, 48 (2), II Sem. 2010
bras contribuyen a formar su significado. A esto, agrega, que dos pasajes, aunque
tengan diferentes palabras, podrían tener un significado similar. Esto se puede
resumir asumiendo que el significado de un pasaje de texto es igual a la suma del
significado de las palabras que lo componen. El autor lo representa con el siguiente esquema:
significado de la palabra 1 + significado de la palabra 2 + ...+ significado de la palabra
n = significado del pasaje
Según expresan Foltz, Kintsch y Landauer (1998), el poder del Análisis Semántico Latente para determinar el grado de relación semántica proviene del análisis
de un extenso número de textos de ejemplo.
El objeto del trabajo que se presenta fue utilizar el LSA para realizar predicciones de coherencia, según postulan Foltz, Kintsch y Landauer (1998) en su artículo
“La medición de coherencia textual con Análisis Semántico Latente”. Para lograrlo
hay que comparar una unidad de texto con otra unidad de texto vecina, esto con
el objetivo de determinar en qué grado están relacionados semánticamente ambos
segmentos. Estas unidades pueden ser oraciones, párrafos o, incluso, palabras aisladas o libros completos. Este análisis debe ser hecho a todos los pares de unidades
de texto vecinas, con el fin de caracterizar la coherencia de todo el texto en su
conjunto (Foltz, Kintsch y Landauer, 1998).
Para realizar predicciones de coherencia de un texto en particular, primero es
necesario tener un conjunto de textos similares al que se busca analizar, pues el
Análisis Semántico Latente requiere de un dominio temático restringido. Este
corpus de entrenamiento –el conjunto de textos– que precisa el LSA, al pertenecer
a un dominio restringido, garantiza que en él se contengan una gran proporción
de los términos usados en el texto a analizar y que éstos aparezcan en distintos
contextos, con el fin de tener un marco que permita su comparación con el texto
cuya coherencia se quiere predecir por medio del Análisis Semántico Latente.
El proceso realizado para lograr la predicción de coherencia es el siguiente, según lo describen Foltz, Kintsch y Landauer (1998): El Análisis Semántico Latente
representa cada palabra del texto procesado –así como unidades textuales mayores– en el espacio semántico a través de vectores. Las unidades textuales mayores
–como una oración– son representadas en este espacio semántico multidimensional como el promedio ponderado de los vectores de los términos que contiene.
La relación semántica entre dos unidades de texto puede ser comparada determinando el coseno entre los vectores de ambas unidades. Por lo tanto, para evaluar
la coherencia entre la primera y la segunda oración de un texto, el coseno entre
los vectores de las dos oraciones debe ser determinado. Por ejemplo, dos oraciones
que utilicen exactamente los mismos términos y con la misma frecuencia tendrán
un coseno de 1; mientras que dos oraciones que usen términos que no sean se120
฀
฀ ฀
฀
฀ ฀
฀
฀
฀
฀ ฀S. HERNÁNDEZ, A. FERREIRA
mánticamente relacionados, tenderán a tener cosenos cercanos a 0, o menores aún
(valor negativo). Se añade a lo dicho por Foltz, Kintsch y Landauer, con el fin de
evitar confusiones, que si bien el valor del coseno puede fluctuar entre 1 y -1, para
el caso de las predicciones de coherencia mediante Análisis Semántico Latente, tal
cual ellos señalan, el coseno obtenido entre los vectores de dos unidades textuales
adyacentes, que contengan términos que no sean semánticamente relacionados,
normalmente será un valor positivo que tienda a 0.
3. METODOLOGÍA APLICADA
Los pasos que se siguieron fueron fundamentalmente tres: recopilación del corpus,
construcción del prototipo y evaluación de la coherencia de un conjunto de textos
por el prototipo y por evaluadores humanos expertos.
En el desarrollo del trabajo se utilizó únicamente software libre, esto es, aquel
que respeta las cuatro libertades esenciales establecidas por la Free Software Fundation (2010) –en español Fundación para el Software Libre–. Dichas libertades
son:
a) Libertad de ejecutar el programa cuando se quiera.
b) Libertad de estudiar el código fuente y modificarlo para que haga lo que se quiera.
c) Libertad de copiar el programa y distribuir las copias cuando se quiera.
d) Libertad de publicar o distribuir una versión modificada cuando se quiera.
Según se desprende de lo anterior, se prescindió de cualquier aplicación propietaria y de código cerrado (que no puede ser modificado por el usuario), lo que
garantiza que en todas las aplicaciones informáticas utilizadas no se vulnera ninguna licencia y, por ende, no hay uso ilegal de software de terceros.
Para toda la experiencia se empleó un computador con procesador Intel Centrino Duo, de 2 ghz, con una memoria RAM de 1 gb, es decir, un equipo promedio que se aleja de las características de los equipos de última generación. Esto
no representó ningún problema pues el computador utiliza el sistema operativo
Linux, específicamente la distribución Ubuntu de Canonical Ltd.; dicho sistema
operativo tiene un alto grado de eficiencia y un bajo consumo de recursos en
comparación con los sistemas operativos de Microsoft, por ejemplo. Además, la
utilización de Linux fue una necesidad, debido a que muchas de las aplicaciones
empleadas sólo corren de manera nativa en dicho ambiente.
3.1. Recopilación del corpus
Como se señaló en 2.2, el Análisis Semántico Latente precisa para su óptimo fun121
RLA. Revista de Lingüística Teórica y Aplicada, 48 (2), II Sem. 2010
cionamiento de extensos corpus de textos, y que estos textos, además, pertenezcan
a un dominio temático restringido. Este corpus se utiliza para entrenar al software
de Análisis Semántico Latente, y a partir de este conjunto de textos, la aplicación
crea el espacio semántico multidimensional a la luz del cual analizará los textos
que se procesen para calcular su coherencia. Teniendo en cuenta lo anterior y dado
que la idea era trabajar con noticias, se optó por utilizar como dominio, de entre
todos los temas que habitualmente aborda la prensa, el conocido como “Periodismo policial” o vulgarmente denominado “Crónica roja”. La razón de esta elección
es que dicho campo temático es uno de los que mayor volumen de informaciones
ofrece, estando presente en el día a día de cualquier medio periodístico escrito.
Para la confección del corpus de entrenamiento se utilizaron 1.505 textos extraídos de medios de prensa chilenos, específicamente de El Mercurio, La Tercera y
La Nación. La razón para elegir estos medios fue preferir aquéllos con circulación a
nivel nacional, por considerarse más representativos del periodismo del país. Además, se les eligió por el mayor esmero con que cuidan el correcto uso del español
en las noticias que publican (registro culto-formal). De esta forma se prescindió
de otros medios como La Cuarta cuyo uso particular de la lengua no corresponde
al habitual en los medios periodísticos y podría haber afectado el funcionamiento
de la aplicación de Análisis Semántico Latente.
Otro de los motivos para elegir los medios en cuestión fue que publican sus
noticias en Internet en formato html, esto es, utilizan texto que enriquecen con
etiquetas que el navegador web debe interpretar. El proceso de recopilación del
corpus, gracias a esto, se simplifica una enormidad: sólo basta con copiar y pegar
el texto desde el sitio en Internet del medio a un editor de texto sin formato, con
el fin de borrarle todas las etiquetas html y mantener únicamente el texto de la noticia en sí. Con esto se evitó el estar utilizando una aplicación de reconocimiento
óptico de caracteres, lo que hubiera convertido un trabajo de por sí arduo, en una
tarea prácticamente inmanejable por el elevado número de textos utilizados para
conformar el corpus.
3.2. Construcción del prototipo
El prototipo puede ser descrito en pocas palabras, como una aplicación que recibe
un texto como entrada, lo prepara para su procesamiento, lo lematiza, lo procesa
a la luz del espacio semántico creado mediante el corpus de entrenamiento, lo
convierte en una cantidad variable de vectores y, finalmente, calcula el coseno de
las parejas de vectores adyacentes y los promedia para entregar la evaluación de
coherencia del texto en cuestión.
Sin embargo, para comprender mejor su funcionamiento es necesario describir
el proceso paso a paso y con mayores detalles.
Las principales aplicaciones informáticas empleadas son el lematizador Libste122
฀
฀ ฀
฀
฀ ฀
฀
฀
฀
฀ ฀S. HERNÁNDEZ, A. FERREIRA
฀
฀ ฀
฀ ฀
฀
de flujo Sed destinado a manejar cadenas de texto y el intérprete de bc, que es un
lenguaje de programación utilizado para realizar operaciones de cálculo numérico
desde una línea de comandos (estas dos últimas aplicaciones vienen incluidas por
defecto en la distribución de Linux utilizada). Por último, en el prototipo se usó
฀
฀
฀
฀ ฀
฀
Dicha aplicación consiste en un paquete de software que debe ser compilado para
operar en ambiente Linux y emplea una variante de Análisis Semántico Latente
que representa las palabras de un corpus de texto en un espacio vectorial llamado
WordSpace. La aplicación permite realizar recuperación de información desde el
corpus y mediciones de relación semántica entre las palabras.
El diseño de la herramienta prototipo para evaluar la coherencia textual en
forma automática se concibió como un script. Para el Diccionario Informático de
Alegsa (en línea), un script es “un conjunto de instrucciones generalmente almacenadas en un archivo de texto que deben ser interpretadas línea a línea en tiempo
real para su ejecución. Se distinguen de los programas, pues deben ser convertidos
a un archivo binario ejecutable para correrlos”.
Este script cumple la función de ordenar a todas las aplicaciones que componen
el prototipo que realicen las tareas que de ellas se requieren. La importancia de éste
es fundamental, pues todas las aplicaciones carecen de interfaz gráfica y operan
sólo a través de comandos de consola, por lo que sin el script la operación de las
diferentes aplicaciones sería una tarea que requeriría horas de aprendizaje para un
individuo que no las conociera; a esto hay que sumar que el tiempo que llevaría la
tarea de procesar un solo texto sería cercano a una hora, lapso que el script reduce
a 10 segundos para una noticia de extensión promedio.
3.2.1. Preparación del corpus de entrenamiento y construcción del modelo mediante el Infomap
Los textos en bruto extraídos desde los tres medios periodísticos utilizados se unieron en un único archivo de texto plano, pues para el objetivo del trabajo realizado
no importa la procedencia de ellos. Cada uno de los 1.505 textos fue preparado,
etiquetándolos de la forma exigida por el Infomap.
Luego el archivo con los 1505 textos se sometió a diferentes operaciones con
el fin de limpiarlo. Utilizando el comando Sed desde la Terminal (la consola de
comandos de Linux), se eliminaron todas las tildes de las vocales, pues el Infomap
no está habilitado para procesarlas y arroja un error cuando se encuentra con
ellas. También se eliminaron de los textos todos los signos de puntuación, ya que
éstos no son relevantes para el Análisis Semántico Latente; además los signos de
puntuación provocan que el Libstemmer no lematice una palabra que va seguida
de un punto o una coma, por ejemplo, pues considera al signo como parte de la
123
RLA. Revista de Lingüística Teórica y Aplicada, 48 (2), II Sem. 2010
palabra y no la reconoce. Hay que agregar que el Infomap, al encontrarse con una
eñe, arroja un error similar que al encontrarse con una tilde, pero este problema se
resolvió más adelante, una vez que el texto estuvo lematizado.
Posteriormente, el archivo con los textos fue transformado en una lista de palabras, con el fin de prepararlo para la lematización, dado que el Libstemmer sólo
procesa palabras individuales. Para ello se ejecutó el comando Sed desde la Terminal con la orden de reemplazar todos los espacios en blanco por saltos de línea.
Luego el archivo, ya convertido en una extensa lista de palabras, fue procesado en el Libstemmer, arrojando como salida la misma lista de palabras, pero
ahora lematizadas. Esta lista de palabras fue convertida nuevamente en un texto,
reemplazando los saltos de línea por espacios en blanco. Luego, se separaron las
etiquetas del corpus de cada uno de los textos, agregando saltos de línea antes y
después de ellas.
Finalmente, una vez lematizado el texto quedaba el problema de que el Infomap no puede trabajar con las eñes por ser éstas ajenas al inglés, lengua de
origen de la aplicación. El inconveniente se resolvió reemplazando las eñes por
la secuencia nnn, que no se da dentro de la estructura silábica del español, por
lo que se consideró una buena forma de representar a dicho grafema. Así el lema
correspondiente a niño, que normalmente es niñ, fue reescrito como ninnn. Hay
que señalar que esto no significa ningún problema en relación a los resultados del
proceso, pues no afecta la medición de relación semántica, ya que la eñe en rigor
no se eliminó, sino que se representó con la secuencia antes descrita.
A continuación se transcribe como ejemplo un texto ya sometido a todo el
proceso señalado:
<DOC>
<TEXT>
pdi detien a herman del cisarr en pennnalol el menor de 17 annnos identific com icm
reconoci hab particip en el rescat de su herman uno de los herman del cisarr identific
com icm fue deten ayer por la brig del crim de la pdi deb a una orden pendient por
hurt simpl el jov de 17 annnos qui present antecedent por hurt y consum de drog fue
aprehend cerc de las 1630 en pennnalol al ser interrog reconoci hab particip en la fug
de ccm 10 conoc com cisarr ocurr el 1 de agost cuand seis menor de edad lleg al centr
del senam dond el ninnn permaneci reclu y con un arma de fueg lo ayud a huir hoy ser
el control de detencion de icm mientr que su herman el cisarr qui ha sid deten 16 vec
permanec reclu en el centr del senam desd dond escap
฀
฀
Una vez ya preparado el corpus de entrenamiento como recién se expuso, queda un paso previo antes de construir el modelo que definirá el espacio semántico
124
฀
฀ ฀
฀
฀ ฀
฀
฀
฀
฀ ฀S. HERNÁNDEZ, A. FERREIRA
con el Infomap, éste es el relativo a las stop words. El Diccionario Tecnológico
(2009, en línea) del sitio web chileno Usando.info, define a las stop words como
“aquellas palabras que por ser comunes, los buscadores ignoran para asegurar la
calidad de los resultados de lo que se busca. Normalmente entran en esta categoría
las preposiciones y conjunciones”.
El Infomap-NLP incluye por defecto una lista de stop words, pero del inglés.
Por lo tanto, esa lista se reemplazó por una lista de stop words para el español. En
Internet hay muchos sitios que ponen a disposición de los navegantes listas de
stop words para el español, por lo que pese a que el Infomap no las incluye no es
difícil conseguir una. Para el trabajo se utilizó una lista de 327 stop words, construida combinando dos recopilaciones disponibles en Internet. Una de ellas es la
que ofrece para la descarga en su sitio el equipo del projecto Snowball, el mismo
฀
฀ ฀
฀
฀
฀ ฀
฀ ฀
฀ ฀
฀ ฀ ฀
฀ ฀ ฀
lingual Resources de la Universidad de Neuchatel, y puede ser descargada desde
฀
฀
฀
฀
Finalmente, a la lista de stop words se le dio el mismo tratamiento que al corpus
de entrenamiento, con el fin de mantener la correspondencia entre ambos: se eliminaron las tildes de las palabras, se lematizaron y se reemplazaron las eñes por la
secuencia nnn.
Una vez realizado lo anterior, recién se construyó el modelo en el Infomap, a
partir del corpus de entrenamiento. Para esto simplemente bastó con crear un directorio dentro del computador y, a través de comandos ingresados en la Terminal,
definirlo como directorio de trabajo para la aplicación. Luego simplemente se le
indicó al Infomap la ruta al archivo que contenía el corpus de entrenamiento para
que el programa construyera automáticamente el modelo que define el espacio
semántico a partir de la recopilación de noticias realizada.
3.2.2. Desarrollo del script
Para el desarrollo del script se utilizó el intérprete de órdenes bash. Se eligió éste
por la potencia que posee y, además, porque trabaja con los mismos comandos que
la Terminal de Linux, lo que facilita su empleo. En el computador de trabajo no
hubo necesidad de instalar dicho intérprete, pues viene incluido por defecto en la
distribución Ubuntu.
En la descripción del proceso de construcción del script, por motivos de espacio y de claridad, se realizará una explicación más general, prescindiendo de
muchos aspectos de corte más técnico.
Previamente, como ya fue expuesto, es bueno recordar que para predecir coherencia el Análisis Semántico Latente necesita comparar dos unidades textuales
125
RLA. Revista de Lingüística Teórica y Aplicada, 48 (2), II Sem. 2010
vecinas que pueden ser palabras, oraciones, párrafos o textos completos. En este
caso, se utilizó como unidad a comparar el párrafo, porque al tratarse de noticias, la
tendencia del periodismo actual, sobre todo por el influjo de Internet, es a utilizar
párrafos cada vez más cortos (Franco, 2008). Sin embargo, aunque no se expondrá acá, se construyó en el trabajo un script que segmentaba el texto en oraciones,
utilizando el punto seguido como marca para realizar la segmentación automática.
Las pruebas realizadas llevaron a determinar que la tendencia del periodismo de
utilizar párrafos cortos producía distorsiones en los resultados al emplear el script
que segmenta en oraciones; incluso, dentro del corpus de entrenamiento hay muchos textos en que no se utiliza el punto seguido.
El script requiere que la noticia que se desee procesar esté ubicada en un archivo
de texto plano con el nombre texto_entrada, que debe situarse dentro del mismo
directorio en que está el script. Luego, utilizando el comando Sed para el tratamiento de cadenas de texto, se escribieron las órdenes para que el script elimine
las tildes de las vocales, las comas, los dos puntos, los punto y coma, los signos
de interrogación y exclamación, los paréntesis, las comillas dobles y simples, y el
signo peso. A continuación el script reemplaza los espacios en blanco por saltos de
línea, con el fin de construir la lista de palabras que requiere el lematizador. Luego
reemplaza todos los puntos por saltos de línea con el fin de dejar el espacio en
blanco que indique dónde finaliza cada oración.
En este punto se necesitaba marcar los espacios en blanco de alguna forma,
con el fin de que éstos no se confundieran con los que se generarían en un paso
posterior del script. Para ello se recurrió a reemplazarlos con la cadena de texto ststs,
que se utilizó como comodín de marcado, ya que no existe ninguna similar en la
estructura silábica del español.
Una vez realizado lo anterior, el script llama al lematizador y éste realiza su tarea
sobre el texto. Hay que indicar que entre la lista de palabras se encontrará con la
secuencia ststs, pero la dejará intacta porque no la reconoce como perteneciente al
español.
A continuación el script, nuevamente usando el comando Sed, convierte todos
los saltos de líneas en espacios en blanco. Con esto el texto queda convertido en
un único párrafo, que tiene intercalada entre sus palabras la cadena marcadora
ststs. Luego reemplaza todas las eñes por la secuencia nnn y la cadena ststs es reemplazada por un salto de línea, con lo que el texto ya limpio y lematizado queda
segmentado según lo requerido.
En este punto, utilizando una vez más Sed, al archivo de texto de salida se le
agregan las órdenes necesarias para convertirlo en un nuevo script –al que llamaremos script secundario–, independiente del que ahora se describe; al inicio de
cada línea del texto ya segmentado se añaden los comandos necesarios para su
procesamiento en el Infomap-NLP, y al final de cada línea se agrega el texto que
da la orden para que los valores que conforman el vector resultante los guarde en
126
฀
฀ ฀
฀
฀ ฀
฀
฀
฀
฀ ฀S. HERNÁNDEZ, A. FERREIRA
un archivo llamado vector1. Finalmente, el script principal le otorga permisos de
ejecución al script secundario, para que éste pueda operar como tal y ordena su
ejecución. Con esto se obtiene como resultado un archivo llamado vectores_division_puntos que contiene los valores que conforman los vectores que representan
a cada párrafo del texto en el espacio semántico construido a partir del corpus de
entrenamiento.
Por último, el script calcula el coseno entre las unidades textuales adyacentes
que conforman el texto procesado en el prototipo. Para ello, y sin entrar a definir
conceptos matemáticos en forma profunda, hay que tener claro que para cada
par de vectores adyacentes (A,B) se calcula el coseno entre ellos de la siguiente
forma:
cos( A, B ) A* B
A* B
Lo anterior significa que el coseno del ángulo formado por dos vectores es
igual al producto escalar entre los vectores dividido por el producto de sus módulos. También se puede representar de la siguiente forma:
n
¤a b
i i
cos( A, B) i 1
A* B
Por último, una vez calculado el producto escalar de los vectores y el producto
de los módulos de éstos, simplemente hay que dividir el primer valor obtenido
por el segundo. Este resultado indicará el grado de coherencia que hay entre las
dos unidades textuales. Y, como ya se señaló, para calcular el grado de coherencia
de un texto completo debe realizarse la operación descrita para cada par de vectores que representen a unidades textuales adyacentes y, finalmente, calcular el
promedio de los valores obtenidos. Este resultado será el grado de coherencia de
dicho texto medido mediante Análisis Semántico Latente. Para realizar esta tarea
el script utiliza el intérprete de bc, que es un lenguaje de programación utilizado
para realizar operaciones de cálculo numérico desde una línea de comandos.
Finalmente el script arroja un archivo llamado salida_coherencia que contiene
el título del texto procesado y los cosenos de cada una de las unidades textuales
comparadas y el promedio de todos estos cosenos.
3.2.3. Evaluación de coherencia en los textos de prueba
El prototipo fue testeado procesando diversos textos extraídos desde los mismos
medios de prensa desde los que se conformó el corpus de entrenamiento. Se efec127
RLA. Revista de Lingüística Teórica y Aplicada, 48 (2), II Sem. 2010
tuaron pruebas diversas, entre las que se incluyeron manipular la coherencia de
textos, crear textos sin sentido uniendo párrafos extraídos desde diferentes noticias (cuya única relación era pertenecer al dominio en que se enfocó el trabajo) e,
incluso, se compararon textos que presentaban la misma noticia, pero extraídas
de medios de prensa diferentes (para ello se trató a cada noticia como una única
unidad textual). El prototipo superó todas estas pruebas y respondió de acuerdo
a lo esperado. Una vez cumplida esta etapa, se prosiguió al siguiente paso de la
investigación, que consistió en comparar los resultados de la evaluación del prototipo con la efectuada por humanos.
Para realizar la experiencia se trabajó con seis textos extraídos desde los mismos
medios periodísticos ya mencionados y se utilizó una muestra no probabilística de
ocho evaluadores humanos. Cuatro de ellos fueron periodistas especializados en
la producción de textos escritos y con experiencia en la redacción de noticias dentro del dominio denominado Periodismo Policial. Los otros cuatro sujetos fueron
profesores de español, con estudios de postgrado en lingüística, en curso o finalizados. Esto con el fin de cubrir, por una parte, la experiencia en la producción
de textos en el dominio citado (periodistas); y, por otro lado, tener la opinión de
profesionales expertos en lingüística, ciencia en la que se estudia el fenómeno de la
coherencia (profesores de español con estudios en lingüística).
Con el fin de apoyar la tarea de los jueces humanos se creó un instrumento de
medición que los guiara al evaluar la coherencia textual. Debido a que, como señala Álvarez (1995), no existe unanimidad entre los autores respecto a la extensión
de los conceptos de coherencia y cohesión, se optó por una solución que se podría
฀
฀
฀
฀฀ ฀
฀ ฀
฀ ฀ ฀
฀
del texto y, también, a la percepción del fenómeno de la coherencia por el lector
de un texto. Para ello se tomó como base el modelo propuesto por Álvarez (1995),
que señala que los términos cohesión y coherencia aluden a la buena formación
textual y que dicho autor desglosa en los fenómenos de recurrencia, progresión y
conexión.
En el instrumento se tomaron tres fenómenos pertenecientes a la recurrencia
que son utilizados con frecuencia en los textos periodísticos: anáfora, sustitución
léxica y correferencia sintagmática (se prescindió de la catáfora, porque no aparecía
en los textos seleccionados para la experiencia). También se utilizó la progresión,
específicamente la progresión con tema continuo, que es la habitual en un texto
periodístico. Por otro lado, en el instrumento también se incluyó una pregunta
en que se consulta al sujeto por su percepción de la coherencia del texto, basada
esta percepción exclusivamente en su experiencia personal ya sea como lector o
redactor de noticias.
Para responder a las preguntas planteadas se le indicó a los sujetos que emplearan una escala de 1 a 7, con el objeto de facilitarles la respuesta, pues dicha escala
128
฀
฀ ฀
฀
฀ ฀
฀
฀
฀
฀ ฀S. HERNÁNDEZ, A. FERREIRA
es un referente que se supone arraigado en el imaginario colectivo. Además, debido al carácter técnico de conceptos como anáfora, sustitución léxica, correferencia
sintagmática y progresión, se decidió incluir en el instrumento, previo a los textos
a analizar, una breve explicación de los mencionados conceptos, con el fin de facilitar a los periodistas la identificación de los fenómenos a que aludían las preguntas. Esto, porque se consideró posible que en su formación como profesionales,
no conocieran dichos fenómenos por su nombre técnico. Por otra parte, esto no
significa un esfuerzo de comprensión demasiado grande para los individuos, pues
los cuatro fenómenos se encuentran incluidos dentro de las competencias en producción de textos que un periodista debe desarrollar durante su formación de pregrado; pero al ser considerados dentro de un conjunto de competencias, cabía la
posibilidad de que no los manejaran por el nombre que se les da en lingüística.
4. PRESENTACIÓN DE RESULTADOS Y ANÁLISIS DE RESULTADOS
Debido a que la máquina evalúa los textos en una escala que va de 0 a 1, se transformaron las evaluaciones realizadas por los humanos (en escala de 1 a 7) a la escala utilizada por la máquina mediante la regla de tres simple. Para ambos resultados
se utilizaron dos decimales.
4.1. Análisis general de resultados
En la Tabla I se pueden ver los resultados asignados a cada uno de los seis textos
por la máquina, así como por los evaluadores humanos: profesores de español
especializados en lingüística y periodistas.
Tabla I: evaluaciones finales de los seis textos de la prueba.
Evaluador
Texto 1
Texto 2
Texto 3
Texto 4
Texto 5
Texto 6
Máquina
0,57
0,72
0,42
0,54
0,71
0,44
Periodistas
0,60
0,69
0,54
0,57
0,68
0,48
Prof. Esp.
0,66
0,76
0,76
0,70
0,79
0,63
El Gráfico 1 permite apreciar de una mejor forma los resultados presentados
en la tabla anterior. Se agregó al gráfico, para una mejor comprensión de los resultados, la evaluación etiquetada como humanos; dicha etiqueta corresponde al
promedio entre profesores de español especializados en lingüística y periodistas.
129
RLA. Revista de Lingüística Teórica y Aplicada, 48 (2), II Sem. 2010
Gráfico 1: Evaluaciones finales de los seis textos de la prueba.
Para comenzar el análisis de resultados hay que señalar que el hecho de obtener
evaluaciones idénticas entre la máquina y los evaluadores humanos nunca formó
parte de las metas del trabajo, sino que se pretendía observar si presentaban tendencias similares. Una segunda consideración previa es que, después de observar
los resultados antes expuestos, salta de inmediato a la vista del observador que el
llamado texto 3 se escapa a la tendencia general que arrojaron las mediciones realizadas. Por lo mismo, se efectuará un análisis detallado de ese caso específico más
adelante, una vez realizado el análisis general de los resultados de la experiencia.
Al comparar las mediciones realizadas por la máquina con las efectuadas por los
periodistas, el estadístico arroja que se correlacionan positivamente, que esta correlación es considerada como fuerte (ver Fernández Collado, Hernández Sampieri y
Baptista, 2003) y que, además, es significativa (r=.95, p=.003). A continuación se
presentan las evaluaciones de la máquina y los periodistas en el Gráfico 2.
Gráfico 2: Evaluaciones asignadas por la máquina y los periodistas.
130
฀
฀ ฀
฀
฀ ฀
฀
฀
฀
฀ ฀S. HERNÁNDEZ, A. FERREIRA
Como se puede ver en el Gráfico II, ambas líneas fluctúan de una forma similar
y cercana, exceptuando el caso del texto 3.
Si se comparan las mediciones realizadas por la máquina con las efectuadas por
los profesores de español, el estadístico también arroja una correlación positiva,
pero ésta disminuye considerablemente en relación a la comparación de la máquina con los periodistas, y sólo se la considera como una correlación positiva media.
Además, en este caso, la correlación no es significativa (r=.54, p=.26). A continuación se presenta el gráfico que compara el movimiento de ambas evaluaciones.
Gráfico 3: Evaluaciones asignadas por la máquina y los profesores de español.
El gráfico anterior muestra que hay una gran diferencia en el caso del texto 3.
Sin embargo, mirando con mayor atención es posible atisbar que, fuera de ese
caso, las líneas de evaluaciones siguen tendencias parecidas. Sin embargo, en el
caso del citado texto 3, la diferencia entre ambas evaluaciones es inmensa, aún
mayor, incluso, que en el caso de la comparación de la máquina con los periodistas. Lo anterior representa una alteración grande en el comportamiento de ambas
mediciones, que explica la baja correlación que se da entre las dos evaluaciones.
Por último, se presenta la comparación de las mediciones hechas por la máquina y por los humanos (promedio de las mediciones de periodistas y profesores
de español). En este caso, el estadístico también arroja que hay una correlación
positiva, que se interpreta como una correlación positiva considerable y, además,
es significativa (r=.85, p=.03). Los resultados se pueden ver en el Gráfico 4.
131
RLA. Revista de Lingüística Teórica y Aplicada, 48 (2), II Sem. 2010
Gráfico 4: Evaluaciones asignadas por la máquina y los humanos.
Con lo hasta aquí expuesto, la evidencia indica que la evaluación de coherencia
realizada por los periodistas es notablemente más cercana a la efectuada por la máquina, que la realizada por los profesores de español. Sin embargo, estos resultados
hay que tomarlos con cautela.
Si el problema se observa desde el punto de vista de que los periodistas son profesionales entrenados para producir el tipo de texto en cuestión –la noticia–, los
resultados no deberían sorprender. A esto hay que agregar que los periodistas no
sólo son expertos en la producción de textos noticiosos, sino que también, en muchas ocasiones, deben desempeñar la función de editar dichos textos, reparando,
entre otros problemas, la coherencia del texto. Como ya se dijo, vista así la situación, y asumiendo que el prototipo es eficaz prediciendo la coherencia gracias al
Análisis Semántico Latente, los resultados se ajustarían plenamente a lo esperado.
Pero también hay que considerar que, si bien el periodista es el experto en la
producción del tipo de texto en cuestión, el profesor de español con estudios de
postgrado en lingüística es un profesional mucho más preparado aún en el fenómeno específico en que se enfoca este trabajo: la coherencia textual. Por lo mismo,
el análisis hasta aquí hecho no es suficiente.
4.2. Análisis de resultados sin el texto 3
Con el objeto de poder clarificar el análisis de los datos obtenidos, es necesario
revisar la situación del texto cuya evaluación se comporta en forma diferente. En
la Tabla II se presentan los puntajes asignados por los evaluadores a dicho texto
en particular.
132
฀
฀ ฀
฀
฀ ฀
฀
฀
฀
฀ ฀S. HERNÁNDEZ, A. FERREIRA
Tabla II: evaluaciones asignadas al texto 3.
Evaluador
Texto 3
Máquina
0,42
Periodistas
0,54
Prof. Esp.
0,76
Si se toma como referente la evaluación del prototipo, se tiene que éste le
otorga un puntaje de coherencia de 0,42. De hecho, es el texto al que la máquina
asigna la evaluación más baja de todos los considerados en la prueba.
El grupo de periodistas evalúa en promedio el texto con un puntaje de 0,54; es
decir, le asigna 0,12 puntos más que el prototipo. Por su parte, los profesores de español le asignan al texto en cuestión una evaluación promedio de 0,76; esto es, le
otorgan 0,34 puntos más que la máquina. Lo anterior lo deja claramente como el
caso disonante de la experiencia y, por lo tanto, es necesario analizar qué ocurrió.
Para poder comprender cómo se originó el problema hay que atender a la
conformación del corpus de entrenamiento, en base al cual se construyó el espacio
semántico, a la luz del que se analizaron los textos de la prueba. Este corpus, como
ya se indicó, lo forman 1.505 textos y todos corresponden a noticias del dominio
denominado Periodismo Policial. Sin embargo, este dominio abarca temas diversos, como homicidios, violaciones, abusos sexuales, robos, hurtos, accidentes de
tránsito, tráfico de drogas, entre otros. Ahora bien, el texto en cuestión es una
noticia sobre un incendio. Por lo anterior, se revisó el corpus de entrenamiento
con el fin de establecer en cuántos textos aparecía alguna palabra que contuviera la forma lematizada incendi. El resultado fue que en 72 de los 1.505 textos
del corpus de entrenamiento se utilizaba alguna palabra que incluyera el lema en
cuestión. Expresado como porcentaje del total de los textos, 72 equivale al 4,78%.
Sin embargo, aún hay que realizar una distinción más, ya que de estos 72 textos,
43 correspondían al tema denominado en la prensa nacional como conflicto mapuche. Estos últimos textos tenían como tópico recurrente la quema de vehículos,
de casas ubicadas en fundos o el portar artefactos incendiarios; además, muchas
veces, simplemente aludían brevemente a un hecho anterior en que se utilizaba
una palabra que incluía el lema incendi, con el fin de contextualizar una nueva
noticia, que no se relacionaba con ningún tipo de incendio, sino que con alguna
otra arista del conflicto mapuche. Sin contar estos 43 textos, las noticias del corpus
que aluden a incendios en el sentido en que lo hace el texto 3, se reducen a sólo 29,
lo que representa el 1,92% del total de noticias del corpus.
Visto de esta forma el problema, y sin entrar a realizar más discriminaciones en
estos 29 textos, se observa que representa un porcentaje muy pequeño del total,
133
RLA. Revista de Lingüística Teórica y Aplicada, 48 (2), II Sem. 2010
por lo que las posibilidades de aprendizaje del prototipo sobre el tema se reducen
en forma considerable. Además, se presume que el hecho de que la mayoría de los
usos del lema incendi se dé en el contexto de noticias relacionadas con el conflicto
mapuche, provoca una distorsión en el aprendizaje del prototipo.
Con el fin de indagar sobre la exactitud de lo recién expresado, se procesaron
en el prototipo 30 textos, correspondientes a noticias pertenecientes al deporte
y a espectáculos, extraídas de los mismos medios de prensa desde los que se obtuvieron los textos que se utilizaron para construir el corpus de entrenamiento.
No se analizó previamente la coherencia de ninguno de estos textos, sino que
simplemente se dejó el juicio al prototipo. Las evaluaciones obtenidas oscilaron
desde 0,26 a 0,43, es decir, el prototipo calificó a todos los textos con un puntaje
de coherencia bajo. Estos resultados eran predecibles, pues como ya se señaló en
el punto sobre Análisis Semántico Latente, el método precisa para su correcto
funcionamiento operar dentro de un dominio temático restringido.
Sin embargo, con el fin de cotejar la pequeña prueba realizada, se tomó uno
de los textos sobre deportes, específicamente sobre fútbol, y se le pidió a un periodista deportivo, especializado en noticias escritas, que lo analizara. Para ello se
utilizó el mismo instrumento de medición que se empleó para los textos policiales,
cambiando los seis textos anteriores por la noticia sobre fútbol. A los resultados
obtenidos se les dio el mismo tratamiento que a los de la prueba realizada en las
noticias policiales, es decir, se transformaron mediante una regla de tres simple a
la escala que va de 0 a 1. La máquina evaluó la coherencia del texto con 0,27 y el
humano con 0,74.
Los resultados demuestran que las evaluaciones realizadas por el prototipo y
por el periodista deportivo son absolutamente diferentes; de hecho, presentan una
diferencia de 0,47 puntos. Por supuesto que la prueba recién expuesta no aspira de
ninguna forma a ser representativa, sino que sólo se realizó con el objeto de tener
más certeza sobre el punto de que el prototipo, y la técnica de Análisis Semántico
Latente que emplea, no funciona en forma correcta fuera del dominio en que se
enfoca, cuestión señalada por Foltz, Kintsch y Landauer (1998). De esta forma, se
puede explicar que el problema ocurrido con el texto 3 de la prueba sucede a causa
de la baja cantidad de noticias referidas al tema incendios en el corpus de entrenamiento y a la distorsión producida por el hecho de que más de la mitad de las
noticias sobre dicho tópico pertenecían a un único tema: el conflicto mapuche.
Al atender a los resultados de la prueba, sin considerar el texto 3, se obtiene:
฀
฀ ฀
฀ ฀ ฀
฀ ฀
฀
฀
฀
฀
฀
además, es significativa (r=.99, p=.001).
฀
฀ ฀
฀ ฀ ฀
฀ ฀
฀ ฀
฀ ฀
฀ ฀ güística hay una correlación positiva fuerte que, además, es significativa (r=.93,
p=.02).
134
฀
฀
฀ ฀
฀
฀ ฀
฀
฀ ฀
฀ ฀ ฀
฀ ฀
más, es significativa (r=.98, p=.002).
฀
฀
฀
฀ ฀S. HERNÁNDEZ, A. FERREIRA
฀
฀
฀
฀
-
Es decir, las correlaciones entre todas las parejas de evaluadores comparadas
mejoran, así como la significación de dichas correlaciones. Lo más llamativo es el
caso de los profesores de español, que al no considerarse las distorsiones producidas por el texto 3, pasan de una correlación positiva media que, además, no es
significativa (r=.54, p=.26), a una correlación positiva fuerte que sí es significativa
(r=.93, p=.02).
A continuación se presentan en un gráfico los resultados generales, sin considerar el texto 3. Nuevamente, se agregó al gráfico la evaluación etiquetada como
humanos, que corresponde al promedio entre profesores de español y periodistas.
Gráfico 5: Evaluaciones finales de los textos de la prueba, sin considerar el texto 3.
En el gráfico se puede ver con claridad cómo las cuatro líneas, sin ser plenamente coincidentes, fluctúan en forma análoga, lo que refleja el grado de acuerdo
que hay entre las evaluaciones realizadas por el prototipo y los humanos.
4.3. Valoración de los resultados
Una vez concluido el análisis de los resultados, se puede afirmar en relación al objetivo general de la investigación, que es “evaluar la coherencia de una noticia del
dominio policial en forma automática”, que este objetivo se logró.
En relación a la hipótesis de trabajo: “La evaluación automática de coherencia
textual, utilizando la técnica del Análisis Semántico Latente, es equivalente a la
evaluación humana en el dominio formado por las noticias policiales”, a la luz de
135
RLA. Revista de Lingüística Teórica y Aplicada, 48 (2), II Sem. 2010
los análisis realizados, se afirma que la hipótesis se sostiene. Esto pues, como ya se
demostró, la evaluación automática de coherencia textual utilizando la técnica del
Análisis Semántico Latente, es equivalente a la evaluación efectuada por humanos
en el dominio formado por las noticias policiales.
5. CONCLUSIONES
Al mirar en su conjunto el trabajo realizado, una de las primeras conclusiones que
surge es que al sostenerse la hipótesis de trabajo y cumplirse el objetivo general
de la investigación, se puede afirmar que la evaluación automática de coherencia
textual, utilizando la técnica del Análisis Semántico Latente, es equivalente a la
evaluación humana en el dominio formado por las noticias policiales. Esto abre la
posibilidad de abordar algunos puntos planteados en la definición del problema
que motivó la presente investigación. Por un lado, comprendiendo ya el funcionamiento del LSA, se puede sostener que el prototipo construido es eficaz no sólo en
el dominio de las noticias policiales, sino que creando nuevos modelos a partir de
corpus pertenecientes a otros dominios temáticos, podrían cubrirse otros campos
noticiosos como deporte, política o espectáculos, por nombrar sólo algunos. Lo
anterior, indudablemente, tiene una repercusión directa en la problemática que se
planteó al inicio, pues una herramienta basada en la técnica del Análisis Semántico
Latente sería un eficaz apoyo para mejorar los problemas de coherencia que se han
producido en los medios de prensa en la actualidad, debido a la automatización
del proceso de publicación, lo que ha llevado a la desaparición progresiva de la
figura del corrector de pruebas.
Un segundo punto destacable es que el prototipo construido fue desarrollado
con herramientas de software libre, que se encuentra a disposición de todo el
mundo en Internet, lo que implica que no se infringe ningún copyright para lograr
una máquina de este tipo. A esto hay que agregar que el prototipo podría ser utilizado en cualquier otro dominio temático, simplemente cambiando el corpus de
entrenamiento con el cual se construye el espacio semántico.
Una tercera idea que surge es la necesidad de perfeccionar el corpus de entrenamiento del prototipo. Este perfeccionamiento debiera ir en dos sentidos. El
primero de ellos es equilibrar el número de textos que tratan sobre los diferentes
temas incluidos dentro del dominio, esto con el fin de evitar a futuro lo ocurrido
con el denominado texto 3 utilizado en la experiencia. Es decir, por ejemplo, para
el caso específico del dominio utilizado en el presente trabajo, los textos sobre
homicidios, violaciones, abusos sexuales, atropellos, choques de vehículos, robos,
hurtos, entre otros, debieran estar presentes en porcentajes similares dentro del
corpus de entrenamiento. El segundo sentido en que se debiera perfeccionar dicho
corpus es un poco más obvio, y no es otro que aumentar la cantidad total de textos
136
฀
฀ ฀
฀
฀ ฀
฀
฀
฀
฀ ฀S. HERNÁNDEZ, A. FERREIRA
que lo componen. Es obvio por el hecho de que, como ya se indicó, el LSA precisa
para su óptimo funcionamiento de grandes corpus textuales y, mientras más textos
posea, más posibilidades de aprendizaje tiene el software de LSA.
Un cuarto aspecto a considerar, luego del trabajo realizado, es la posibilidad de
mejorar el script en que se basa el prototipo. Si bien el utilizado cumple a cabalidad
con lo que se propone, seguramente un profesional experto en informática podría
perfeccionarlo aún más, aumentando su eficiencia en tiempo de procesamiento
y consumo de recursos de la máquina en que opera. Por otro lado, es seguro que
hay lenguajes de programación que superan lo que el intérprete de órdenes bash
empleado es capaz de realizar. Por supuesto que lo anterior no pretende desmerecer en absoluto el trabajo realizado en el script que se construyó, pues el tiempo de
procesamiento de éste es de alrededor de 10 segundos y el consumo de recursos es
bajísimo; simplemente, lo que se señala, es la posibilidad de perfeccionarlo.
Otro punto que surge es la necesidad de indicar que el prototipo, en principio,
opera exclusivamente en un solo computador y que al ser un script no se puede
instalar de la forma habitual en otro equipo. Al decir forma habitual se alude a la
forma en que acostumbra a hacerlo un usuario de Windows: ejecutar un archivo
con extensión .exe y seguir las instrucciones en pantalla (se emplea el sistema operativo de Microsoft como ejemplo, ya que a diciembre de 2009 sus diferentes versiones de Windows se utilizan en el 88% de los computadores del mundo, según
las estadísticas de w3schools.com). Como ya se indicó, el script, corazón del prototipo, es, en palabras sencillas, un extenso conjunto de instrucciones para todos
los programas que se utilizan: lematizador, aplicación de LSA, editor de flujo de
texto, etc. Por lo anterior, para que funcionara en otro computador se requeriría
que en dicho equipo estuvieran instalados todos los programas utilizados y, muchos de ellos, sólo corren en Linux. Sin embargo, es posible habilitar el prototipo
en un servidor basado en Linux y conectarse a él en forma remota, ya sea a través
de Internet o de una intranet. Para esto no es necesario que el computador desde
el que se conecten tenga instalado Linux, de hecho serviría cualquier computador
con Windows, por ejemplo, con el único requisito que tenga conexión a Internet
(o a una intranet en la que esté el servidor). Por supuesto que el procedimiento sería el mismo que seguiría alguien que estuviera frente al computador en que opera
el prototipo, esto es colocar el texto a analizar en el archivo llamado texto_entrada
y ejecutar el script. Lo anterior con la dificultad adicional de que todo esto debe
ser realizado mediante comandos de texto ingresados desde una terminal remota
(en Windows se puede emular la terminal en forma remota mediante un software
como Putty). Sin embargo, el procedimiento se podría simplificar considerablemente si la interacción con el servidor que alberga el prototipo se realizara a través
de una interfaz amigable, como puede ser una página web especialmente habilitada para ello. En ésta se podría incluir un campo de formulario para ingresar el
texto a analizar y un botón que, al ser presionado por el usuario, desencadenara
137
RLA. Revista de Lingüística Teórica y Aplicada, 48 (2), II Sem. 2010
una orden que le indique al servidor que dicho texto lo guarde en un archivo
llamado texto_entrada y luego que ejecute el script. Finalmente podría mostrar la
salida, es decir, la evaluación de coherencia resultante dentro de la misma página.
Incluso, yendo un poco más allá, se podría incluir –teniendo los scripts necesarios
para ello–, la posibilidad de que el usuario elija el tipo de segmentación a utilizar,
por ejemplo: oraciones o párrafos.
REFERENCIAS
Álvarez, Gerardo. 1995. Textos y discursos. Tercera edición. Concepción: Universidad de Concepción.
Boonthum, C., Levinstein, I., & McNamara, D.S. 2007. “Evaluating self-explanations in iSTART: Word matching, latent semantic analysis, and topic
models”. En A. Kao & S. Poteet (Eds.) Natural Language Processing and Text
Mining. Londres: Springer-Verlag UK, pp. 91-106.
Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., y Harshman, R.
1990. “Indexing by Latent Semantic Analysis”, en Journal of the American Society For Information Science, 41, pp. 391-407. Citado en Venegas, René. 2003.
“Análisis Semántico Latente: una panorámica de su desarrollo”, en Revista Signos, vol. 36, N° 53, pp. 121-138. ISSN 0718-0934.
De Vega, Manuel; Díaz, José Miguel y León, Inmaculada. 1999. “Procesamiento
del discurso”. En Cuetos, Fernando y De Vega, Manuel (compiladores) Psicolingüística del español. España: Trotta, pp. 273.
฀
฀
฀
฀
฀
฀
฀ ฀
฀
฀
฀
฀
฀
฀
฀
฀
฀ ฀
฀
฀
Fernández Collado, C., Hernández Sampieri, R. y Baptista, P. 2003. Metodología
de la investigación. México: McGraw-Hill Interamericana.
Foltz, P., Kintsch, W. y Landauer, T. 1998. The measurement of textual coherence
฀
฀
฀
฀ ฀
฀
฀ ฀
฀
฀
Franco, Guillermo. 2008. Cómo escribir para la Web. University of Texas: Knight
Center of Journalism.
Free Software Foundation. 2010. The free software definition. [En línea] Disponi฀ ฀
฀
฀
Jurafsky, Daniel y Martin, James. 2008. Speech and language processing, 2ª edición.
USA: Prentice Hall, pp. 683, 689.
Landauer, T. 2002. On the computational basis of learning and cognition: Ar138
฀
฀ ฀
฀
฀ ฀
฀
฀
฀
฀ ฀S. HERNÁNDEZ, A. FERREIRA
฀
฀
฀ ฀
฀
฀ ฀
Ross-final-submit.pdf [Consulta: 12-09-2008].
Landauer, T.; Foltz, P. y Laham, D. 1998. “An Introduction to Latent Semantic
Analysis. Discourse Processes”. Citado en Venegas, René. 2003. “Análisis Semántico Latente: una panorámica de su desarrollo”, en Revista Signos, vol. 36,
N° 53, pp. 121-138. ISSN 0718-0934.
Leñero, Vicente y Marín, Carlos. 1986. Manual de periodismo. México: Editorial
Grijalbo.
Martínez Albertos, José Luis. 2004. Curso general de redacción periodística, 5ª edición, 3ª reimpresión. Madrid, España: Editorial Paraninfo.
McCarthy, P.M., Briner, S.W., Rus, V., & McNamara, D.S. 2007. “Textual signatures: Identifying text-types using latent semantic analysis to measure the
cohesion of text structures”. En A. Kao, & S. Poteet (Eds.) Natural language
processing and text mining. Londres: Springer-Verlag, pp. 107-122.
Singer, Murray y Zwaan, Rolf. 2003. Text comprehension. En Graesser, Arthur;
Gernsbacher, Morton Ann y Goldman, Susan (compiladores) Handbook of discourse processes. Mahwah, USA: Lawrence Erlbaum Associates.
Venegas, René. 2003. “Análisis semántico latente: una panorámica de su desarrollo”. Revista Signos, vol. 36, N° 53, pp. 121-138. ISSN 0718-0934.
139
Descargar