Detección Automática de Plagio usando Secuencias Comunes

Anuncio
Detección Automática de Plagio usando Secuencias Comunes Maximales
José Fernando Sánchez Vega, Luis Villaseñor Pineda
y Manuel Montes y Gómez
Coordinación de Ciencias Computacionales
{fer.callotl, villasen, mmontesg}@inaoep.mx
Resumen
En el presente artículo se expone un método de
detección de plagio como un problema de
clasificación de textos. La idea consiste en
cuantificar las secuencias de palabras que
comparten (o no comparten) el documento del
cual se sospecha contiene plagio y un conjunto de
documentos fuente. Para esto, se observan las
secuencias comunes y las secuencias no
traslapadas (aquellas secuencias que separan a las
secuencias comunes maximales). El trabajo
describe el método propuesto así como los
resultados alcanzados en una colección específica.
I. Introducción
Dada las limitaciones actuales en el procesamiento
del lenguaje natural, aún resulta imposible
considerar que la máquina haya algún entienda las
ideas expresadas en los textos; por ello, la
detección computacional del plagio es modelada
como la detección de la reutilización de texto.
La reutilización de texto no sólo
considera párrafos copiados literalmente, también
comprende textos que presentan modificaciones:
párrafos o fragmentos que fueron utilizados
parcialmente,
cambiando,
eliminando
o
reordenando palabras u oraciones.
El enfoque de la tarea de Detección Automática de
Plagio (DAP) utilizado en este trabajo es el llamado
extrínseco; éste contempla la existencia de dos
conjuntos de documentos: los documentos
sospechosos de haber cometido plagio (que
deberán de ser clasificados en la DAP como los
casos que realmente tienen plagio o los que no lo
tienen) y el conjunto de documentos originales
que contiene las fuentes tentativas de donde se ha
extraído la información plagiada.
La DAP sólo contempla encontrar los
documentos o fragmentos que tienen alta
reutilización de texto y que por ello los considera
como posibles casos de plagio. Los sistemas
actuales de DAP son de asistencia para determinar
el plagio; aún no constituyen sistemas que puedan
operar de forma autónoma en condiciones reales.
La gran mayoría de los métodos existentes no
verifican si la reutilización del texto fue citada
correctamente.
II. Trabajo relacionado
La división de los documentos sospechosos (en los
posibles casos de plagio y los que no contienen
plagio) se puede ver como un problema de
clasificación de textos, como los hace [1] en su
baseline, en donde toma un esquema de
clasificación con una representación de bolsa de
palabras y utiliza un clasificador Bayesiano;
lamentablemente este esquema tiene una pésima
eficiencia. También basado en las bolsas de
palabras, está el método propuesto en [2] que
utiliza elaboradas mezclas de las técnicas de
clasificación y agrupamiento de texto. La
deficiencia de los métodos tradicionales de
clasificación ha motivado la utilización de
métodos más complejos.
Debido a la naturaleza del problema
resulta necesario introducir información del orden
de las palabras, pues el plagio mantendrá
cohesionados ciertos fragmentos. Para introducir
las cohesiones de las palabras en [1, 3, 4] se
utilizaron secuencias de tamaño fijo conocidas
como n-gramas.
Se han utilizado técnicas que consideran
el orden de las palabras tomadas de otras tareas,
como la traducción: en [1] el alineamiento de
oraciones (normalmente utilizado en escenarios
translingües) y el Greedy String-Tiling son usados
para poder determinar coincidencias secuenciales
de fragmentos del texto sospechoso en algún
documento fuente. Los métodos en [4] tienen
enfoques que esperan que las coincidencias
aparezcan manteniendo el mismo orden entre las
Figura 1. Se presenta un ejemplo de cómo se calcula el vector de atributos a partir de una presunta fuente y un sospechoso; se muestran los listados de todos
los SC, SCM y de las secuencias que separan a los SCM tanto en el sospechoso como en la fuente. Para el vector se escogió un PCC igual a 4, por lo que,
como se muestra las secuencias de tamaño igual o mayor que 4, se ingresa al vector el tamaño de la secuencia.
partes de donde se extrae el plagio y de donde es
reutilizado dicho texto (es decir que el plagiario
extrae el plagio conforme va leyendo sin intercalar
otros pasajes plagiados), lo cual no siempre será
cierto, pues en el plagio se puede cambiar el orden
de las oraciones plagiadas o tomar varias
oraciones de diversas partes del texto y utilizarlas
sin necesariamente mantener el orden en que
aparecían en el original. Esto es uno de los
problemas que pretende atender el método
propuesto al utilizar todas las intersecciones entre
el sospechoso y la presunta fuente.
III. El método
A diferencia de los métodos basados en n-gramas,
se consideró utilizar todas las intersecciones entre
el documento sospechoso y la presunta fuente del
plagio; en el método propuesto todas las
intersecciones, sin importar el tamaño, son
consideradas como secuencias, conformando las
secuencias comunes (SC).
Las SC deben ser incorporadas al método
según su tamaño, pues es probable que un caso de
plagio contenga grandes SC, y las SC pequeñas
pueden ser en su gran mayoría identidades
nombradas comunes que sólo indicarían cercanía
temática. Para mantener esta diferenciación entre
los tamaños, cada tamaño de secuencia es un
atributo cuyo valor es el número de SC de ese
tamaño encontradas entre los documentos, como
lo muestra la Figura 1.
La cantidad de atributos debe de ser
finita, por tanto el número de atributos dedicados a
un tamaño específico se determina usando un
punto de corte de consideración (PCC); las cadenas
con tamaños menores al PCC se introducirán en
atributos específicos según su dimensión. Para el
resto de las SC que superen el PCC existe un
atributo que constituye la representación de todas
las secuencias de tamaño mayor o igual y cuyo
valor es la suma de las longitudes.
Para aumentar la eficiencia del método se
utilizaron las secuencias comunes maximales
(SCM). Las SCM son las secuencias que no son
subsecuencia de otra SC; esto se consideró, pues
las SC que no son buen argumento para indicar el
plagio, como las identidades nombradas o
secuencias de uso común serán, en su mayoría,
absorbidas por las secuencias maximales más
grandes que las contengan.
Se introdujo un pesado de cada secuencia común,
para que, al integrarla al vector de atributos, se
ponderara la secuencia mediante la razón del
tamaño de la cadena con respecto al tamaño del
documento (nombrado en adelante pesado RT),
como se muestra en la ecuación (1), esperando que
esto denotara la importancia (en tamaño) de las
secuencias comunes encontradas.
(1)
Para medir la cohesión entre las SCM, se agregó al
método el conteo de las palabras entre cada SCM.
Esta medición permite saber la densidad de las
SCM. Las mediciones son incluidas en los atributos
de la misma manera que fueron integradas las
secuencias comunes, considerando su tamaño;
también se les aplicó el mismo pesado que las
secuencias comunes.
La medición de densidad de las SCM se
puede hacer tanto en el documento sospechoso
como en el documento fuente (figura 1).
La densidad, en el documento
sospechoso, indica qué tan focalizas están las
secuencias presuntamente plagiadas, y en el
documento fuente, indica si las secuencias
presuntamente plagiadas se encuentran en alguna
parte en particular del documento o si los
fragmentos utilizados están en varias partes de la
fuente.
La unión de todos los atributos (SC, SCM
y densidad de los SCM con y sin pesado RT) que
describen la relación entre documento sospechosoconjunto de posibles fuentes son proporcionados a
un clasificador (Naive Bayes o SVM) para
determinar su categoría.
IV. Experimentos
Los experimentos fueron realizados en un corpus
dedicado especialmente a la tarea de la DAP, el
cual cuenta con casi mil documentos sospechosos
y cada sospechoso tiene su propio conjunto de
documentos fuentes; el documento sospechoso y
su conjunto de fuentes son temáticamente muy
cercanos. El corpus está etiquetado manualmente
en tres categorías: no derivado, parcialmente
derivado y totalmente derivado; se han mantenido
estas tres categorías (aunque tanto parcialmente
derivado como totalmente derivado constituirían
casos de plagio) para obtener resultados
comparables con los trabajos previos.
Las categorías, parcialmente derivado y totalmente
derivado, indican que es derivado de al menos un
documento en el conjunto de fuentes, sin importar
cuántos o cuáles; para el cálculo de las SC y de los
conteos entre las SCM se tomaron todas las
fuentes como si fuera un único documento fuente:
las SCM no son subsecuencias de ninguna SC de
ninguno de los documentos fuentes del
sospechoso; y los conteos de las distancias entre
las SCM en las fuentes son la suma de los conteos
de cada documento fuente.
Gráfica 1. Aquí se muestra la ganacia de información de los atributos
cuando se consideraba un límite de longitud o PCC igual a 61 y cuando
se seleccionó igual a 6.
Para fijar el PCC se extrajeron todas la SCM de un
10% del corpus; la secuencia de mayor tamaño fue
de 92 y la segunda mayor de 60, ambas con una
única ocurrencia; debido a que la cantidad de
secuencias de tamaño mayor que 60 era
prácticamente nulo en el 10% del corpus, se realizó
un primer PCC igual a 61 y se procesó el corpus
completo. Se calculó la ganancia de información
sobre los 61 atributos. La gráfica 1 muestra que
sólo los primeros 6 tuvieron ganancias
significativas; la séptima con mayor ganancia de
información fue un salto hasta las SCM de tamaño
12, lo cual debe tratarse de alguna singularidad del
corpus. Finalmente se fijó el PCD igual a 7,
dejando 7 atributos para cada tipo de secuencia.
Se realizaron 5 experimentos: el primero fue
utilizando únicamente los 7 atributos de las
secuencias comunes (SC) y el segundo utilizando
las secuencias comunes maximales (SCM); en el
tercer experimento se utilizaron los atributos de
las SC, SCM y los atributos de las densidades de las
SCM en el documento sospechoso, mientras que en
el cuarto experimento se utilizaron densidades de
las SCM en las fuentes; el quinto experimento
utilizó los atributos de las SC, SCM y las
densidades en ambos (fuentes y sospechoso); se le
aumentó una réplica de todos los atributos
pesándolos con la ecuación de la razón de tamaños
(ecuación 1).
En el mismo quinto experimento se
utilizaron los atributos con el conteo de secuencias
y los atributos con el pesado como unión de
conjuntos diferentes de atributos debido a que por
sí solos no aumentaban el desempeño de la DAP.
En los experimentos, se utilizó el
clasificador Naive Bayes, ya que es el clasificador
que ha mostrado ser el mejor para esta tarea [1].
Para la evaluación se usó validación cruzada con
10 pliegues, y el promedio de las F-Mesure de
cada clase fue la medida de eficiencia tomada,
pues nos proporciona un desempeño global
independiente de la cantidad de instancias de cada
clase.
V. Resultados
La comparación de los experimentos 1° y 2° en la
gráfica 2 muestra el aumento de la eficiencia al
utilizar las SCM en vez de las todas las secuencias
comunes.
Los experimentos 3° y 4° mostraron que la
incorporación de la información de la densidad de
las SCM de los sospechosos da buen resultado,
pero la incorporación de la densidad de las SCM de
las fuentes degrada el rendimiento.
El 5° experimento demostró que el pesado
de la razón de tamaños proporciona información
que aumenta rendimiento en la DAP.
VI. Conclusiones
En el presente trabajo se demostró que las SC
funcionan mejor si se selecciona el subconjunto
maximal, es decir, las SCM.
También se encontró que la información
acerca de la densidad de las SCM en el documento
sospechoso proporciona evidencia al clasificador
bayesiano para tomar una mejor decisión; pero la
densidad de las SCM en las fuentes no proporciona
información importante para la DAP.
La eficacia aumentó al proporcionarle al
sistema una versión de los atributos con el pesado
de la razón del tamaño, pero no pudo sustituir al
vector de atributos originales, lo que hace pesar
que este pesado esconde información contenida en
los atributos originales; esto marca una pauta para
seguir trabajando con pesados que incorporen esta
clase de información importante sin esconder la
información ya obtenida.
A diferencia de otras propuestas, donde se
promueve el empleo o mezcla de diferentes
técnicas exitosas en otras tareas, el método
expuesto en este artículo constituye una propuesta
concebida para atacar directamente el problema de
la DAP, obteniendo resultados comparables a los de
las otras técnicas.
Agradecimientos
Agradezco al CONACyT el apoyo otorgado a través
de la Beca para estudios de Maestría # 258345.
Referencias
Gráfica 2. Se muestras las eficiencias de los métodos propuestos (1-6) y
los métodos ya existentes en la literatura (7-9).
En la gráfica 2 también se incluyeron algunos de
los esfuerzos ya realizados por otros autores que
emplearon técnicas de otros dominios a la DAP. De
los métodos propuestos, el método con la
descripción más completa de los documentos
(cuando se usan todos los subconjuntos de
atributos) obtiene eficacias semejantes o
superiores a los esfuerzos ya realizados.
[1] Clough,P., Gaizauskas, R., S.L. Piao S. y Wilks Y. “METER:
MEasuring TExt Reuse”, proceedings of the 40th Anniversary Meeting
for the Association for Computational Linguistics (ACL-02), 7-12 July
2002, University of Pennsylvania, Philadelphia, USA, pp.152-159.
[2] Muhr, M., Zechner, M., Kern, R., y Granitzer, M. 2009. “External
and Intrinsic Plagiarism Detection Using Vector Space Models.”,
proceedings
of
3rd
PAN
WORKSHOP.
UNCOVERING
PLAGIARISM, AUTHORSHIP AND SOCIAL SOFTWARE MISUS,
2009, pp. 47- 55.
[3] Barrón-Cedeño, A. y Rosso, P., “On Automatic Plagiarism Detection
Based on n-Grams Comparison”, ECIR 2009, LNCS 5478, 2009, pp.
696–700.
[4] Grozea, C., Gehl, C., Popescu, M., “ENCOPLOT: Pairwise
Sequence Matching in Linear Time Applied to Plagiarism Detection”,
proceedings
of
3rd
PAN
WORKSHOP.
UNCOVERING
PLAGIARISM, AUTHORSHIP AND SOCIAL SOFTWARE MISUS,
2009, pp. 10-18.
Descargar