Detección Automática de Plagio usando Secuencias Comunes Maximales José Fernando Sánchez Vega, Luis Villaseñor Pineda y Manuel Montes y Gómez Coordinación de Ciencias Computacionales {fer.callotl, villasen, mmontesg}@inaoep.mx Resumen En el presente artículo se expone un método de detección de plagio como un problema de clasificación de textos. La idea consiste en cuantificar las secuencias de palabras que comparten (o no comparten) el documento del cual se sospecha contiene plagio y un conjunto de documentos fuente. Para esto, se observan las secuencias comunes y las secuencias no traslapadas (aquellas secuencias que separan a las secuencias comunes maximales). El trabajo describe el método propuesto así como los resultados alcanzados en una colección específica. I. Introducción Dada las limitaciones actuales en el procesamiento del lenguaje natural, aún resulta imposible considerar que la máquina haya algún entienda las ideas expresadas en los textos; por ello, la detección computacional del plagio es modelada como la detección de la reutilización de texto. La reutilización de texto no sólo considera párrafos copiados literalmente, también comprende textos que presentan modificaciones: párrafos o fragmentos que fueron utilizados parcialmente, cambiando, eliminando o reordenando palabras u oraciones. El enfoque de la tarea de Detección Automática de Plagio (DAP) utilizado en este trabajo es el llamado extrínseco; éste contempla la existencia de dos conjuntos de documentos: los documentos sospechosos de haber cometido plagio (que deberán de ser clasificados en la DAP como los casos que realmente tienen plagio o los que no lo tienen) y el conjunto de documentos originales que contiene las fuentes tentativas de donde se ha extraído la información plagiada. La DAP sólo contempla encontrar los documentos o fragmentos que tienen alta reutilización de texto y que por ello los considera como posibles casos de plagio. Los sistemas actuales de DAP son de asistencia para determinar el plagio; aún no constituyen sistemas que puedan operar de forma autónoma en condiciones reales. La gran mayoría de los métodos existentes no verifican si la reutilización del texto fue citada correctamente. II. Trabajo relacionado La división de los documentos sospechosos (en los posibles casos de plagio y los que no contienen plagio) se puede ver como un problema de clasificación de textos, como los hace [1] en su baseline, en donde toma un esquema de clasificación con una representación de bolsa de palabras y utiliza un clasificador Bayesiano; lamentablemente este esquema tiene una pésima eficiencia. También basado en las bolsas de palabras, está el método propuesto en [2] que utiliza elaboradas mezclas de las técnicas de clasificación y agrupamiento de texto. La deficiencia de los métodos tradicionales de clasificación ha motivado la utilización de métodos más complejos. Debido a la naturaleza del problema resulta necesario introducir información del orden de las palabras, pues el plagio mantendrá cohesionados ciertos fragmentos. Para introducir las cohesiones de las palabras en [1, 3, 4] se utilizaron secuencias de tamaño fijo conocidas como n-gramas. Se han utilizado técnicas que consideran el orden de las palabras tomadas de otras tareas, como la traducción: en [1] el alineamiento de oraciones (normalmente utilizado en escenarios translingües) y el Greedy String-Tiling son usados para poder determinar coincidencias secuenciales de fragmentos del texto sospechoso en algún documento fuente. Los métodos en [4] tienen enfoques que esperan que las coincidencias aparezcan manteniendo el mismo orden entre las Figura 1. Se presenta un ejemplo de cómo se calcula el vector de atributos a partir de una presunta fuente y un sospechoso; se muestran los listados de todos los SC, SCM y de las secuencias que separan a los SCM tanto en el sospechoso como en la fuente. Para el vector se escogió un PCC igual a 4, por lo que, como se muestra las secuencias de tamaño igual o mayor que 4, se ingresa al vector el tamaño de la secuencia. partes de donde se extrae el plagio y de donde es reutilizado dicho texto (es decir que el plagiario extrae el plagio conforme va leyendo sin intercalar otros pasajes plagiados), lo cual no siempre será cierto, pues en el plagio se puede cambiar el orden de las oraciones plagiadas o tomar varias oraciones de diversas partes del texto y utilizarlas sin necesariamente mantener el orden en que aparecían en el original. Esto es uno de los problemas que pretende atender el método propuesto al utilizar todas las intersecciones entre el sospechoso y la presunta fuente. III. El método A diferencia de los métodos basados en n-gramas, se consideró utilizar todas las intersecciones entre el documento sospechoso y la presunta fuente del plagio; en el método propuesto todas las intersecciones, sin importar el tamaño, son consideradas como secuencias, conformando las secuencias comunes (SC). Las SC deben ser incorporadas al método según su tamaño, pues es probable que un caso de plagio contenga grandes SC, y las SC pequeñas pueden ser en su gran mayoría identidades nombradas comunes que sólo indicarían cercanía temática. Para mantener esta diferenciación entre los tamaños, cada tamaño de secuencia es un atributo cuyo valor es el número de SC de ese tamaño encontradas entre los documentos, como lo muestra la Figura 1. La cantidad de atributos debe de ser finita, por tanto el número de atributos dedicados a un tamaño específico se determina usando un punto de corte de consideración (PCC); las cadenas con tamaños menores al PCC se introducirán en atributos específicos según su dimensión. Para el resto de las SC que superen el PCC existe un atributo que constituye la representación de todas las secuencias de tamaño mayor o igual y cuyo valor es la suma de las longitudes. Para aumentar la eficiencia del método se utilizaron las secuencias comunes maximales (SCM). Las SCM son las secuencias que no son subsecuencia de otra SC; esto se consideró, pues las SC que no son buen argumento para indicar el plagio, como las identidades nombradas o secuencias de uso común serán, en su mayoría, absorbidas por las secuencias maximales más grandes que las contengan. Se introdujo un pesado de cada secuencia común, para que, al integrarla al vector de atributos, se ponderara la secuencia mediante la razón del tamaño de la cadena con respecto al tamaño del documento (nombrado en adelante pesado RT), como se muestra en la ecuación (1), esperando que esto denotara la importancia (en tamaño) de las secuencias comunes encontradas. (1) Para medir la cohesión entre las SCM, se agregó al método el conteo de las palabras entre cada SCM. Esta medición permite saber la densidad de las SCM. Las mediciones son incluidas en los atributos de la misma manera que fueron integradas las secuencias comunes, considerando su tamaño; también se les aplicó el mismo pesado que las secuencias comunes. La medición de densidad de las SCM se puede hacer tanto en el documento sospechoso como en el documento fuente (figura 1). La densidad, en el documento sospechoso, indica qué tan focalizas están las secuencias presuntamente plagiadas, y en el documento fuente, indica si las secuencias presuntamente plagiadas se encuentran en alguna parte en particular del documento o si los fragmentos utilizados están en varias partes de la fuente. La unión de todos los atributos (SC, SCM y densidad de los SCM con y sin pesado RT) que describen la relación entre documento sospechosoconjunto de posibles fuentes son proporcionados a un clasificador (Naive Bayes o SVM) para determinar su categoría. IV. Experimentos Los experimentos fueron realizados en un corpus dedicado especialmente a la tarea de la DAP, el cual cuenta con casi mil documentos sospechosos y cada sospechoso tiene su propio conjunto de documentos fuentes; el documento sospechoso y su conjunto de fuentes son temáticamente muy cercanos. El corpus está etiquetado manualmente en tres categorías: no derivado, parcialmente derivado y totalmente derivado; se han mantenido estas tres categorías (aunque tanto parcialmente derivado como totalmente derivado constituirían casos de plagio) para obtener resultados comparables con los trabajos previos. Las categorías, parcialmente derivado y totalmente derivado, indican que es derivado de al menos un documento en el conjunto de fuentes, sin importar cuántos o cuáles; para el cálculo de las SC y de los conteos entre las SCM se tomaron todas las fuentes como si fuera un único documento fuente: las SCM no son subsecuencias de ninguna SC de ninguno de los documentos fuentes del sospechoso; y los conteos de las distancias entre las SCM en las fuentes son la suma de los conteos de cada documento fuente. Gráfica 1. Aquí se muestra la ganacia de información de los atributos cuando se consideraba un límite de longitud o PCC igual a 61 y cuando se seleccionó igual a 6. Para fijar el PCC se extrajeron todas la SCM de un 10% del corpus; la secuencia de mayor tamaño fue de 92 y la segunda mayor de 60, ambas con una única ocurrencia; debido a que la cantidad de secuencias de tamaño mayor que 60 era prácticamente nulo en el 10% del corpus, se realizó un primer PCC igual a 61 y se procesó el corpus completo. Se calculó la ganancia de información sobre los 61 atributos. La gráfica 1 muestra que sólo los primeros 6 tuvieron ganancias significativas; la séptima con mayor ganancia de información fue un salto hasta las SCM de tamaño 12, lo cual debe tratarse de alguna singularidad del corpus. Finalmente se fijó el PCD igual a 7, dejando 7 atributos para cada tipo de secuencia. Se realizaron 5 experimentos: el primero fue utilizando únicamente los 7 atributos de las secuencias comunes (SC) y el segundo utilizando las secuencias comunes maximales (SCM); en el tercer experimento se utilizaron los atributos de las SC, SCM y los atributos de las densidades de las SCM en el documento sospechoso, mientras que en el cuarto experimento se utilizaron densidades de las SCM en las fuentes; el quinto experimento utilizó los atributos de las SC, SCM y las densidades en ambos (fuentes y sospechoso); se le aumentó una réplica de todos los atributos pesándolos con la ecuación de la razón de tamaños (ecuación 1). En el mismo quinto experimento se utilizaron los atributos con el conteo de secuencias y los atributos con el pesado como unión de conjuntos diferentes de atributos debido a que por sí solos no aumentaban el desempeño de la DAP. En los experimentos, se utilizó el clasificador Naive Bayes, ya que es el clasificador que ha mostrado ser el mejor para esta tarea [1]. Para la evaluación se usó validación cruzada con 10 pliegues, y el promedio de las F-Mesure de cada clase fue la medida de eficiencia tomada, pues nos proporciona un desempeño global independiente de la cantidad de instancias de cada clase. V. Resultados La comparación de los experimentos 1° y 2° en la gráfica 2 muestra el aumento de la eficiencia al utilizar las SCM en vez de las todas las secuencias comunes. Los experimentos 3° y 4° mostraron que la incorporación de la información de la densidad de las SCM de los sospechosos da buen resultado, pero la incorporación de la densidad de las SCM de las fuentes degrada el rendimiento. El 5° experimento demostró que el pesado de la razón de tamaños proporciona información que aumenta rendimiento en la DAP. VI. Conclusiones En el presente trabajo se demostró que las SC funcionan mejor si se selecciona el subconjunto maximal, es decir, las SCM. También se encontró que la información acerca de la densidad de las SCM en el documento sospechoso proporciona evidencia al clasificador bayesiano para tomar una mejor decisión; pero la densidad de las SCM en las fuentes no proporciona información importante para la DAP. La eficacia aumentó al proporcionarle al sistema una versión de los atributos con el pesado de la razón del tamaño, pero no pudo sustituir al vector de atributos originales, lo que hace pesar que este pesado esconde información contenida en los atributos originales; esto marca una pauta para seguir trabajando con pesados que incorporen esta clase de información importante sin esconder la información ya obtenida. A diferencia de otras propuestas, donde se promueve el empleo o mezcla de diferentes técnicas exitosas en otras tareas, el método expuesto en este artículo constituye una propuesta concebida para atacar directamente el problema de la DAP, obteniendo resultados comparables a los de las otras técnicas. Agradecimientos Agradezco al CONACyT el apoyo otorgado a través de la Beca para estudios de Maestría # 258345. Referencias Gráfica 2. Se muestras las eficiencias de los métodos propuestos (1-6) y los métodos ya existentes en la literatura (7-9). En la gráfica 2 también se incluyeron algunos de los esfuerzos ya realizados por otros autores que emplearon técnicas de otros dominios a la DAP. De los métodos propuestos, el método con la descripción más completa de los documentos (cuando se usan todos los subconjuntos de atributos) obtiene eficacias semejantes o superiores a los esfuerzos ya realizados. [1] Clough,P., Gaizauskas, R., S.L. Piao S. y Wilks Y. “METER: MEasuring TExt Reuse”, proceedings of the 40th Anniversary Meeting for the Association for Computational Linguistics (ACL-02), 7-12 July 2002, University of Pennsylvania, Philadelphia, USA, pp.152-159. [2] Muhr, M., Zechner, M., Kern, R., y Granitzer, M. 2009. “External and Intrinsic Plagiarism Detection Using Vector Space Models.”, proceedings of 3rd PAN WORKSHOP. UNCOVERING PLAGIARISM, AUTHORSHIP AND SOCIAL SOFTWARE MISUS, 2009, pp. 47- 55. [3] Barrón-Cedeño, A. y Rosso, P., “On Automatic Plagiarism Detection Based on n-Grams Comparison”, ECIR 2009, LNCS 5478, 2009, pp. 696–700. [4] Grozea, C., Gehl, C., Popescu, M., “ENCOPLOT: Pairwise Sequence Matching in Linear Time Applied to Plagiarism Detection”, proceedings of 3rd PAN WORKSHOP. UNCOVERING PLAGIARISM, AUTHORSHIP AND SOCIAL SOFTWARE MISUS, 2009, pp. 10-18.