Clasificación de preguntas sin respuesta: la retórica de Twitter

Clasificación de preguntas sin respuesta: la retórica de Twitter David Tomás* Departamento de Lenguajes y Sistemas Informáticos Universidad de Alicante, España [email protected] Resumen Debido a la velocidad con la que se propaga la información en Twitter, son numerosos los usuarios que utilizan esta red social para formular preguntas. Este contexto resulta propicio para plantear un cambio de paradigma en el desarrollo de sistemas de búsqueda de respuestas, haciendo que éstos no sólo sean capaces de responder a las consultas de los usuarios, sino también de detectar cuándo un usuario tiene una necesidad de información para acudir en su ayuda. Detectar ésta necesidad de información en Twitter no es trivial, ya que en numerosas ocasiones la gente emplea en sus mensajes interrogaciones retóricas que no requieren de una respuesta. En este trabajo se ha desarrollado un clasificador basado en aprendizaje automático para discriminar entre preguntas reales y retóricas en Twitter, como un primer paso para la creación de sistemas de búsqueda de respuestas que sean capaces de detectar cuándo un usuario realiza una petición real de información. Keywords: Recuperación de información, búsqueda de respuestas, clasificación de preguntas, preguntas retóricas, redes sociales, Twitter 1. Introducción Las redes sociales han adquirido una relevancia indiscutible en el panorama actual de Internet. Millones de personas se conectan y vinculan a diario en estas redes para verter en ellas contenidos, ideas, noticias y opiniones. Los usuarios de Internet han pasado de ser meros consumidores de información a convertirse en participantes activos y motores de la red. Twitter1 es una de las principales redes sociales, con más de 140 millones de usuarios que generan 340 millones de mensajes diarios [8]. Esta red ofrece un servicio de microblogging que permite a sus miembros enviar y leer mensajes de texto (conocidos como tweets) de un máximo de 140 caracteres. Esta restricción en el tamaño de los mensajes y la facilidad de propagación entre sus usuarios la han convertido en una fuente intestimable de información en tiempo real. * 1 Este trabajo ha sido financiado por el Gobierno Español a través del proyecto TEXTMESS 2.0 (TIN2009-13391-C04-01), por la Universidad de Alicante (GRE10-33) y por la Generalitat Valenciana (GV/2012/110). http://www.twitter.com/. Es precisamente esta inmediatez con la que se propagan los mensajes la que hace que muchos usuarios utilicen Twitter como foro para plantear sus dudas y consultas, en lugar de recurrir a sistemas de recuperación de información en la Web como Google2 o a sitios sociales de búsqueda de respuestas como Yahoo! Answers.3 Este panorama nos ofrece la posibilidad de plantear un nuevo paradigma para el desarrollo de sistemas de búsqueda de respuestas (BR): frente a los sistemas actuales, donde es el usuario el que acude a éstos con una petición de información para obtener una respuesta, en el contexto planteado aquı́ serı́a el propio sistema el que detectarı́a que un usuario tiene una necesidad de información y acudirı́a en su ayuda. La creación de este tipo de sistemas pasarı́a por ser capaces de detectar cuándo un usuario está expresando con su mensaje una petición de información. Detectar esta situación en Twitter no es una tarea trivial, ya que en numerosas ocasiones sus usuarios expresan opiniones y argumentos mediante oraciones interrogativas con fines retóricos: su objetivo no es obtener una respuesta, sino enfatizar los argumentos expuestos. Mensajes como “¿Por qué siempre me toca a mı́?” o “¿Cómo me pude olvidar?” tienen la apariencia de una pregunta, pero no expresan ninguna necesidad de información ya que no esperan una respuesta. Es lo que se conoce como pregunta retórica. En este artı́culo se pretende sentar las bases de este nuevo paradigma de funcionamiento para los sistemas BR, realizando una aproximación a la detección de peticiones de información realizadas por los usuarios de Twitter. Esta tarea se afrontará desde el punto de vista de la clasificación de preguntas [7]. Esta investigación se centra en el desarrollo de un sistema basado en aprendizaje automático capaz de discriminar entre peticiones reales de información y expresiones retóricas que adquieren la forma de oración interrogativa pero que no buscan respuesta alguna. El lenguaje informal que habitualmente se emplea en Twitter y la particular fisonomı́a de sus mensajes hacen que las caracterı́sticas de aprendizaje planteadas en este sistema de clasificación disten notablemente de las empleadas en los sistemas de clasificación de preguntas tradicionales. Este trabajo tiene la siguiente estructura: la sección 2 describe la idiosincrasia de Twitter; en la sección 3 se describe la aproximación seguida para la detección automática de preguntas, incluyendo las caracterı́sticas de aprendizaje y el corpus empleado; en la sección 4 se definen los experimentos realizados y los resultados obtenidos; la sección 5 muestra los trabajos relacionados con la investigación desarrollada en este artı́culo; finalmente, en la sección 6 se presentan las conclusiones y el trabajo futuro que podrı́a derivarse de esta investigación. 2. Anatomı́a de Twitter En este apartado se describen los elementos y conceptos fundamentales de la red social Twitter. El primero de estos conceptos es el de tweet, que es como se denomina a los mensajes de como máximo 140 caracteres que emiten los 2 3 http://www.google.com/. http://answers.yahoo.com/. usuarios de esta red social. Por defecto, los tweets tienen un carácter público, siendo accesibles para cualquier persona. En Twitter existen dos tipos básicos de relaciones entre sus miembros. Dado un usuario, los followers son las personas que siguen a ese usuario, mientras que los friends son las personas a las que sigue ese usuario. Cuando un usuario decide seguir a otro, automáticamente pasa a recibir todos los tweets que éste genere. Debido a la limitación que supone la cuota de 140 caracteres, el lenguaje empleado en los tweets suele ser marcadamente informal, plagado de notaciones taquigráficas y del argot usado habitualmente en los foros de Internet y en los mensajes SMS telefónicos. Además de estos rasgos comunes a otros medios, los mensajes de Twitter poseen sus propios rasgos distintivos: los hashtags, las menciones, los enlaces y los retweets. Un hashtag o etiqueta es una cadena de caracteres formada por una o varias palabras y precedidas por el sı́mbolo almohadilla (#). Son incluidos por los usuarios en sus tweets para representar un tema con el que se quiere identificar el mensaje enviado (por ejemplo, usar #elecciones20n para referirse a las elecciones generales de 2011 en España). Una mención es una alusión a un usuario de Twitter y se representa por el sı́mbolo arroba (@) seguido del identificador del usuario (por ejemplo, “@johnmaeda” o “@d tomas”). También es habitual la inclusión en el texto de los tweets de enlaces a páginas Web, imágenes y vı́deos, complementando la información introducida en el mensaje. Finalmente, cuando un mensaje es un retweet de uno previo (un seguidor retransmite un mensaje recibido a sus propios seguidores), se incluye el término RT en el mensaje para indicar esta situación de forma explı́cita. 3. Clasificación de preguntas Los sistemas de BR tienen como finalidad encontrar respuestas concretas a necesidades precisas de información formuladas por los usuarios mediante lenguaje natural. Sin embargo, no todos los tipos de pregunta que se pueden dar en la comunicación humana son de interés para estos sistemas, sino sólo aquellas oraciones formuladas por los usuario que tienen como objetivo recibir una cierta información como respuesta. Las preguntas se formulan habitualmente mediante oraciones interrogativas, contrastando con aquellas oraciones que hacen una afirmación, una petición o expresan una exclamación. Las preguntas retóricas son un ejemplo de oraciones interrogativas utilizadas por su efecto persuasivo, pero que no esperan una respuesta (“¿Cuántas veces te lo tengo que repetir?”). Estas preguntas son un artefacto usado por el hablante para deleitar, persuadir o conmover al oyente. La clasificación de preguntas es una de las tareas fundamentales en los sistemas de BR. Esta tarea consiste en, dada una pregunta, determinar el tipo de respuesta esperada. Para consultas como “¿Quién es el presidente de Estados Unidos?” y “¿Dónde está la Torre Eiffel?”, un sistema de clasificación de preguntas determinarı́a que se espera como respuesta el nombre de una persona y un lugar respectivamente. Esta clasificación permite filtrar un gran número de respuestas posibles y quedarse sólo con aquellas que pertenecen al tipo de respuesta esperada. El problema aquı́ planteado es el de discriminar entre oraciones interrogativas que tienen una necesidad de información real y las que no. Este problema va a ser abordado como una tarea de clasificación automática de preguntas, donde a cada instancia de entrada (tweet) le será asignada una clase de entre dos posibles, “real” o “retórica”, indicando si la pregunta espera una respuesta o no. El clasificador se va a construir siguiendo el paradigma de aprendizaje automático supervisado. Para desarrollar un sistema de este tipo es necesario definir una serie de componentes. El primero de ellos es la taxonomı́a de tipos de pregunta que queremos asignar a las entradas que lleguen al sistema. En este caso, las clases posibles son únicamente dos (clasificación binaria). El segundo componente del sistema es el conjunto de ejemplos (tweets en nuestro caso) correctamente etiquetados con las posibles clases de la taxonomı́a. Es lo que se conoce como corpus de entrenamiento. El tercer componente es el conjunto de caracterı́sticas que se van a extraer de cada instancia y que identificará la información relevante para la clasificación. El último componente es un algoritmo capaz de aprender a predecir la clase a la que pertenece cada nueva instancia de entrada a partir de las caracterı́sticas de aprendizaje extraı́das del corpus de entrenamiento. En nuestros experimentos utilizaremos algoritmos ya existentes pertenecientes a diferentes familias. En los siguientes puntos se describen las caracterı́sticas de aprendizaje extraı́das y el corpus desarrollado. 3.1. Caracterı́sticas de aprendizaje Uno de los principales retos a la hora de desarrollar sistemas de clasificación basados en aprendizaje automático es definir el conjunto de caracterı́sticas que mejor permita al algoritmo de aprendizaje discriminar entre las distintas clases de la taxonomı́a. En el campo de la clasificación de preguntas, estudios previos han demostrado que el empleo de bolsas de palabras y de información semántica (entidades, listas de palabras semánticamente relacionadas, relaciones de WordNet, etc.) son fundamentales para una correcta clasificación [4]. Sin embargo, en el problema que aquı́ nos planteamos, estas caracterı́sticas se antojan de poca utilidad. Por ejemplo, la aparición de pronombres interrogativos como “quién”, “cuándo” o “dónde” resultan fundamentales para saber si nos están preguntando por una persona, una fecha o un lugar. Sin embargo, a la hora de determinar si una pregunta es real o retórica, esta información puede resultar en la mayorı́a de las ocasiones totalmente irrelevante. Por lo que respecta al uso de diccionarios o bases de datos léxicas tradicionales, el carácter marcadamente informal de gran parte de los mensajes emitidos en Twitter limitan la utilidad de estos recursos. Las caracterı́sticas que vamos a plantear en este apartado contrastan claramente con las empleadas en los sistemas de clasificación de preguntas tradicionales. Tal y como veı́amos en la sección 2, los tweets poseen una idiosincrasia muy particular que intentaremos explotar en este trabajo. Se han definido un total de 19 caracterı́sticas, agrupadas conceptualmente por afinidad hasta obtener 7 Signos de puntuación Número interrogativos Número de signos interrogativos contenidos Número exclamaciones Número de signos de exclamación contenidos Contiene comillas Indica si aparecen o no comillas Lenguaje propio de Twitter Número menciones Número de usuarios nombrados (usando ’@’) Número hashtags Número de etiquetas empleadas (usando ’#’) Contiene enlaces Indica la existencia o no de direcciones Web Número palabras Número total de palabras que contiene Número interjecciones Número de interjecciones que contiene Entidades Número entidades Número de entidades (producto, empresa, lugar, etc.) que aparecen Etiquetado morfológico Número comunes Número de nombres comunes que aparecen Número propios Número de nombres propios que aparecen Número verbos Número de verbos (no auxiliares) que aparecen WordNet Media camino Distancia media en el árbol de WordNet entre los términos del mensaje y el nodo raı́z Porcentaje WordNet Porcentaje de términos del mensaje encontrados en WordNet Encontrados WordNet Número total de términos del mensaje encontrados en WordNet Análisis de sentimientos Polaridad Indica la polaridad del mensaje: positivo, negativo o neutro Relaciones Número friends Número de personas a las que sigue el usuario que lo envió Número followers Número de personas que siguen al usuario que lo envió Relación friends/followers Número de amigos del usuario dividido por su número de seguidores Tabla 1. Caracterı́sticas de aprendizaje utilizadas para representar cada tweet. grupos diferentes. La tabla 1 resume estos conjuntos. Todas estas caracterı́sticas son de tipo numérico (o binario, asignando en esos casos el valor 0 a falso y 1 a verdadero) y sus valores han sido normalizados en el intervalo [0, 1]. Para la obtención de estas caracterı́sticas se utilizaron diversas herramientas de procesamiento del lenguaje natural, algunas de ellas adaptadas al lenguaje propio de Twitter. Para obtener la polaridad de los mensajes se empleó la herramienta Twitter Sentiment,4 capaz de clasificar la polaridad de un tweet en tres tipos diferentes: positivo, negativo y neutro. Para el análisis morfológico y la detección de entidades se empleó el etiquetador UW Twitter NLP Tools [5], especializado en el tratamiento de textos informales. En los experimentos aquı́ realizados se ha trabajado únicamente sobre el idioma inglés, condicionados por la disponibilidad en este idioma de algunas de las herramientas necesarias para la obtención de las caracterı́sticas descritas. No obstante, la mayorı́a de caracterı́sticas planteadas son directamente extraı́bles del tweet y, por tanto, independientes del idioma con el que se trabaje. 3.2. Construcción del corpus Es necesario crear un corpus etiquetado para poder entrenar al algoritmo de clasificación. Para este trabajo se hace necesario un conjunto de preguntas 4 http://twittersentiment.appspot.com/. reales y un conjunto de preguntas retóricas convenientemente etiquetadas. Si bien existen grandes corpus de preguntas reales (como los empleados en las diversas ediciones de las competiciones TREC [9] o los recopilados en sitios sociales de búsqueda de respuestas), hasta donde alcanza nuestro conocimiento no existen corpus especı́ficos de preguntas retóricas que puedan servir para entrenar un clasificador como el aquı́ planteado. Más aún, el lenguaje formal empleado en los recursos antes mencionados contrasta con el lenguaje marcadamente informal que emplean los usuarios de Twitter. Esta diferencia hace que los recursos existentes resulten poco adecuados para el fin perseguido en esta investigación. Por esta razón, como paso previo a la construcción del clasificador se optó por recopilar y etiquetar manualmente un corpus de preguntas reales y retóricas formuladas en Twitter. El primer paso fue la obtención de un conjunto amplio de oraciones interrogativas directas de Twitter,5 es decir, tweets que contuvieran signos de interrogación. Se recopilaron 10.000 mensajes de este tipo para cada uno de los pronombres interrogativos (“what”, “who”, “whom”, “whose”, “which”, “when”, “where”, “why” y “how”) a fin de obtener una muestra variada de oraciones interrogativas. De este conjunto de 90.000 preguntas se seleccionaron de forma aleatoria 100 muestras para cada uno de los pronombres enumerados, generando una muestra de 900 oraciones interrogativas que fueron etiquetadas manualmente como “real” o “retórica”. El criterio que se estableció para el etiquetado fue el de considerar como preguntas reales aquellas que esperaban una respuesta, independientemente de si esa pregunta estaba formulada para un público general o no. Es decir, mensajes como “¿Qué vais a hacer después del partido?” fueron etiquetados como preguntas reales. Como resultado de este etiquetado, 680 preguntas fueron consideradas como retóricas mientras que sólo 220 fueron consideradas preguntas reales. Estas cifras dan una idea de que, efectivamente, la mayorı́a de oraciones interrogativas expresadas en Twitter no son consultas que esperen una respuesta, sino artificios retóricos para dar fuerza o emotividad al discurso de sus usuarios. Con el objetivo de conseguir un corpus equilibrado con respecto al número de muestras de cada tipo, se buscó la forma de obtener más preguntas reales formuladas por usuarios de Twitter. Para ello se recurrió a buscar mensajes que contuvieran el hashtag #lazyweb.6 La presencia de esta etiqueta prácticamente garantiza que el mensaje enviado es una pregunta que formula de manera general un usuario a sus seguidores. De esta manera se obtuvieron 2.803 tweets que contenı́an esta etiqueta y que, por tanto, representan una muestra rica de preguntas reales para entrenar al clasificador. La etiqueta #lazyweb fue eliminada en todos estos mensajes, ya que hubiera supuesto un rasgo definitorio a la hora de discriminar entre preguntas reales y retóricas. Para obtener el corpus equilibrado en los experimentos planteados en la sección 4, se seleccionaron 680 muestras al azar de este conjunto de 2.803. 5 6 El tratamiento de preguntas indirectas queda fuera del ámbito de esta investigación. Lazyweb es un concepto usado para describir el acto de trasladar preguntas a los usuarios de Internet antes de buscar la solución por uno mismo. Clasificador Precisión SVM NB IB1 RF 75,56 70,78 68,56 73,33 real retórica Precisión Cobertura F-score Precisión Cobertura 0,00 0,00 0,00 75,60 100,00 38,40 32,30 35,10 79,20 83,20 34,90 33,20 34,00 78,70 80,00 43,30 29,50 35,10 79,30 87,50 F-score 86,10 81,10 79,40 83,20 Tabla 2. Precisión obtenida por SVM, Naı̈ve Bayes (NB), IB1 y Random Forest (RF) sobre el corpus de 900 preguntas y sobre cada una de las clases (real y retórica). 4. Experimentos y resultados En esta sección se van a exponer los experimentos y resultados obtenidos en la evaluación del sistema propuesto. Se han planteado tres experimentos diferentes. El primero de ellos trata de evaluar el rendimiento del clasificador sobre el corpus de 900 preguntas etiquetado manualmente. El segundo se centra en el corpus aumentado con preguntas obtenidas a través del hashtag #lazyweb. El tercer y último experimento realiza un estudio selectivo donde se evalúa el aporte al rendimiento del sistema de cada uno de los grupos de caracterı́sticas definidos. En todos los experimentos el rendimiento del sistema se ha evaluado en términos de precisión, entendiendo como tal el resultado de dividir el número de preguntas correctamente clasificadas por el total de preguntas. Para evitar dividir el corpus en un conjunto de entrenamiento y en otro de evaluación, se ha realizado una validación cruzada en 10 particiones (10-fold cross-validation). 4.1. Corpus original En este experimento se ha trabajado con el corpus de 900 preguntas etiquetado manualmente, experimentando con todas las caracterı́sticas descritas en la sección 3.1 y empleando cuatro algoritmos de clasificación pertenecientes a diferentes familias: support vector machines (SVM) como representante de los clasificadores lineales, Naı̈ve Bayes de los métodos bayesianos, IB1 de los algoritmos basados en ejemplos y Random Forest de los árboles de decisión. La tabla 2 muestra los resultados obtenidos para el corpus completo (segunda columna) y de forma individualizada para cada una de las clases (real y retórica). Por los resultados obtenidos, podrı́a parecer que SVM es el que mejor rendimiento ofrece al obtener la mejor precisión en este experimento. Sin embargo, un análisis pormenorizado sobre cada una de las clases revela que para real obtiene una precisión y cobertura nula, es decir, todas las preguntas fueron clasificadas como pertenecientes a la clase retórica. El resto de algoritmos, aunque de forma menos marcada, muestra también una clara tendencia a asignar mayoritariamente la clase retórica a las instancias clasificadas. Para ver hasta qué punto está afectando al rendimiento del sistema la falta de equilibrio en el número de muestras de cada tipo en el corpus, se ha realizado un nuevo experimento seleccionando 220 preguntas de la clase retórica de entre Clasificador SVM NB IB1 RF 440 preguntas Precisión 64,73 ± 1,80 56,41 ± 4,55 57,73 ± 1,52 62,34 ± 2,40 1.360 preguntas Precisión Mejora 76,30 ± 0,56 +17,87 73,80 ± 1,43 +30,83 72,84 ± 1,09 +26,17 80,49 ± 1,01 +29,11 Tabla 3. Precisión media y desviación tı́pica obtenida por los cuatro algoritmos sobre el corpus equilibrado de 440 preguntas y sobre el de 1.360 preguntas. En este último caso, se muestra la mejora de precisión obtenida con respecto al anterior. las 680 existentes para equilibrar las 220 de la clase real y obtener un corpus de 440 preguntas. Este proceso de selección de 220 preguntas sobre las 680 totales se repitió 10 veces, evitando ası́ que una única selección al azar pudiera llevarnos a obtener un rendimiento poco realista del sistema. La tabla 3 muestra la media (µ) de la precisión y la desviación tı́pica (σ) calculada para cada uno de los algoritmos sobre las 10 iteraciones mencionadas. Las matrices de confusión obtenidas en estos experimentos (no incluidas aquı́ por motivos de espacio) muestran una mayor igualdad a la hora de asignar una u otra clase a las muestras del corpus, como resultado de haber equilibrado el corpus. Sin embargo, la tabla 3 nos ofrece un rendimiento bastante pobre para todos los clasificadores (SVM es el mejor con 64,73 %) y una desviación elevada en algunos casos (como con Naı̈ve Bayes) que revelan un comportamiento inestable dependiendo del subconjunto de muestras de entrenamiento elegido. Estos resultados revelan que el criterio establecido para decidir cuándo una pregunta es real o retórica (que espere o no una respuesta) durante el etiquetado del corpus ha generado un conjunto demasiado difuso en el cual las caracterı́sticas definidas no son capaces de resultar discriminatorias. Se antoja recomendable, pues, reconsiderar este criterio de etiquetado. Un enfoque más orientado a la aplicación final de este trabajo serı́a etiquetar como preguntas reales sólo aquellas que estén dirigidas a un público general y no a una persona concreta o a un grupo particular, al que apenas es necesario proporcionar información para que entienda plenamente la consulta formulada. Por otra parte, este tipo de preguntas personales carecerı́an de interés para un sistema que busque solventar de forma automática las consultas que plantean los usuarios en Twitter. 4.2. Corpus aumentado Este experimento va a analizar el rendimiento del clasificador empleando el corpus aumentado descrito en la sección 3.2, donde se aprovechó el uso popular de la etiqueta #lazyweb para recopilar un conjunto de preguntas reales formuladas en Twitter. La evaluación en este nuevo contexto consiste en la selección aleatoria de 680 preguntas de las más de 2.800 que se recopilaron. Junto con las 680 preguntas de tipo retórico etiquetadas manualmente se obtiene ası́ un corpus equilibrado de 1.360 preguntas. Este experimento se ha repetido 10 veces para asegurar que el rendimiento no está condicionado por el subconjunto aleatorio de preguntas seleccionado. La tabla 3 muestra la media y desviación tı́pica, ası́ como la mejora obtenida con respecto al corpus de 440 preguntas. Los resultados obtenidos revelan un rendimiento mucho más elevado que en el experimento realizado anteriormente con el corpus de 440 preguntas, obteniendo una precisión superior al 80 % con el algoritmo Random Forest y consiguiendo mejoras superiores al 30 % en el caso de Naı̈ve Bayes. La desviación tı́pica es también notablemente menor, demostrando un comportamiento más estable de los clasificadores frente a la selección del conjunto de muestras del experimento. Esta mejora viene dada por dos aspectos fundamentales. El primero es el tamaño del corpus empleado: 1.360 muestras frente a 440. Es sobradamente conocida la influencia que tiene el número de muestras del corpus de entrenamiento en el rendimiento del clasificador. El segundo aspecto es la calidad de las muestras. En el experimento anterior veı́amos que la frontera entre preguntas reales y retóricas resultaba demasiado difusa para el clasificador, ya que muchas de las preguntas que considerábamos como reales estaban destinadas a un público particular que requiere de muy poca información para su tratamiento. Sin embargo, en este segundo experimento, las preguntas reales obtenidas están claramente dirigidas a un público general y orientadas a la obtención de una respuesta. Poseen una mayor riqueza de información que en el caso anterior que facilita al clasificador la labor de discriminar entre éstas y las preguntas de tipo retórico. 4.3. Estudio selectivo Con el objetivo de evaluar la importancia de cada uno de los grupos de caracterı́sticas definidos en la tabla 1, se ha realizado un estudio selectivo, eliminando en cada iteración una de las caracterı́sticas en el proceso de evaluación y comprobando la influencia producida sobre el rendimiento global del clasificador. Este experimento se ha realizado sobre el corpus de 1.360 preguntas. Vamos a centrar el estudio en el algoritmo Random Forest, que es el que mejor resultado obtuvo en el apartado anterior. La figura 1 muestra los resultados obtenidos. La lı́nea etiquetada como “Todas” muestra la precisión media µ obtenida utilizando todas las caracterı́sticas. Las lı́neas paralelas superior e inferior representan µ + σ y µ − σ respectivamente. En esta gráfica se observa que las caracterı́sticas del lenguaje de Twitter (número menciones, número hashtags, contiene enlaces y número palabras) son las que más afectan al rendimiento del clasificador al ser eliminadas. Los signos de puntuación, la información morfológica y las relaciones establecidas influyen también de manera sustancial en el rendimiento final. Son este tipo de caracterı́sticas superficiales del lenguaje las que más afectan al sistema. Sin embargo, las caracterı́sticas semánticas relativas a entidades, análisis de sentimientos y WorNet apenas afectan al rendimiento del sistema, siendo llamativo el caso de WordNet, en el que su eliminación favorece al rendimiento final del clasificador. Si bien podrı́a concluirse que la información semántica carece de utilidad para la discriminación de preguntas reales y retóricas, hay que tener en cuenta que el tratamiento del lenguaje informal se haya todavı́a en una fase incipiente, Random Forest Todas Seleccion 84 Precisión 82 80 78 76 s ne io ac ad rid la el R Po et dN or W s ca gi ló fo es ad tid or M En je ua ng Le ón ci ua nt Pu Características eliminadas Figura 1. Precisión del clasificador Random Forest sobre el corpus de 1.360 preguntas al eliminar cada uno de los conjuntos de caracterı́sticas definidos. “Todas” muestra la precisión obtenida al emplear todas las caracterı́sticas. y que el rendimiento obtenido por éstas herramientas dista todavı́a del obtenido por sus equivalentes para lenguaje formal, pudiendo ser un motivo fundamental de la escasa efectividad de estas caracterı́sticas. Para completar este estudio sobre la relevancia de cada una de las caracterı́sticas en el rendimiento del clasificador, hemos utilizado information gain (IG) como medida para determinar cuáles son las caracterı́sticas que aportan más información durante el proceso de aprendizaje. El orden de relevancia asignado por IG fue el siguiente (de mayor a menor): Número followers, Número propios, Número menciones, Número interrogativos, Número palabras, Número friends, Relación friends/followers, Media camino, Número verbos, Contiene enlaces, Número exclamaciones, Encontrados WordNet, Polaridad, Número propios, Número entidades, Número interjecciones, Porcentaje Wordnet, Número Hashtags y Contiene Comillas. Esta lista muestra que la caracterı́stica más relevante según IG es el número de seguidores del autor del tweet. Este resultado confirma el estudio realizado por InboxQ [2], donde se indica que un 67 % de los usuarios que formulan preguntas en Twitter tienen más de 100 seguidores. Es decir, existe una correlación entre la formulación de preguntas reales y el número de seguidores. El número de menciones también tiene una relevancia importante. Incluir nombres de personas en oraciones interrogativas puede ser indicativo de que el mensaje va dirigido a una persona particular y que probablemente se trate de un mensaje privado y no de una petición de información. El número de interrogativos también tiene una relevancia notable. Varios interrogativos consecutivos puede denotar un grado alto de informalidad (“¿¿Qué me dices??”). Por otra parte, varias oraciones interrogativas consecutivas pueden ser un claro ejemplo de uso retórico del lenguaje (“¿Dónde están tu valores? ¿Y tu dignidad?”). Por lo que respecta a las caracterı́sticas peor valoradas, el uso de comillas (muy habitual en expresiones literales) o el número de hashtags no parecen ser relevantes para la clasificación, al igual que el porcentaje de términos del mensaje que aparecen en WordNet (y que podrı́an dar una idea del grado de formalidad del lenguaje empleado) o el número de interjecciones (que podrı́a ser también indicativo de la formalidad o informalidad del mensaje). 5. Trabajo relacionado La red social Twitter se ha convertido en los últimos años en foco de estudio preferente para la comunidad investigadora dentro del área de la recuperación de información y la minerı́a de opiniones. El volumen de datos que se genera en Twitter y su particular idiosincrasia han abierto un nuevo panorama de oportunidades y retos para la comunidad investigadora en el área de las tecnologı́as del lenguaje humano. Muchos de los estudios realizados en este campo están relacionados con el análisis de opiniones [3] y la detección de eventos en tiempo real [6]. El lenguaje informal usado habitualmente en Twitter ha llevado a realizar numerosos trabajos para la adaptación de técnicas aplicadas tradicionalmente sobre textos formales, como el etiquetado de entidades [5]. Dentro del campo de la búsqueda de información, la tarea TREC Microblog,7 centrada en el desarrollo y evaluación de sistemas de recuperación de información sobre Twitter, se celebró por primera vez en 2011 con un notable éxito de participación. Son numerosos los estudios centrados en la evaluación de medidas para ponderar la relevancia de los tweets con respecto a una consulta [1]. Por lo que respecta a la búsqueda de respuestas, existen algunos productos comerciales para la detección de preguntas formuladas en Twitter, ofreciendo la posibilidad a los usuarios de esta red social de responder a las preguntas. No se trata de sistemas automáticos de BR, sino de interfaces que facilitan que los usuarios respondan a las preguntas formuladas por otros ususarios, siguiendo la filosofı́a de los sistios sociales de búsqueda de respuestas como Yahoo! Answers. InboxQ8 y TweetQA9 son dos ejemplos de este tipo de aplicaciones. Estos sitios no aplican ningún tipo de análisis para detectar cuándo un usuario a formulado una pregunta, sino que sus mensajes deben emplear unos patrones fijos en su consulta para que sean detectadas por la aplicación. Fuera del contexto de la búsqueda de respuestas, existe un trabajo similar al nuestro en su intención, aunque no en su fondo [10]. En este trabajo se propone un sistema de clasificación para el campo de la biomedicina capaz de determinar cuándo una pregunta puede ser contestada o no por especialistas médicos. Para ello utilizan un corpus de preguntas clasificadas y una ontologı́a médica para determinar sobre qué patologı́as se puede dar respuesta y sobre cuáles no. 7 8 9 http://trec.nist.gov/tracks.html. https://www.inboxq.com/. http://www.tweetqa.com/. 6. Conclusiones y trabajo futuro En este trabajo se ha planteado un sistema para la detección de preguntas reales formuladas por usuarios de Twitter. Este sistema pretende ser un paso previo para un cambio de paradigma en el funcionamiento de los sistemas de BR, haciendo que los propios sistemas sean los que detecten las necesidades de información de los usuarios y acudan en su ayuda. Se ha desarrollado un clasificador capaz de discriminar entre preguntas reales y preguntas retóricas, estudiando el rendimiento de diferentes algoritmos y caracterı́sticas de aprendizaje en el proceso. Los resultados obtenidos son prometedores, alcanzando valores por encima del 80 % de precisión. Como trabajo futuro se plantea la ampliación del corpus de entrenamiento y el estudio de los tipos de pregunta que se dan en Twitter, además de incorporar al sistema el tratamiento de preguntas indirectas. Referencias 1. Duan, Y., Jiang, L., Qin, T., Zhou, M., Shum, H.Y.: An empirical study on learning to rank of tweets. In: Proceedings of the 23rd International Conference on Computational Linguistics. pp. 295–303. COLING ’10, ACL, Stroudsburg, PA, USA (2010) 2. InboxQ: Twitter’s loaded questions: How people ask and answer questions on twitter. http://blog.inboxq.com/?page=7 (2011), [Accedido 14-Diciembre-2011] 3. Joshi, A., Balamurali, A.R., Bhattacharyya, P., Mohanty, R.: C-feel-it: a sentiment analyzer for micro-blogs. In: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics. pp. 127–132. HLT ’11, ACL, Stroudsburg, PA, USA (2011) 4. Li, X., Roth, D.: Learning question classifiers: the role of semantic information. Natural Language Engineering 12(3), 229–249 (2006) 5. Ritter, A., Clark, S., Mausam, Etzioni, O.: Named entity recognition in tweets: an experimental study. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. pp. 1524–1534. EMNLP ’11, ACL, Stroudsburg, PA, USA (2011) 6. Sakaki, T., Okazaki, M., Matsuo, Y.: Earthquake shakes twitter users: real-time event detection by social sensors. In: Proceedings of the 19th conference on World Wide Web. pp. 851–860. WWW ’10, ACM, New York, NY, USA (2010) 7. Tomás, D.: Sistemas de clasificación de preguntas basados en corpus para la búsqueda de respuestas. Ph.D. thesis, Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante, España (Julio 2009) 8. Twitter: Twitter turns six. http://blog.twitter.com/2012/03/ twitter-turns-six.html (2011), [Accedido 26-Marzo-2012] 9. Voorhees, E.M.: The trec-8 question answering track report. In: Eighth Text REtrieval Conference. NIST Special Publication, vol. 500-246, pp. 77–82. National Institute of Standards and Technology, Gaithersburg, USA (1999) 10. Yu, H., Sable, C.: Being erlang shen: Identifying answerable questions. In: Proceedings of the Workshop on Knowledge and Reasoning for Answering Questions. IJCAI ’05 (2005)

Clasificación de preguntas sin respuesta: la retórica de Twitter

Documentos relacionados

Productos

Apoyo

Clasificación de preguntas sin respuesta: la retórica de Twitter

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib