Clasificación de preguntas sin respuesta: la retórica de Twitter David Tomás* Departamento de Lenguajes y Sistemas Informáticos Universidad de Alicante, España [email protected] Resumen Debido a la velocidad con la que se propaga la información en Twitter, son numerosos los usuarios que utilizan esta red social para formular preguntas. Este contexto resulta propicio para plantear un cambio de paradigma en el desarrollo de sistemas de búsqueda de respuestas, haciendo que éstos no sólo sean capaces de responder a las consultas de los usuarios, sino también de detectar cuándo un usuario tiene una necesidad de información para acudir en su ayuda. Detectar ésta necesidad de información en Twitter no es trivial, ya que en numerosas ocasiones la gente emplea en sus mensajes interrogaciones retóricas que no requieren de una respuesta. En este trabajo se ha desarrollado un clasificador basado en aprendizaje automático para discriminar entre preguntas reales y retóricas en Twitter, como un primer paso para la creación de sistemas de búsqueda de respuestas que sean capaces de detectar cuándo un usuario realiza una petición real de información. Keywords: Recuperación de información, búsqueda de respuestas, clasificación de preguntas, preguntas retóricas, redes sociales, Twitter 1. Introducción Las redes sociales han adquirido una relevancia indiscutible en el panorama actual de Internet. Millones de personas se conectan y vinculan a diario en estas redes para verter en ellas contenidos, ideas, noticias y opiniones. Los usuarios de Internet han pasado de ser meros consumidores de información a convertirse en participantes activos y motores de la red. Twitter1 es una de las principales redes sociales, con más de 140 millones de usuarios que generan 340 millones de mensajes diarios [8]. Esta red ofrece un servicio de microblogging que permite a sus miembros enviar y leer mensajes de texto (conocidos como tweets) de un máximo de 140 caracteres. Esta restricción en el tamaño de los mensajes y la facilidad de propagación entre sus usuarios la han convertido en una fuente intestimable de información en tiempo real. * 1 Este trabajo ha sido financiado por el Gobierno Español a través del proyecto TEXTMESS 2.0 (TIN2009-13391-C04-01), por la Universidad de Alicante (GRE10-33) y por la Generalitat Valenciana (GV/2012/110). http://www.twitter.com/. Es precisamente esta inmediatez con la que se propagan los mensajes la que hace que muchos usuarios utilicen Twitter como foro para plantear sus dudas y consultas, en lugar de recurrir a sistemas de recuperación de información en la Web como Google2 o a sitios sociales de búsqueda de respuestas como Yahoo! Answers.3 Este panorama nos ofrece la posibilidad de plantear un nuevo paradigma para el desarrollo de sistemas de búsqueda de respuestas (BR): frente a los sistemas actuales, donde es el usuario el que acude a éstos con una petición de información para obtener una respuesta, en el contexto planteado aquı́ serı́a el propio sistema el que detectarı́a que un usuario tiene una necesidad de información y acudirı́a en su ayuda. La creación de este tipo de sistemas pasarı́a por ser capaces de detectar cuándo un usuario está expresando con su mensaje una petición de información. Detectar esta situación en Twitter no es una tarea trivial, ya que en numerosas ocasiones sus usuarios expresan opiniones y argumentos mediante oraciones interrogativas con fines retóricos: su objetivo no es obtener una respuesta, sino enfatizar los argumentos expuestos. Mensajes como “¿Por qué siempre me toca a mı́?” o “¿Cómo me pude olvidar?” tienen la apariencia de una pregunta, pero no expresan ninguna necesidad de información ya que no esperan una respuesta. Es lo que se conoce como pregunta retórica. En este artı́culo se pretende sentar las bases de este nuevo paradigma de funcionamiento para los sistemas BR, realizando una aproximación a la detección de peticiones de información realizadas por los usuarios de Twitter. Esta tarea se afrontará desde el punto de vista de la clasificación de preguntas [7]. Esta investigación se centra en el desarrollo de un sistema basado en aprendizaje automático capaz de discriminar entre peticiones reales de información y expresiones retóricas que adquieren la forma de oración interrogativa pero que no buscan respuesta alguna. El lenguaje informal que habitualmente se emplea en Twitter y la particular fisonomı́a de sus mensajes hacen que las caracterı́sticas de aprendizaje planteadas en este sistema de clasificación disten notablemente de las empleadas en los sistemas de clasificación de preguntas tradicionales. Este trabajo tiene la siguiente estructura: la sección 2 describe la idiosincrasia de Twitter; en la sección 3 se describe la aproximación seguida para la detección automática de preguntas, incluyendo las caracterı́sticas de aprendizaje y el corpus empleado; en la sección 4 se definen los experimentos realizados y los resultados obtenidos; la sección 5 muestra los trabajos relacionados con la investigación desarrollada en este artı́culo; finalmente, en la sección 6 se presentan las conclusiones y el trabajo futuro que podrı́a derivarse de esta investigación. 2. Anatomı́a de Twitter En este apartado se describen los elementos y conceptos fundamentales de la red social Twitter. El primero de estos conceptos es el de tweet, que es como se denomina a los mensajes de como máximo 140 caracteres que emiten los 2 3 http://www.google.com/. http://answers.yahoo.com/. usuarios de esta red social. Por defecto, los tweets tienen un carácter público, siendo accesibles para cualquier persona. En Twitter existen dos tipos básicos de relaciones entre sus miembros. Dado un usuario, los followers son las personas que siguen a ese usuario, mientras que los friends son las personas a las que sigue ese usuario. Cuando un usuario decide seguir a otro, automáticamente pasa a recibir todos los tweets que éste genere. Debido a la limitación que supone la cuota de 140 caracteres, el lenguaje empleado en los tweets suele ser marcadamente informal, plagado de notaciones taquigráficas y del argot usado habitualmente en los foros de Internet y en los mensajes SMS telefónicos. Además de estos rasgos comunes a otros medios, los mensajes de Twitter poseen sus propios rasgos distintivos: los hashtags, las menciones, los enlaces y los retweets. Un hashtag o etiqueta es una cadena de caracteres formada por una o varias palabras y precedidas por el sı́mbolo almohadilla (#). Son incluidos por los usuarios en sus tweets para representar un tema con el que se quiere identificar el mensaje enviado (por ejemplo, usar #elecciones20n para referirse a las elecciones generales de 2011 en España). Una mención es una alusión a un usuario de Twitter y se representa por el sı́mbolo arroba (@) seguido del identificador del usuario (por ejemplo, “@johnmaeda” o “@d tomas”). También es habitual la inclusión en el texto de los tweets de enlaces a páginas Web, imágenes y vı́deos, complementando la información introducida en el mensaje. Finalmente, cuando un mensaje es un retweet de uno previo (un seguidor retransmite un mensaje recibido a sus propios seguidores), se incluye el término RT en el mensaje para indicar esta situación de forma explı́cita. 3. Clasificación de preguntas Los sistemas de BR tienen como finalidad encontrar respuestas concretas a necesidades precisas de información formuladas por los usuarios mediante lenguaje natural. Sin embargo, no todos los tipos de pregunta que se pueden dar en la comunicación humana son de interés para estos sistemas, sino sólo aquellas oraciones formuladas por los usuario que tienen como objetivo recibir una cierta información como respuesta. Las preguntas se formulan habitualmente mediante oraciones interrogativas, contrastando con aquellas oraciones que hacen una afirmación, una petición o expresan una exclamación. Las preguntas retóricas son un ejemplo de oraciones interrogativas utilizadas por su efecto persuasivo, pero que no esperan una respuesta (“¿Cuántas veces te lo tengo que repetir?”). Estas preguntas son un artefacto usado por el hablante para deleitar, persuadir o conmover al oyente. La clasificación de preguntas es una de las tareas fundamentales en los sistemas de BR. Esta tarea consiste en, dada una pregunta, determinar el tipo de respuesta esperada. Para consultas como “¿Quién es el presidente de Estados Unidos?” y “¿Dónde está la Torre Eiffel?”, un sistema de clasificación de preguntas determinarı́a que se espera como respuesta el nombre de una persona y un lugar respectivamente. Esta clasificación permite filtrar un gran número de respuestas posibles y quedarse sólo con aquellas que pertenecen al tipo de respuesta esperada. El problema aquı́ planteado es el de discriminar entre oraciones interrogativas que tienen una necesidad de información real y las que no. Este problema va a ser abordado como una tarea de clasificación automática de preguntas, donde a cada instancia de entrada (tweet) le será asignada una clase de entre dos posibles, “real” o “retórica”, indicando si la pregunta espera una respuesta o no. El clasificador se va a construir siguiendo el paradigma de aprendizaje automático supervisado. Para desarrollar un sistema de este tipo es necesario definir una serie de componentes. El primero de ellos es la taxonomı́a de tipos de pregunta que queremos asignar a las entradas que lleguen al sistema. En este caso, las clases posibles son únicamente dos (clasificación binaria). El segundo componente del sistema es el conjunto de ejemplos (tweets en nuestro caso) correctamente etiquetados con las posibles clases de la taxonomı́a. Es lo que se conoce como corpus de entrenamiento. El tercer componente es el conjunto de caracterı́sticas que se van a extraer de cada instancia y que identificará la información relevante para la clasificación. El último componente es un algoritmo capaz de aprender a predecir la clase a la que pertenece cada nueva instancia de entrada a partir de las caracterı́sticas de aprendizaje extraı́das del corpus de entrenamiento. En nuestros experimentos utilizaremos algoritmos ya existentes pertenecientes a diferentes familias. En los siguientes puntos se describen las caracterı́sticas de aprendizaje extraı́das y el corpus desarrollado. 3.1. Caracterı́sticas de aprendizaje Uno de los principales retos a la hora de desarrollar sistemas de clasificación basados en aprendizaje automático es definir el conjunto de caracterı́sticas que mejor permita al algoritmo de aprendizaje discriminar entre las distintas clases de la taxonomı́a. En el campo de la clasificación de preguntas, estudios previos han demostrado que el empleo de bolsas de palabras y de información semántica (entidades, listas de palabras semánticamente relacionadas, relaciones de WordNet, etc.) son fundamentales para una correcta clasificación [4]. Sin embargo, en el problema que aquı́ nos planteamos, estas caracterı́sticas se antojan de poca utilidad. Por ejemplo, la aparición de pronombres interrogativos como “quién”, “cuándo” o “dónde” resultan fundamentales para saber si nos están preguntando por una persona, una fecha o un lugar. Sin embargo, a la hora de determinar si una pregunta es real o retórica, esta información puede resultar en la mayorı́a de las ocasiones totalmente irrelevante. Por lo que respecta al uso de diccionarios o bases de datos léxicas tradicionales, el carácter marcadamente informal de gran parte de los mensajes emitidos en Twitter limitan la utilidad de estos recursos. Las caracterı́sticas que vamos a plantear en este apartado contrastan claramente con las empleadas en los sistemas de clasificación de preguntas tradicionales. Tal y como veı́amos en la sección 2, los tweets poseen una idiosincrasia muy particular que intentaremos explotar en este trabajo. Se han definido un total de 19 caracterı́sticas, agrupadas conceptualmente por afinidad hasta obtener 7 Signos de puntuación Número interrogativos Número de signos interrogativos contenidos Número exclamaciones Número de signos de exclamación contenidos Contiene comillas Indica si aparecen o no comillas Lenguaje propio de Twitter Número menciones Número de usuarios nombrados (usando ’@’) Número hashtags Número de etiquetas empleadas (usando ’#’) Contiene enlaces Indica la existencia o no de direcciones Web Número palabras Número total de palabras que contiene Número interjecciones Número de interjecciones que contiene Entidades Número entidades Número de entidades (producto, empresa, lugar, etc.) que aparecen Etiquetado morfológico Número comunes Número de nombres comunes que aparecen Número propios Número de nombres propios que aparecen Número verbos Número de verbos (no auxiliares) que aparecen WordNet Media camino Distancia media en el árbol de WordNet entre los términos del mensaje y el nodo raı́z Porcentaje WordNet Porcentaje de términos del mensaje encontrados en WordNet Encontrados WordNet Número total de términos del mensaje encontrados en WordNet Análisis de sentimientos Polaridad Indica la polaridad del mensaje: positivo, negativo o neutro Relaciones Número friends Número de personas a las que sigue el usuario que lo envió Número followers Número de personas que siguen al usuario que lo envió Relación friends/followers Número de amigos del usuario dividido por su número de seguidores Tabla 1. Caracterı́sticas de aprendizaje utilizadas para representar cada tweet. grupos diferentes. La tabla 1 resume estos conjuntos. Todas estas caracterı́sticas son de tipo numérico (o binario, asignando en esos casos el valor 0 a falso y 1 a verdadero) y sus valores han sido normalizados en el intervalo [0, 1]. Para la obtención de estas caracterı́sticas se utilizaron diversas herramientas de procesamiento del lenguaje natural, algunas de ellas adaptadas al lenguaje propio de Twitter. Para obtener la polaridad de los mensajes se empleó la herramienta Twitter Sentiment,4 capaz de clasificar la polaridad de un tweet en tres tipos diferentes: positivo, negativo y neutro. Para el análisis morfológico y la detección de entidades se empleó el etiquetador UW Twitter NLP Tools [5], especializado en el tratamiento de textos informales. En los experimentos aquı́ realizados se ha trabajado únicamente sobre el idioma inglés, condicionados por la disponibilidad en este idioma de algunas de las herramientas necesarias para la obtención de las caracterı́sticas descritas. No obstante, la mayorı́a de caracterı́sticas planteadas son directamente extraı́bles del tweet y, por tanto, independientes del idioma con el que se trabaje. 3.2. Construcción del corpus Es necesario crear un corpus etiquetado para poder entrenar al algoritmo de clasificación. Para este trabajo se hace necesario un conjunto de preguntas 4 http://twittersentiment.appspot.com/. reales y un conjunto de preguntas retóricas convenientemente etiquetadas. Si bien existen grandes corpus de preguntas reales (como los empleados en las diversas ediciones de las competiciones TREC [9] o los recopilados en sitios sociales de búsqueda de respuestas), hasta donde alcanza nuestro conocimiento no existen corpus especı́ficos de preguntas retóricas que puedan servir para entrenar un clasificador como el aquı́ planteado. Más aún, el lenguaje formal empleado en los recursos antes mencionados contrasta con el lenguaje marcadamente informal que emplean los usuarios de Twitter. Esta diferencia hace que los recursos existentes resulten poco adecuados para el fin perseguido en esta investigación. Por esta razón, como paso previo a la construcción del clasificador se optó por recopilar y etiquetar manualmente un corpus de preguntas reales y retóricas formuladas en Twitter. El primer paso fue la obtención de un conjunto amplio de oraciones interrogativas directas de Twitter,5 es decir, tweets que contuvieran signos de interrogación. Se recopilaron 10.000 mensajes de este tipo para cada uno de los pronombres interrogativos (“what”, “who”, “whom”, “whose”, “which”, “when”, “where”, “why” y “how”) a fin de obtener una muestra variada de oraciones interrogativas. De este conjunto de 90.000 preguntas se seleccionaron de forma aleatoria 100 muestras para cada uno de los pronombres enumerados, generando una muestra de 900 oraciones interrogativas que fueron etiquetadas manualmente como “real” o “retórica”. El criterio que se estableció para el etiquetado fue el de considerar como preguntas reales aquellas que esperaban una respuesta, independientemente de si esa pregunta estaba formulada para un público general o no. Es decir, mensajes como “¿Qué vais a hacer después del partido?” fueron etiquetados como preguntas reales. Como resultado de este etiquetado, 680 preguntas fueron consideradas como retóricas mientras que sólo 220 fueron consideradas preguntas reales. Estas cifras dan una idea de que, efectivamente, la mayorı́a de oraciones interrogativas expresadas en Twitter no son consultas que esperen una respuesta, sino artificios retóricos para dar fuerza o emotividad al discurso de sus usuarios. Con el objetivo de conseguir un corpus equilibrado con respecto al número de muestras de cada tipo, se buscó la forma de obtener más preguntas reales formuladas por usuarios de Twitter. Para ello se recurrió a buscar mensajes que contuvieran el hashtag #lazyweb.6 La presencia de esta etiqueta prácticamente garantiza que el mensaje enviado es una pregunta que formula de manera general un usuario a sus seguidores. De esta manera se obtuvieron 2.803 tweets que contenı́an esta etiqueta y que, por tanto, representan una muestra rica de preguntas reales para entrenar al clasificador. La etiqueta #lazyweb fue eliminada en todos estos mensajes, ya que hubiera supuesto un rasgo definitorio a la hora de discriminar entre preguntas reales y retóricas. Para obtener el corpus equilibrado en los experimentos planteados en la sección 4, se seleccionaron 680 muestras al azar de este conjunto de 2.803. 5 6 El tratamiento de preguntas indirectas queda fuera del ámbito de esta investigación. Lazyweb es un concepto usado para describir el acto de trasladar preguntas a los usuarios de Internet antes de buscar la solución por uno mismo. Clasificador Precisión SVM NB IB1 RF 75,56 70,78 68,56 73,33 real retórica Precisión Cobertura F-score Precisión Cobertura 0,00 0,00 0,00 75,60 100,00 38,40 32,30 35,10 79,20 83,20 34,90 33,20 34,00 78,70 80,00 43,30 29,50 35,10 79,30 87,50 F-score 86,10 81,10 79,40 83,20 Tabla 2. Precisión obtenida por SVM, Naı̈ve Bayes (NB), IB1 y Random Forest (RF) sobre el corpus de 900 preguntas y sobre cada una de las clases (real y retórica). 4. Experimentos y resultados En esta sección se van a exponer los experimentos y resultados obtenidos en la evaluación del sistema propuesto. Se han planteado tres experimentos diferentes. El primero de ellos trata de evaluar el rendimiento del clasificador sobre el corpus de 900 preguntas etiquetado manualmente. El segundo se centra en el corpus aumentado con preguntas obtenidas a través del hashtag #lazyweb. El tercer y último experimento realiza un estudio selectivo donde se evalúa el aporte al rendimiento del sistema de cada uno de los grupos de caracterı́sticas definidos. En todos los experimentos el rendimiento del sistema se ha evaluado en términos de precisión, entendiendo como tal el resultado de dividir el número de preguntas correctamente clasificadas por el total de preguntas. Para evitar dividir el corpus en un conjunto de entrenamiento y en otro de evaluación, se ha realizado una validación cruzada en 10 particiones (10-fold cross-validation). 4.1. Corpus original En este experimento se ha trabajado con el corpus de 900 preguntas etiquetado manualmente, experimentando con todas las caracterı́sticas descritas en la sección 3.1 y empleando cuatro algoritmos de clasificación pertenecientes a diferentes familias: support vector machines (SVM) como representante de los clasificadores lineales, Naı̈ve Bayes de los métodos bayesianos, IB1 de los algoritmos basados en ejemplos y Random Forest de los árboles de decisión. La tabla 2 muestra los resultados obtenidos para el corpus completo (segunda columna) y de forma individualizada para cada una de las clases (real y retórica). Por los resultados obtenidos, podrı́a parecer que SVM es el que mejor rendimiento ofrece al obtener la mejor precisión en este experimento. Sin embargo, un análisis pormenorizado sobre cada una de las clases revela que para real obtiene una precisión y cobertura nula, es decir, todas las preguntas fueron clasificadas como pertenecientes a la clase retórica. El resto de algoritmos, aunque de forma menos marcada, muestra también una clara tendencia a asignar mayoritariamente la clase retórica a las instancias clasificadas. Para ver hasta qué punto está afectando al rendimiento del sistema la falta de equilibrio en el número de muestras de cada tipo en el corpus, se ha realizado un nuevo experimento seleccionando 220 preguntas de la clase retórica de entre Clasificador SVM NB IB1 RF 440 preguntas Precisión 64,73 ± 1,80 56,41 ± 4,55 57,73 ± 1,52 62,34 ± 2,40 1.360 preguntas Precisión Mejora 76,30 ± 0,56 +17,87 73,80 ± 1,43 +30,83 72,84 ± 1,09 +26,17 80,49 ± 1,01 +29,11 Tabla 3. Precisión media y desviación tı́pica obtenida por los cuatro algoritmos sobre el corpus equilibrado de 440 preguntas y sobre el de 1.360 preguntas. En este último caso, se muestra la mejora de precisión obtenida con respecto al anterior. las 680 existentes para equilibrar las 220 de la clase real y obtener un corpus de 440 preguntas. Este proceso de selección de 220 preguntas sobre las 680 totales se repitió 10 veces, evitando ası́ que una única selección al azar pudiera llevarnos a obtener un rendimiento poco realista del sistema. La tabla 3 muestra la media (µ) de la precisión y la desviación tı́pica (σ) calculada para cada uno de los algoritmos sobre las 10 iteraciones mencionadas. Las matrices de confusión obtenidas en estos experimentos (no incluidas aquı́ por motivos de espacio) muestran una mayor igualdad a la hora de asignar una u otra clase a las muestras del corpus, como resultado de haber equilibrado el corpus. Sin embargo, la tabla 3 nos ofrece un rendimiento bastante pobre para todos los clasificadores (SVM es el mejor con 64,73 %) y una desviación elevada en algunos casos (como con Naı̈ve Bayes) que revelan un comportamiento inestable dependiendo del subconjunto de muestras de entrenamiento elegido. Estos resultados revelan que el criterio establecido para decidir cuándo una pregunta es real o retórica (que espere o no una respuesta) durante el etiquetado del corpus ha generado un conjunto demasiado difuso en el cual las caracterı́sticas definidas no son capaces de resultar discriminatorias. Se antoja recomendable, pues, reconsiderar este criterio de etiquetado. Un enfoque más orientado a la aplicación final de este trabajo serı́a etiquetar como preguntas reales sólo aquellas que estén dirigidas a un público general y no a una persona concreta o a un grupo particular, al que apenas es necesario proporcionar información para que entienda plenamente la consulta formulada. Por otra parte, este tipo de preguntas personales carecerı́an de interés para un sistema que busque solventar de forma automática las consultas que plantean los usuarios en Twitter. 4.2. Corpus aumentado Este experimento va a analizar el rendimiento del clasificador empleando el corpus aumentado descrito en la sección 3.2, donde se aprovechó el uso popular de la etiqueta #lazyweb para recopilar un conjunto de preguntas reales formuladas en Twitter. La evaluación en este nuevo contexto consiste en la selección aleatoria de 680 preguntas de las más de 2.800 que se recopilaron. Junto con las 680 preguntas de tipo retórico etiquetadas manualmente se obtiene ası́ un corpus equilibrado de 1.360 preguntas. Este experimento se ha repetido 10 veces para asegurar que el rendimiento no está condicionado por el subconjunto aleatorio de preguntas seleccionado. La tabla 3 muestra la media y desviación tı́pica, ası́ como la mejora obtenida con respecto al corpus de 440 preguntas. Los resultados obtenidos revelan un rendimiento mucho más elevado que en el experimento realizado anteriormente con el corpus de 440 preguntas, obteniendo una precisión superior al 80 % con el algoritmo Random Forest y consiguiendo mejoras superiores al 30 % en el caso de Naı̈ve Bayes. La desviación tı́pica es también notablemente menor, demostrando un comportamiento más estable de los clasificadores frente a la selección del conjunto de muestras del experimento. Esta mejora viene dada por dos aspectos fundamentales. El primero es el tamaño del corpus empleado: 1.360 muestras frente a 440. Es sobradamente conocida la influencia que tiene el número de muestras del corpus de entrenamiento en el rendimiento del clasificador. El segundo aspecto es la calidad de las muestras. En el experimento anterior veı́amos que la frontera entre preguntas reales y retóricas resultaba demasiado difusa para el clasificador, ya que muchas de las preguntas que considerábamos como reales estaban destinadas a un público particular que requiere de muy poca información para su tratamiento. Sin embargo, en este segundo experimento, las preguntas reales obtenidas están claramente dirigidas a un público general y orientadas a la obtención de una respuesta. Poseen una mayor riqueza de información que en el caso anterior que facilita al clasificador la labor de discriminar entre éstas y las preguntas de tipo retórico. 4.3. Estudio selectivo Con el objetivo de evaluar la importancia de cada uno de los grupos de caracterı́sticas definidos en la tabla 1, se ha realizado un estudio selectivo, eliminando en cada iteración una de las caracterı́sticas en el proceso de evaluación y comprobando la influencia producida sobre el rendimiento global del clasificador. Este experimento se ha realizado sobre el corpus de 1.360 preguntas. Vamos a centrar el estudio en el algoritmo Random Forest, que es el que mejor resultado obtuvo en el apartado anterior. La figura 1 muestra los resultados obtenidos. La lı́nea etiquetada como “Todas” muestra la precisión media µ obtenida utilizando todas las caracterı́sticas. Las lı́neas paralelas superior e inferior representan µ + σ y µ − σ respectivamente. En esta gráfica se observa que las caracterı́sticas del lenguaje de Twitter (número menciones, número hashtags, contiene enlaces y número palabras) son las que más afectan al rendimiento del clasificador al ser eliminadas. Los signos de puntuación, la información morfológica y las relaciones establecidas influyen también de manera sustancial en el rendimiento final. Son este tipo de caracterı́sticas superficiales del lenguaje las que más afectan al sistema. Sin embargo, las caracterı́sticas semánticas relativas a entidades, análisis de sentimientos y WorNet apenas afectan al rendimiento del sistema, siendo llamativo el caso de WordNet, en el que su eliminación favorece al rendimiento final del clasificador. Si bien podrı́a concluirse que la información semántica carece de utilidad para la discriminación de preguntas reales y retóricas, hay que tener en cuenta que el tratamiento del lenguaje informal se haya todavı́a en una fase incipiente, Random Forest Todas Seleccion 84 Precisión 82 80 78 76 s ne io ac ad rid la el R Po et dN or W s ca gi ló fo es ad tid or M En je ua ng Le ón ci ua nt Pu Características eliminadas Figura 1. Precisión del clasificador Random Forest sobre el corpus de 1.360 preguntas al eliminar cada uno de los conjuntos de caracterı́sticas definidos. “Todas” muestra la precisión obtenida al emplear todas las caracterı́sticas. y que el rendimiento obtenido por éstas herramientas dista todavı́a del obtenido por sus equivalentes para lenguaje formal, pudiendo ser un motivo fundamental de la escasa efectividad de estas caracterı́sticas. Para completar este estudio sobre la relevancia de cada una de las caracterı́sticas en el rendimiento del clasificador, hemos utilizado information gain (IG) como medida para determinar cuáles son las caracterı́sticas que aportan más información durante el proceso de aprendizaje. El orden de relevancia asignado por IG fue el siguiente (de mayor a menor): Número followers, Número propios, Número menciones, Número interrogativos, Número palabras, Número friends, Relación friends/followers, Media camino, Número verbos, Contiene enlaces, Número exclamaciones, Encontrados WordNet, Polaridad, Número propios, Número entidades, Número interjecciones, Porcentaje Wordnet, Número Hashtags y Contiene Comillas. Esta lista muestra que la caracterı́stica más relevante según IG es el número de seguidores del autor del tweet. Este resultado confirma el estudio realizado por InboxQ [2], donde se indica que un 67 % de los usuarios que formulan preguntas en Twitter tienen más de 100 seguidores. Es decir, existe una correlación entre la formulación de preguntas reales y el número de seguidores. El número de menciones también tiene una relevancia importante. Incluir nombres de personas en oraciones interrogativas puede ser indicativo de que el mensaje va dirigido a una persona particular y que probablemente se trate de un mensaje privado y no de una petición de información. El número de interrogativos también tiene una relevancia notable. Varios interrogativos consecutivos puede denotar un grado alto de informalidad (“¿¿Qué me dices??”). Por otra parte, varias oraciones interrogativas consecutivas pueden ser un claro ejemplo de uso retórico del lenguaje (“¿Dónde están tu valores? ¿Y tu dignidad?”). Por lo que respecta a las caracterı́sticas peor valoradas, el uso de comillas (muy habitual en expresiones literales) o el número de hashtags no parecen ser relevantes para la clasificación, al igual que el porcentaje de términos del mensaje que aparecen en WordNet (y que podrı́an dar una idea del grado de formalidad del lenguaje empleado) o el número de interjecciones (que podrı́a ser también indicativo de la formalidad o informalidad del mensaje). 5. Trabajo relacionado La red social Twitter se ha convertido en los últimos años en foco de estudio preferente para la comunidad investigadora dentro del área de la recuperación de información y la minerı́a de opiniones. El volumen de datos que se genera en Twitter y su particular idiosincrasia han abierto un nuevo panorama de oportunidades y retos para la comunidad investigadora en el área de las tecnologı́as del lenguaje humano. Muchos de los estudios realizados en este campo están relacionados con el análisis de opiniones [3] y la detección de eventos en tiempo real [6]. El lenguaje informal usado habitualmente en Twitter ha llevado a realizar numerosos trabajos para la adaptación de técnicas aplicadas tradicionalmente sobre textos formales, como el etiquetado de entidades [5]. Dentro del campo de la búsqueda de información, la tarea TREC Microblog,7 centrada en el desarrollo y evaluación de sistemas de recuperación de información sobre Twitter, se celebró por primera vez en 2011 con un notable éxito de participación. Son numerosos los estudios centrados en la evaluación de medidas para ponderar la relevancia de los tweets con respecto a una consulta [1]. Por lo que respecta a la búsqueda de respuestas, existen algunos productos comerciales para la detección de preguntas formuladas en Twitter, ofreciendo la posibilidad a los usuarios de esta red social de responder a las preguntas. No se trata de sistemas automáticos de BR, sino de interfaces que facilitan que los usuarios respondan a las preguntas formuladas por otros ususarios, siguiendo la filosofı́a de los sistios sociales de búsqueda de respuestas como Yahoo! Answers. InboxQ8 y TweetQA9 son dos ejemplos de este tipo de aplicaciones. Estos sitios no aplican ningún tipo de análisis para detectar cuándo un usuario a formulado una pregunta, sino que sus mensajes deben emplear unos patrones fijos en su consulta para que sean detectadas por la aplicación. Fuera del contexto de la búsqueda de respuestas, existe un trabajo similar al nuestro en su intención, aunque no en su fondo [10]. En este trabajo se propone un sistema de clasificación para el campo de la biomedicina capaz de determinar cuándo una pregunta puede ser contestada o no por especialistas médicos. Para ello utilizan un corpus de preguntas clasificadas y una ontologı́a médica para determinar sobre qué patologı́as se puede dar respuesta y sobre cuáles no. 7 8 9 http://trec.nist.gov/tracks.html. https://www.inboxq.com/. http://www.tweetqa.com/. 6. Conclusiones y trabajo futuro En este trabajo se ha planteado un sistema para la detección de preguntas reales formuladas por usuarios de Twitter. Este sistema pretende ser un paso previo para un cambio de paradigma en el funcionamiento de los sistemas de BR, haciendo que los propios sistemas sean los que detecten las necesidades de información de los usuarios y acudan en su ayuda. Se ha desarrollado un clasificador capaz de discriminar entre preguntas reales y preguntas retóricas, estudiando el rendimiento de diferentes algoritmos y caracterı́sticas de aprendizaje en el proceso. Los resultados obtenidos son prometedores, alcanzando valores por encima del 80 % de precisión. Como trabajo futuro se plantea la ampliación del corpus de entrenamiento y el estudio de los tipos de pregunta que se dan en Twitter, además de incorporar al sistema el tratamiento de preguntas indirectas. Referencias 1. Duan, Y., Jiang, L., Qin, T., Zhou, M., Shum, H.Y.: An empirical study on learning to rank of tweets. In: Proceedings of the 23rd International Conference on Computational Linguistics. pp. 295–303. COLING ’10, ACL, Stroudsburg, PA, USA (2010) 2. InboxQ: Twitter’s loaded questions: How people ask and answer questions on twitter. http://blog.inboxq.com/?page=7 (2011), [Accedido 14-Diciembre-2011] 3. Joshi, A., Balamurali, A.R., Bhattacharyya, P., Mohanty, R.: C-feel-it: a sentiment analyzer for micro-blogs. In: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics. pp. 127–132. HLT ’11, ACL, Stroudsburg, PA, USA (2011) 4. Li, X., Roth, D.: Learning question classifiers: the role of semantic information. Natural Language Engineering 12(3), 229–249 (2006) 5. Ritter, A., Clark, S., Mausam, Etzioni, O.: Named entity recognition in tweets: an experimental study. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. pp. 1524–1534. EMNLP ’11, ACL, Stroudsburg, PA, USA (2011) 6. Sakaki, T., Okazaki, M., Matsuo, Y.: Earthquake shakes twitter users: real-time event detection by social sensors. In: Proceedings of the 19th conference on World Wide Web. pp. 851–860. WWW ’10, ACM, New York, NY, USA (2010) 7. Tomás, D.: Sistemas de clasificación de preguntas basados en corpus para la búsqueda de respuestas. Ph.D. thesis, Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante, España (Julio 2009) 8. Twitter: Twitter turns six. http://blog.twitter.com/2012/03/ twitter-turns-six.html (2011), [Accedido 26-Marzo-2012] 9. Voorhees, E.M.: The trec-8 question answering track report. In: Eighth Text REtrieval Conference. NIST Special Publication, vol. 500-246, pp. 77–82. National Institute of Standards and Technology, Gaithersburg, USA (1999) 10. Yu, H., Sable, C.: Being erlang shen: Identifying answerable questions. In: Proceedings of the Workshop on Knowledge and Reasoning for Answering Questions. IJCAI ’05 (2005)