ANÁLISIS DE OPINIÓN Y VALORACIÓN DE PRODUCTOS Y MARCAS EN INTERNET A PARTIR DE UNA RED SOCIAL DE MICROBLOGGING Autor: Merlo Álvarez, Roberto. Directores: Contreras Bárcena, David. Puente Águeda, Cristina. Entidad colaboradora: ICAI – Universidad Pontificia Comillas RESUMEN DEL PROYECTO Saber qué opinan los demás sobre algo ha sido siempre un factor decisivo a la hora de tomar decisiones. Con la aparición de Internet, las opiniones y valoraciones han traspasado las antiguas fronteras de este tipo de comunicación “de boca en boca” (word of mouth), tradicionalmente las redes sociales de confianza (familia y amigos) y revistas especializadas. Pero con este nuevo orden de magnitud de posibilidades, también aparecen nuevos retos para los usuarios que buscan informarse ante una decisión: frustración por la falta de información o incapacidad para encontrarla, confusión por la información encontrada o sentirse abrumados por la cantidad de información encontrada. Por otro lado se encuentran las empresas y otros organismos sensibles a la opinión pública, cuyo interés por conocer y monitorizar este tipo de comunicación es cada vez mayor, ya que la notable influencia que éste tiene sobre los consumidores y sus decisiones de compra presentes y futuras ha quedado patente en numerosos estudios. En este contexto, son dos los objetivos generales: Poder ofrecer a las empresas y entes sensibles a la opinión pública la capacidad de medir, analizar y monitorizar cómo se está hablando de ellas en Internet, permitiéndoles por ello poder reaccionar a los comentarios y desarrollar una estrategia de marketing y una política de gestión de marca adecuada. Poder ofrecer a los usuarios consumidores de cualquier producto o servicio ofrecido por los entes anteriores, y que deseen informarme ante una decisión de compra, etc. una información lo más completa posible, agregada y sintetizada en un solo valor. Este proyecto supone el desarrollo de un sistema inteligente capaz de recuperar información relevante ante una determinada consulta así como de analizarla y discernir si dicha información expresa una opinión y si ésta es positiva o negativa. La recuperación de información parte de la red social de microblogging Twitter, donde millones de usuarios comparten breve información, comentarios y opiniones a un ritmo de 514 mensajes por segundo, pero no se limita a ésta sino que acaba analizando información de todo Internet a través de los enlaces que incluyen los propios mensajes referenciando a medios externos con relevancia para el autor. El estudio del estado del arte sobre el análisis de opinión revela que la mejor aproximación consiste en considerar el problema como una tarea de clasificación de textos binaria (entre las clases subjetivo/objetivo o positivo/negativo). Para ello se han entrenado clasificadores mediante aprendizaje automático basados en SVM, de forma que si el clasificador de subjetividad detecta subjetividad, ésta pasa al clasificador de sentimiento para determinar su polaridad, es decir, si es positivo o negativo. Esta estructura de clasificadores está duplicada, una para Twitter y otra para los medios web, ya que el lenguaje utilizado es diferente en ambos. Previamente al análisis de opinión se somete al lenguaje del contenido del mensaje o de la web a una serie de transformaciones con dos propósitos fundamentales: que una palabra aparezca siempre escrita de la misma manera y eliminar elementos que puedan distorsionar la clasificación. Finalmente, tras el análisis de opinión tanto del mensaje como del posible medio externo referenciado, se combinan ambas opiniones en una sola opinión de mensaje, para posteriormente agregar todas las opiniones de los mensajes recuperados y obtener la opinión global de la red. Respecto a los sistemas del estado del arte que también analizan la opinión de los mensajes en Twitter se han conseguido dos factores diferenciadores muy importantes: Es el único de los sistemas que no sólo tiene en cuenta la información de Twitter, sino también otros medios externos en Internet, e indirectamente por ello también tiene en cuenta los mensajes objetivos/neutrales. La bondad de la clasificación de subjetividad y sentimiento es superior, debido a las transformaciones del tratamiento previo del lenguaje y al planteamiento seguido en el entrenamiento del clasificador de subjetividad. ANALYSIS OF OPINION AND EVALUATION OF PRODUCTS AND BRANDS INTERNET FROM A MICROBLOGGING SOCIAL NETWORK What other people thinks about something has always been a decisive factor in making decisions. With the advent of the Internet, opinions and reviews have gone beyond the old boundaries of such word of mouth communication, traditionally social networks of trust (family, friends) and specialized magazines. But this new order of magnitude of possibilities also brings new challenges for users seeking information before making a decision: frustration from the lack on information or the inability to find it, confusion from the information found or feeling overwhelmed by the amount of available information. There are also the companies and other public opinion sensitive organizations, whose interest in learning about and monitor this type of communication is increasing as the influence it has on consumers has been proven in numerous studies. In this context two main objectives arise: Being able to offer companies and other public opinion sensitive organizations the ability to measure, analyze and monitor how people is talking about them on the Internet, thus enabling them to react to the comments and develop a marketing strategy and an adequate brand management policy. Being able to provide consumers who seek information before making a purchase decision with information as complete as possible, aggregated and summed up into a single value. This project involves the development of an intelligent system able to retrieve information relevant to any particular query as well as to analyze and discern whether it expresses an opinion and if this opinion is positive or negative. The information retrieval starts from the microblogging social network Twitter, where millions of users share brief information, comments and opinions at a rate of 514 messages per second, but it is not limited to this and it also analyses information of the entire Internet through the hyperlinks included on the messages, which reference external media relevant to the author. The study of opinion analysis’ state of the art reveals that the best approach is to consider the problem as a task of binary text classification (between subjective/objective or positive/negative classes). In order to do so, machine learning classifiers based on SVM have been trained, so that the subjectivity classifier detects if there is an opinion, and in case there is, the sentiment classifier determines its polarity, that is whether the opinion is positive or negative. The content of the messages or the external media is subject to a process of transformation prior to the opinion analysis with two main purposes: that any given word always appears written the same way and to remove any item that may distort or bias the classification. Finally, after having analyzed both the message’s content and the possible external media, both opinions are combined into a single message opinion, to be able afterwards to add all the recovered messages’ opinions and get the global opinion on the Internet. Regarding the other state of the art systems that also analyze the sentiment on Twitter, the developed system has achieved two important differentiating factors: It is the only system that not only takes into account information from Twitter, but also from other external Internet media, and thus indirectly taking into account the objective/neutral messages. Te accuracy of both subjectivity and sentiment classification is better, due to the transformations of the pretreatment of the language and the approach followed to obtain the subjectivity classifier.