análisis de opinión y valoración de productos y marcas en

Anuncio
ANÁLISIS DE OPINIÓN Y VALORACIÓN DE PRODUCTOS Y
MARCAS EN INTERNET A PARTIR DE UNA RED SOCIAL DE
MICROBLOGGING
Autor:
Merlo Álvarez, Roberto.
Directores:
Contreras Bárcena, David.
Puente Águeda, Cristina.
Entidad colaboradora: ICAI – Universidad Pontificia Comillas
RESUMEN DEL PROYECTO
Saber qué opinan los demás sobre algo ha sido siempre un factor decisivo a la hora de
tomar decisiones. Con la aparición de Internet, las opiniones y valoraciones han traspasado
las antiguas fronteras de este tipo de comunicación “de boca en boca” (word of mouth),
tradicionalmente las redes sociales de confianza (familia y amigos) y revistas
especializadas.
Pero con este nuevo orden de magnitud de posibilidades, también aparecen nuevos retos
para los usuarios que buscan informarse ante una decisión: frustración por la falta de
información o incapacidad para encontrarla, confusión por la información encontrada o
sentirse abrumados por la cantidad de información encontrada.
Por otro lado se encuentran las empresas y otros organismos sensibles a la opinión
pública, cuyo interés por conocer y monitorizar este tipo de comunicación es cada vez
mayor, ya que la notable influencia que éste tiene sobre los consumidores y sus decisiones
de compra presentes y futuras ha quedado patente en numerosos estudios.
En este contexto, son dos los objetivos generales:

Poder ofrecer a las empresas y entes sensibles a la opinión pública la capacidad de
medir, analizar y monitorizar cómo se está hablando de ellas en Internet,
permitiéndoles por ello poder reaccionar a los comentarios y desarrollar una
estrategia de marketing y una política de gestión de marca adecuada.

Poder ofrecer a los usuarios consumidores de cualquier producto o servicio ofrecido
por los entes anteriores, y que deseen informarme ante una decisión de compra, etc.
una información lo más completa posible, agregada y sintetizada en un solo valor.
Este proyecto supone el desarrollo de un sistema inteligente capaz de recuperar
información relevante ante una determinada consulta así como de analizarla y discernir si
dicha información expresa una opinión y si ésta es positiva o negativa.
La recuperación de información parte de la red social de microblogging Twitter, donde
millones de usuarios comparten breve información, comentarios y opiniones a un ritmo de
514 mensajes por segundo, pero no se limita a ésta sino que acaba analizando información
de todo Internet a través de los enlaces que incluyen los propios mensajes referenciando a
medios externos con relevancia para el autor.
El estudio del estado del arte sobre el análisis de opinión revela que la mejor
aproximación consiste en considerar el problema como una tarea de clasificación de textos
binaria (entre las clases subjetivo/objetivo o positivo/negativo). Para ello se han entrenado
clasificadores mediante aprendizaje automático basados en SVM, de forma que si el
clasificador de subjetividad detecta subjetividad, ésta pasa al clasificador de sentimiento
para determinar su polaridad, es decir, si es positivo o negativo. Esta estructura de
clasificadores está duplicada, una para Twitter y otra para los medios web, ya que el
lenguaje utilizado es diferente en ambos.
Previamente al análisis de opinión se somete al lenguaje del contenido del mensaje o de
la web a una serie de transformaciones con dos propósitos fundamentales: que una palabra
aparezca siempre escrita de la misma manera y eliminar elementos que puedan distorsionar
la clasificación.
Finalmente, tras el análisis de opinión tanto del mensaje como del posible medio externo
referenciado, se combinan ambas opiniones en una sola opinión de mensaje, para
posteriormente agregar todas las opiniones de los mensajes recuperados y obtener la
opinión global de la red.
Respecto a los sistemas del estado del arte que también analizan la opinión de los
mensajes en Twitter se han conseguido dos factores diferenciadores muy importantes:

Es el único de los sistemas que no sólo tiene en cuenta la información de Twitter,
sino también otros medios externos en Internet, e indirectamente por ello también
tiene en cuenta los mensajes objetivos/neutrales.

La bondad de la clasificación de subjetividad y sentimiento es superior, debido a las
transformaciones del tratamiento previo del lenguaje y al planteamiento seguido en
el entrenamiento del clasificador de subjetividad.
ANALYSIS OF OPINION AND EVALUATION OF PRODUCTS AND
BRANDS INTERNET FROM A MICROBLOGGING SOCIAL
NETWORK
What other people thinks about something has always been a decisive factor in making
decisions. With the advent of the Internet, opinions and reviews have gone beyond the old
boundaries of such word of mouth communication, traditionally social networks of trust
(family, friends) and specialized magazines.
But this new order of magnitude of possibilities also brings new challenges for users
seeking information before making a decision: frustration from the lack on information or
the inability to find it, confusion from the information found or feeling overwhelmed by the
amount of available information.
There are also the companies and other public opinion sensitive organizations, whose
interest in learning about and monitor this type of communication is increasing as the
influence it has on consumers has been proven in numerous studies.
In this context two main objectives arise:

Being able to offer companies and other public opinion sensitive organizations the
ability to measure, analyze and monitor how people is talking about them on the
Internet, thus enabling them to react to the comments and develop a marketing
strategy and an adequate brand management policy.

Being able to provide consumers who seek information before making a purchase
decision with information as complete as possible, aggregated and summed up into
a single value.
This project involves the development of an intelligent system able to retrieve
information relevant to any particular query as well as to analyze and discern whether it
expresses an opinion and if this opinion is positive or negative.
The information retrieval starts from the microblogging social network Twitter, where
millions of users share brief information, comments and opinions at a rate of 514 messages
per second, but it is not limited to this and it also analyses information of the entire Internet
through the hyperlinks included on the messages, which reference external media relevant
to the author.
The study of opinion analysis’ state of the art reveals that the best approach is to
consider the problem as a task of binary text classification (between subjective/objective or
positive/negative classes). In order to do so, machine learning classifiers based on SVM
have been trained, so that the subjectivity classifier detects if there is an opinion, and in case
there is, the sentiment classifier determines its polarity, that is whether the opinion is
positive or negative.
The content of the messages or the external media is subject to a process of
transformation prior to the opinion analysis with two main purposes: that any given word
always appears written the same way and to remove any item that may distort or bias the
classification.
Finally, after having analyzed both the message’s content and the possible external
media, both opinions are combined into a single message opinion, to be able afterwards to
add all the recovered messages’ opinions and get the global opinion on the Internet.
Regarding the other state of the art systems that also analyze the sentiment on Twitter,
the developed system has achieved two important differentiating factors:

It is the only system that not only takes into account information from Twitter, but
also from other external Internet media, and thus indirectly taking into account the
objective/neutral messages.

Te accuracy of both subjectivity and sentiment classification is better, due to the
transformations of the pretreatment of the language and the approach followed to
obtain the subjectivity classifier.
Descargar