LOS TWEETS COMO HERRAMIENTA DE ANÁLISIS DE LA CUESTIÓN ÁMBITO ESTATAL

Anuncio
LOS TWEETS COMO HERRAMIENTA DE ANÁLISIS DE LA CUESTIÓN
NACIONAL EN ESPAÑA ENTRE PARTIDOS POLÍTICOS DE
ÁMBITO ESTATAL
Luis Navarro Ardoy, Universidad Pablo de Olavide, [email protected] (contacto)
Arturo Montejo Ráez, Universidad de Jaén, [email protected]
Manuel Carlos Díaz Galiano, Universidad de Jaén, [email protected]
Resumen: Es difícil no estar de acuerdo en que la cuestión nacional en España es hoy,
más que nunca, uno de los temas más relevantes en la agenda de los partidos políticos. A
diferencia de nuestro pasado reciente, hablar hoy de nacionalismo español y de cuestiones
relacionadas con el sentimiento nacional y el patriotismo español se ha convertido en algo
cotidiano y frecuente. Hablar de ello es hoy una cuestión recurrente que pocas veces se
deja de lado cuando se pregunta o se habla de España. Para estudiarlos entre los partidos
políticos, se han utilizado encuestas de opinión, programas electorales, iniciativas
parlamentarias y entrevistas a élites políticas. Nuestra propuesta pretende establecer una
novedad al utilizar los tweets como instrumento de análisis del debate de la cuestión
nacional en España. El gran reto metodológico supone procesar la ingente cantidad de
información que proporciona Twitter y, tras organizarla en seis grupos (PP, PSOE,
Podemos, C's, UPyD e IU), caracterizarlos con medidas de distancia e indicadores
psicolingüísticos. En la comunicación presentaremos los resultados obtenidos.
Palabras claves: Twitter, España, nación, redes sociales, partidos políticos.
INTRODUCCIÓN
Hoy, es difícil no estar de acuerdo en que las palabras son la materia prima de la política.
Sin ellas no hay discurso, ni proyecto (Gutiérrez-Rubí, 2016). Cuando los temas que
entran a formar parte del debate político tocan cuestiones relacionadas con la nación
española, la terminología es muy importante. De forma general, lo es tanto por la
relación que las ideologías de derechas y de izquierda mantienen con el nacionalismo
como, de forma particular, por los desarrollos particulares que la idea de nación española
ha tenido en nuestro país (Ferri y Ruiz, 2015).
Las palabras referidas a España y a la idea de nación española han entrado con fuerza en
el lenguaje político. Hoy, más que nunca, son términos muy activos en la agenda de
1
prácticamente todos los partidos políticos. A diferencia de nuestro pasado reciente,
hablar hoy de nacionalismo español, de nación española y de patria y patriotismo se ha
convertido en algo cotidiano y frecuente.
Cuarenta años después de la muerte del general Franco, lo nuevo hoy es que nos
encontramos en la situación insólita de que también los partidos de izquierda hablan de
nación española, de patria y de patriotismo. Donde antes había una auto-contención
nacionalista o una resistencia a hablar de España entre la izquierda (Navarro, 2016; Ferri
y Ruiz, 2015; Muñoz, 2012; Mateo, 2005; De Blas, 2003; Bastida, 2002), hoy el
discurso se ha normalizado y está menos monopolizado por la derecha política
contemporánea. Hoy, flota en el ambiente un intento de la izquierda por ofrecer una idea
de España desfranquizada. Quienes lo incorporaron con bastante éxito fueron líderes de
la formación política morada. La utilización del término patria en Podemos para referirse
a España es uno de los mejores ejemplos de lo que decimos (Juliana, 2015).
Por lo tanto, las palabras que los partidos políticos eligen para designar una realidad no
son arbitrarias. No es lo mismo hablar de España utilizando términos referidos a su
estructura política-administrativa (organización territorial) que incluir términos o
visiones más afectivas (sentimiento nacional, patriotismo...) (Easton, 1965; Anderson,
1991). Para los investigadores, se ha convertido en un campo de análisis muy rico la
ingente cantidad que circula por Internet. Los Big Data (BD), también denominados
macrodatos, son un nuevo producto de la sociedad del conocimiento hecho posible por
las tecnologías digitales, las redes sociales y el cloud computing (González de la Fé,
2014).
En este texto tratamos de caracterizar a los partidos políticos de ámbito estatal (PP,
PSOE, Podemos, Cs, UPyD e IU) a partir del análisis de textos (mensajes) sobre España
publicados en la popular red social Twitter. Nos centramos en las palabras relacionadas
con la nación española y la organización territorial que dichos partidos ofrecen, a través
de esta red social, a la ciudadanía. Mediante diversas técnicas, se propone el cálculo de
características que pueda establecer medidas de similitud o distancia entre esos partidos
junto a otros elementos que permitan conocer su comportamiento a nivel de manejo del
lenguaje. El gran reto supone procesar la ingente cantidad de información que
proporciona Twitter y, tras organizarla en seis grupos correspondientes a esos seis
partidos, caracterizarlos con medidas de distancia e indicadores psicolingüísticos.
En el siguiente apartado revisamos de manera breve el estado de la cuestión sobre el uso
de las redes sociales para el análisis de las opiniones. Después presentamos la
2
metodología utilizada y justificamos cómo se han preparado los datos para el análisis
posterior. En el cuarto epígrafe presentamos los resultados obtenidos. En las
conclusiones se sintetizan los hallazgos principales y se reflexiona sobre sus potenciales
implicaciones.
ESTADO DE LA CUESTIÓN
El uso de las redes sociales para el análisis de opiniones se ha convertido en una de las
áreas de investigación más activas de estos recientes años (Martínez et al., 2014),
consolidándose como servicios adicionales ofrecidos por empresas que facilitan
informes y cuadros de mando en tiempo real sobre diversos flujos de información, como
SocialMention 1 o Klout 2.
En España se han llevado a cabo proyectos como AORESCU (Troyano et al., 2015),
enfocado al análisis de opiniones de usuarios en redes sociales para el idioma español, lo
cual implica la generación de recursos y el estudio de algoritmos. El trabajo de Vilares
(2016) supone una revisión detallada de los estudios realizados en cuanto al uso de las
redes sociales (en especial Twitter) para el análisis político, con la predicción de
resultados electorales como un objetivo principal. De esta revisión extraemos que nos
enfrentamos a un problema complejo, que merece ser estudiado en profundidad, y con
varios elementos involucrados: el sesgo del grupo, la dominancia de género, la relación
ideológica entre usuarios, etc.
Recomendar productos en base a perfiles de usuario es algo que implica la generación,
primero, de dichos perfiles (Guy et al., 2010), los cuales suelen construirse a partir de las
interacciones de cada usuario e identificando ciertos elementos (como los tags
utilizados). El estudio de perfiles de usuario en redes sociales es de gran interés para la
industria, al permitir un encaminamiento de la información a destinatarios con mayor
tasa de aceptación. De hecho, ya existe alguna patente al respecto, como la de Google
para generar la lista de eventos de interés en usuarios de una red social (Bosworth et al.,
2010).
En nuestro caso, el interés se centra en caracterizar partidos políticos (grupos). Un
trabajo reciente y destacado en este sentido es el de Zhang y Counts (2015). En él
estudian datos recopilados de la red Twitter para analizar qué factores llevan a un
cambio político a partir de los rasgos sociales detectados. Con un 87% de precisión,
llegan a la conclusión de que, tras evidenciar las batallas culturales entre ideologías en el
1
2
www.socialmention.com
klout.com
3
caso de la propuesta de una ley para el matrimonio de parejas de un mismo sexo, es
posible construir un modelo estadístico que prediga la potencialidad de un cambio
político. En este sentido, observaron empíricamente que las posiciones que mostraban
mayor carga emocional y un menor número de integrantes rara vez conducía a dicho
cambio. Todo un ejemplo que refleja la posibilidad de modelar ideologías a partir de
macrodatos.
PREPARACIÓN DE LOS DATOS
Con el objetivo de explorar qué palabras relacionadas con la cuestión nacional en
España difundían los partidos políticos en Twitter, diseñamos la siguiente estrategia.
Recopilamos publicaciones de la popular red social Twitter durante 23 días no siempre
consecutivos entre los meses de octubre y noviembre de 2015. Los días monitorizados
responden al contexto de unas "inéditas" elecciones generales del 20D de 2015 porque
todas las encuestas preveían el fin del bipartidismo y la entrada en la arena política de
formaciones emergentes como Ciudadanos y Podemos. Se recogieron datos antes
(recogida en periodo preelectoral) y después de dichas elecciones (recogida en periodo
postlectoral). En concreto, para el mes de octubre se han monitorizado los días 20, 21,
28, 29, 30 y 31. Para noviembre del 1 al 10, el día 12 y del 19 al 24. Los días concretos
así como las horas de captura han respondido a la disponibilidad de la red y de la
infraestructura de almacenamiento.
Durante la semana previa a la captura de datos estuvimos rastreando diferentes cuentas
de Twitter de los seis partidos políticos de ámbito estatal que nos interesaban analizar
(PP, PSOE, Podemos, C’s, UPyD e IU). Además de las cuentas oficiales, incluimos a
otras de los líderes más activos en esta red social basándonos fundamentalmente en el
mayor número de tweets y el número de seguidores 3. Finalmente, seleccionamos las
siguientes:
PP: @PPopular, @marianorajoy, @EsperanzAguirre, @mdcospedal, @Sorayapp
PSOE: @PSOE, @sanchezcastejon, @_susanadiaz, @patxilopez, @micaela_navarro
Ciudadanos: @CiudadanosCs, @Albert_Rivera, @ferdeparamo, @InesArrimadas,
@malonsocs, @CiudadanoVille
Podemos: @ahorapodemos, @Pablo_Iglesias_, @ierrejon
Izquierda Unida: @iunida, @agarzon, @GLlamazares
UPyD: @UPYD, @Herzogoff
3
La lista de usuarios más “activos” en la red nos resultó de utilidad para la selección de la
muestra (http://www.twitter-espana.com/categoria/politica). En todo caso, conviene saber que
este es un estudio exploratorio.
4
Los datos han sido extraídos directamente de las mencionadas cuentas de Twitter, a
través de su Interfaz de Programación de Aplicaciones (siglas API en inglés 4) que
permite que un programa pueda solicitar y descargar tweets. En nuestro caso, el
programa utilizado para comunicarse con Twitter ha sido Logstash 5, gracias a su módulo
de conexión con Twitter. Una vez descargados todos los tweets, se han guardado usando
Elastic-Search 6 como sistema de almacenamiento, el cual permite un acceso rápido a los
mismos con buen rendimiento.
Los tweets han sido filtrados y procesados de la siguiente forma:
1. Sólo se conserva la información relativa al texto del tweet (no se consideran
metadatos adicionales como autor, hora y fecha o lugar).
2. Sólo se consideran los tweets con un mínimo de 6 términos.
3. Se descartan retweets, es decir, aquellos que son reenvíos de tweets de otros
usuarios.
4. Se descartan tweets con enlaces pues la interpretación del mensaje implicaría una
comprensión del contenido de la página web apuntada.
5. Se normalizan los textos dejando todo a minúsculas, sin tildes y comprimiendo
repeticiones de letras a dos ocurrencias (“hoooola” y “HOOOLA” pasarían a ser
“hoola”).
Las estadísticas de los tweets obtenidos tras el filtrado y el procesamiento son las
siguientes:
Tabla I. Estadísticas del corpus
Días
Total de tweets
Volumen de datos
Tamaño vocabulario
28
5,530,927 tweets
554 MB
159,587 términos
RESULTADOS
Una vez preparados los datos, presentamos los resultados obtenidos. Mostramos en un
primer momento las palabras más frecuentes utilizadas en Twitter por el PP, PSOE,
Podemos, C’s, UPyD e IU. Intentamos aproximarnos a la cuestión nacional en España a
través de un conteo y un ranking de palabras. Tendremos en cuenta la importancia de
cada palabra (el puesto que ocupa en el ranking de las veinte más utilizadas por cada
partido), así como la frecuencia de aparición en términos absolutos y el porcentaje de
4
5
6
https://dev.twitter.com/rest/public
https://www.elastic.co/products/logstash
https://www.elastic.co/
5
cada palabra de cada partido respecto al total de apariciones. En un segundo momento,
nos interesa caracterizar a esos partidos a través del lenguaje utilizado. Tanto en el
primer caso como en el segundo, analizamos las particularidades de cada partido y
exploramos la existencia de patrones comunes de comportamiento.
Frecuencia y ranking de palabras
De las palabras más frecuentes relacionadas con la cuestión nacional en Twitter de los
partidos políticos de ámbito estatal (PAE), "país" es la única que aparece entre las veinte
primeras de todos los partidos (véase Figura 1). Además, en todos, excepto en UPyD,
aparece entre las tres primeras más frecuentes de cada partido. Como se observa en la
Figura 1, para Podemos es su primera palabra, la palabra estrella que más visualiza entre
las cuentas de Twitter seleccionadas. De todas las veces que aparece la palabra “país”
(6.902), en el 9,3% de los casos es de Podemos. También para el PSOE es la primera
palabra aunque su peso respecto al total representa un porcentaje menor (3,4%).
"Historia", con un total de 2.680 apariciones, es otra de las palabras que aparece entre las
veinte más utilizadas por casi todos los partidos políticos PAE. En este caso, resalta
especialmente el peso de Ciudadanos en ese total (representa el 55,6%), seguido a gran
distancia del PSOE (20%) y PP (15,1%).
"España" es otra de las palabras frecuentes de todas las analizadas (aparece en 2.563
ocasiones). Es la primera para el PP en el ranking de las más utilizadas aunque disputada
con otras como “presidente”. Sabemos por los medios que líderes de IU no suelen
incorporar en su discurso la palabra España, lo que también se confirma en nuestro
análisis: sólo en el 1,5% de los casos "España" aparece en alguna cuenta de IU (38
veces).
Cuando prácticamente todas las formaciones políticas reclamaban la revisión de la
Constitución de cara a mejorar el acomodo territorial, era de esperar que también en
Twitter fuese una palabra de las más utilizadas. Aparece 1.734 veces en total,
especialmente en cuentas de los dos partidos políticos mayoritarios: 488 veces en el PP
(representa el 28,1% de ese total) y 446 en el PSOE (25,7%). Le sigue C’s (334 veces;
19,3%) y UPyD (275 veces; 15,9%). En el caso de Podemos (143; 8,2%) y
fundamentalmente IU (48; 2,8%) su uso es muy minoritario.
Si atendemos a las particularidades de cada partido político, diríamos que Ciudadanos
visualiza en Twitter sobre todo la palabra “democracia” seguida de “país”, “historia” y
“España”. Es el único partido que menciona la palabra “negros” (1.175 veces; 4,7% de
todas las utilizadas por su partido) y el que utiliza mucho más que el resto de
6
formaciones la palabra “dictadura” y “franco”. Es el único donde esas tres palabras
aparecen entre las 10 más utilizadas por un partido político. Además, de todas las veces
que aparece la palabra “himno” en todas las cuentas de los partidos políticos, en el
97,1% de los casos se trata de Ciudadanos.
Si nos fijamos en el otro partido emergente, la estrategia de Podemos se dirige a resaltar
sobre todo dos palabras, “país” (639 veces) y “pueblo” (526). Relacionado con el
“pueblo” estaría palabras como “gente” y “contigo”, que también son importantes para
Podemos dentro de sus cuentas de Twitter. Es el único partido de izquierda que incluye
con cierta importancia palabras como “independencia” y “Cataluña”.
Si nos fijamos en IU, su estrategia en Twitter parece dirigirse a resaltar la idea de “país”,
“pueblo” e “izquierdas”. Son sus tres palabras más frecuentes por ese orden y en dos de
ellas coincide con la formación política morada. Sin embargo, mientras que IU parece
llamar la atención en sus tuits con la palabra “izquierdas”, Podemos no sigue esta
estrategia, al menos no ni con la misma frecuencia que IU ni con la misma importancia.
IU, además, es el único partido que entre las veinte palabras más frecuentes aparecen
“nacionalizar”, “laico” y “patriotas”. Por ejemplo, de todas las palabras seleccionadas
durante el periodo analizado, sólo en IU (104) y en el PSOE (140) aparece la palabra
“laico”. La palabra “patriotas”, que aparece 171 veces, es utilizada por IU (62), seguido
del PP (55) y Podemos (19).
Para el PP, sus tres primeras palabras son, por este orden, “España”, “presidente” y
“país”. Es el único partido político que utiliza con frecuencia palabras como
“instrumentos” y “jurídicos”, posiblemente tratando de justificar casos de corrupción
que ocurrieron durante la campaña electoral. Por ejemplo, en el 99,7% de los casos la
palabra “jurídico” aparece en cuentas de Twitter del PP. Como en el caso de Podemos e
IU, las referencias al "pueblo" también aparecen con frecuencia en el PP (es su novena
palabra más utilizada). Como se observa, hoy la palabra pueblo se ha convertido en un
término muy disputado a nivel discursivo por las distintas fuerzas políticas. De la
caracterización del PP a través de Twitter también destaca el uso con cierta frecuencia de
la palabra "nación" y "españoles". Respecto al total de apariciones, las del PP
representan el 82,8% en el primer caso y el 67,7% en el segundo. La palabra
"independencia" también la encontramos entre las veinte más utilizadas por el PP. Junto
a Podemos y UPyD, son los tres únicos partidos que la palabra “independencia” aparece
en el ranking de las veinte más utilizadas.
7
A diferencia del resto de formaciones políticas (excepto Podemos), PSOE se caracteriza
por utilizar con bastante frecuencia la palabra "país". Respecto al total de apariciones en
todas las cuentas de los partidos, representa el 23,2%. Es su principal palabra a bastante
distancia del resto (aparece 1.009 veces). De hecho, a diferencia de Podemos, la segunda
palabra más utilizada por el PSOE ("historia") aparece en mucha menor medida (537)
que la palabra "país". Como decíamos, "constitución" es otra de las palabras recurrentes
en los tuits del PSOE (446 veces; el 25,7% del total). Las referencias al "pueblo" (367
veces) también las encontramos en el PSOE. Algunas de sus particularidades es que es el
único partido político que entre las veinte palabras más utilizadas aparece "acuerdo"
(373 veces), agrupando además a casi la totalidad de apariciones (79,2%). La utilización
de "líder" en sus cuentas Twitter también les diferencia del resto de formaciones (374
veces; representando el 91,2% del total). La palabra "religión" está prácticamente
monopolizada por los socialistas (86,6%) y es, junto a IU (104 veces), el único que hace
referencia a la palabra "laico" (140 veces). El PSOE es, junto a UPyD, el único partido
que la palabra "Rajoy" aparece entre las veinte palabras más frecuentes.
En el caso de UPyD, la siguiente figura ilustra muy bien como “Cataluña” (621 veces) e
“independencia” (532 veces) son sus dos palabras más frecuentes, seguida de “Rajoy”
(418). Dentro de las veinte más utilizadas, destaca la utilización de “financiar”,
“constitución”, “autonomía” y “autogobierno”. Es el único partido que utiliza la palabra
“golpistas” en sus tuits (146 veces).
Figura 1. Las 20 palabras más frecuentes en Twitter de los partidos políticos de ámbito
estatal y una nube de palabras con todas las palabras
Cs
esplendor
trilero
armas
maximo
empresas
dice
himno
murio
cuidemos
valoremos
representa
franco
dictadura
negros
espana
hace
historia
pais
democracia
anos
0
500
1000
1500
2000
2500
3000
8
Podemos
hacer
favor
cataluna
bandera
gracias
poder
cambio
espanol
ahora
solo
contigo
gente
espana
historia
cultura
constitucion
podemos
independencia
pueblo
pais
0
200
100
300
400
500
600
700
IU
patriotas
bandera
solo
gobierno
elecciones
rajoy
historia
defendiendo
concertada
electricas
eliminar
laico
progresivos
nacionalizar
impuestos
educacion
programa
izquierdas
pais
pueblo
0
20
40
60
80
100
120
140
160
180
200
PP
independencia
democracia
historia
juntos
espanoles
constitucion
nacion
garantizo
utilizara
lograran
alcance
pueblo
objetivos
ninguno
juridicos
instrumentos
mientras
pais
presidente
espana
0
100
200
300
400
500
600
700
800
900
PSOE
laico
religion
rajoy
gobierno
partido
psoe
cultura
reforma
espana
pueblo
pregunten
puedo
gusta
acuerdo
lider
segun
constitucion
hijos
historia
pais
0
200
400
600
800
1000
1200
9
UPyD
suspendido
emana
pais
golpistas
autogobierno
autonomia
espanola
constitucion
prensa
personalmente
pedire
rueda
anunciar
acabo
financiar
manana
deje
rajoy
independencia
cataluna
0
100
200
300
400
500
600
700
Fuente: Elaboración propia.
Si analizamos los resultados con cierta mirada comparativa atendiendo a las palabras
más frecuentes dentro de cada partido, existen algunas tendencias significativas.
Ciudadanos y PSOE parece coincidir en el uso de palabras para referirse a la cuestión
nacional en España: coinciden en utilizar entre las más frecuentes la palabra “país” e
“historia”. Podemos e IU son partidos políticos que también parecen tener cierta
semejanza. Son los dos únicos que las palabras “país” y “pueblo” están entre sus dos
primeras más utilizadas.
A partir de la descripción anterior, nuestro objetivo es caracterizar a los partidos
políticos a través del lenguaje. Nuestra intención es establecer algún tipo de análisis que
nos permita confirmar esas tendencias y agrupaciones de partidos que parecen
observarse con la descripción anterior. Para ello, intentaremos aplicar métodos que nos
permitan extraer ciertas medidas sobre el uso del lenguaje, a nivel léxico, sintáctico y
semántico, para la generación de vectores que sirvan como modelos de los distintos
partidos políticos.
Caracterización de los partidos mediante modelado de temas
La identificación de temas (topic modeling) es una tarea por la cual se pretende extraer
las "temáticas" sobre las que versa un conjunto determinado de documentos (Wallach,
2016), es decir, determinar las dimensiones o asuntos latentes tratados en un conjunto de
documentos. Por ejemplo, en una colección de documentos médicos, este tipo de
técnicas podrían identificar que existen un número de dimensiones principales sobre los
que versan los documentos, como pueden ser aquellos referidos a tratamientos, otros a
enfermedades, otros a pruebas de fármacos, etc. El resultado de aplicar estos algoritmos
a un conjunto de documentos es una serie de dimensiones representadas como
agrupaciones de palabras que tienen un peso asociado a cada dimensión y, a su vez, un
peso de cada dimensión en cada documento. Las técnicas usadas son variadas, pero
todas se basan en cálculos sobre las distribuciones de probabilidad de palabras,
10
secuencias de palabras y conjuntos de documentos, es decir, en un análisis estadístico de
las frecuencias de palabras y cómo se agrupan éstas. De esta forma, dos palabras que
aparecen juntas con frecuencia probablemente hacen referencia a la misma dimensión.
Uno de los algoritmos más usados es LDA (Latent Dirichlet Allocation) (Blei, 2003),
que considera que cada documento es la mezcla de un número reducido de dimensiones
y que la inclusión de cada palabra está relacionada con una de las dimensiones tratadas
en el documento. Esto resulta muy útil para analizar grupos de personas a partir de los
textos que generan, como es el caso de nuestro estudio, pues no sólo podemos
representar a cada grupo como un vector de dimensiones (con pesos asociados), sino que
podemos visualizar las palabras más significativas de cada dimensión, lo cual nos puede
dar una idea de las temáticas que son de interés en cada grupo.
En nuestro caso, tenemos tantos “documentos” como partidos, construyendo estos
documentos con todos los tweets capturados y asociados a cuentas relacionadas con cada
partido. Al aplicar LDA e indicar que extraiga las 10 dimensiones más dominantes en la
colección de documentos obtenemos, por un lado, los términos asociados a cada uno de
esos temas “latentes” y, por otro lado, el peso que tiene cada dimensión en cada
documento. Dado que para nosotros cada documento representa a un partido, en cierta
forma estamos caracterizando las temáticas tratadas por los partidos a través de la red
social Twitter y, al mismo tiempo, caracterizando a los partidos en base a estas
temáticas. El resultado de este proceso queda reflejado en la Tabla 1.
Tabla 1. Dimensiones (D) y partidos asociados
D
1
2
3
4
5
6
7
8
9
10
Términos
pueblo ahora cataluna soberania pues gente nunca nacion mayor voto politico dinero catalunya
cosas elecciones corrupcion
historia independencia espana mejor independentista espanol hablar mismo referéndum parte
gran alguien lengua catalanes hoy hombre proceso
historia bandera cataluna patria pais frente partidos usted golpe viva catalana leyes parece
pagar verguenza mayoria mismo patriotas declaracion
presidente espana ninguno instrumentos juridicos objetivos alcance utilizara lograran garantizo
nacion juntos democracia espanoles europea preservaremos avanzada fractura logrado
cataluna independencia rajoy acabo manana deje prensa rueda financiar personalmente
anunciar constitucion autogobierno autonomia golpistas emana suspendido espanola votar
pais constitucion cultura partido politica siempre espanola queremos anos personas psoe
menos gobierno quieren espanoles quiero ley votar
hijos lider gusta historia segun acuerdo pregunten tdt espana reforma religion laico bienestar
vida constitucional psoe
pais contigo gente independencia cultura gracias cambio favor proteger dia menor abrazos
grupos democracia disfrute participe ministro
izquierdas programa eliminar impuestos defendiendo laico educacion electricas concertada
progresivos nacionalizar rajoy elecciones gobierno patriotas pueblo gane empenado cerrazon
anos democracia negros dictadura franco representa cuidemos valoremos murio himno pais
empresas armas saudi trilero vendera arabia esplendor maximo historia
11
Partido(s)
Podemos
C’s e IU
PP
PP
UPyD
PSOE y
Podemos
PSOE
Podemos
IU
C’s
Estas diez dimensiones reflejan más del 95% de variabilidad en los documentos
procesados o, lo que es lo mismo, mediante dichas dimensiones se cubre casi la totalidad
de los contenidos generados por los partidos.
En la Tabla 1, las diez dimensiones están ordenadas en base a su presencia en los textos
recopilados. Debemos aclarar que el análisis realizado con LDA nos propone
dimensiones que van desde la más representada (aquella que cubre la mayor
variabilidad) hasta la menos representada, por lo que es posible extraer un número
mayor de dimensiones.
La tercera columna indica el partido o partidos que más claramente están relacionados
con esa dimensión. En negrita, el partido que tiene a dicha dimensión como su
dimensión más característica. A partir de los términos que representan cada una de las
dimensiones, podemos identificar alguna semántica razonable.
Como se observa, de los tweets recopilados sobre la cuestión nacional, la primera
dimensión menciona expresamente a Cataluña, cuestión que es principalmente planteada
a través de Twitter en las cuentas asociadas a Podemos. La dimensión 4, por ejemplo, es
la que está más fuertemente asociada a PP. El tipo de discurso parece orientarse a la
necesidad de “preservar” y “garantizar” la unidad de España y el Estado evitando la
“fractura” territorial. Tanto PSOE como IU usan términos referidos a la educación y el
laicismo. Ciudadanos (más) y el PP parecen tener un discurso más orientado al
sentimiento español, con términos como “España”, “himno”, “país”, “esplendor”,
“historia”, etc. Y, de todos ellos, parece que IU es el que indica aspectos más concretos
como “impuestos”, “eléctricas”, “educación concertada”, etc. Podemos también parece
querer insistir en la idea de patria y populismo y de construcción nacional-popular
(“país”, “contigo”, “gente”, “abrazos”) (véase la dimensión 8 de la Tabla 1).
Como cada partido puede asociarse a una dimensión con un peso, podemos representar
gráficamente el “ADN” del discurso de cada partido (Gráfico 1). El eje horizontal
indica, en una escala de 0 a 1, el peso de cada dimensión en los mensajes de Twitter de
cada partido. La suma de todos los pesos debe ser 1, indicando así que esas dimensiones,
en esas proporciones, cubren la totalidad de los mensajes del partido.
12
Gráfico 1. Caracterización de partidos
Como puede observarse, UPyD está fuertemente representado en la dimensión 5, que no
está tan relacionado con el resto de formaciones, por lo que su discurso parece ser el más
diferenciado. Una dimensión donde coinciden Podemos, PSOE e IU es la 6, donde
parece desprenderse la cuestión del deseo de voto. El resto de partidos la incluyen pero
con menor peso.
Excepto Podemos y PSOE, el resto de partidos analizados (Ciudadanos, IU, UPyD y PP)
tienen más del 50% de su discurso concentrado en una dimensión concreta. Por el
contrario, la mayor variabilidad (o heterogeneidad de mensajes) aparece en Podemos.
También observamos la gran similitud entre PSOE e IU en los pesos de las 5 primeras
dimensiones.
En suma, aunque la identificación de las palabras y de las dimensiones presentadas no
deja de ser el resultado de un cálculo puramente estadístico, sí existen algunos patrones
que nos ayudan a entender mejor las estrategias de los partidos políticos a través de la
red social Twitter. En estos momentos, estamos trabajando con análisis de este tipo de
cara a las siguientes elecciones generales del 26 de junio de 2016.
REFERENCIAS BIBLIOGRÁFICAS
Anderson, B. (1991). Comunidades imaginadas. Reflexiones sobre el origen y la
difusión del nacionalismo. México: Fondo de Cultura Económica.
Bastida, X. (2002). Otra vuelta de tuerca: el patriotismo constitucional español y sus
miserias. Cuadernos de Filosofía del Derecho, 25: 213-246.
Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet allocation. the Journal of
13
Machine Learning Research, 3, 993-1022.
Bosworth, A.G., Cox, C., Sanghvi, R., Ramakrishnan, T.S. y D’angelo, A. (2010).
Generating a feed of stories personalized for members of a social network, Noviembre 2.
US Patent 7,827,208.
De Blas, A. (2003). Veinticinco años de Constitución y Nacionalismo. Revista de
Derecho Político, 58-59: 765-775.
Easton, D. (1965). A system analysis of political life. New York: Wiley.
Ferri, E. y A.M. Ruiz. (2015). Entre patria y estado: formas de nombrar España. Un
recorrido por los discursos programáticos de PSOE y AP-PP entre 1977 y 2011.
Empiria. Revista de metodología de ciencias sociales, 32: 63-84.
González de la Fé, T. (2014). Sociología y big data. Encrucijadas. Revista crítica de
ciencias sociales, 8: 51–53.
Gutiérrez-Rubí, V. (2016). El silencio en política (en línea)
http://www.gutierrez-rubi.es/2016/03/29/el-silencio-en-politica, acceso 29 Marzo de
2016.
Guy, I., Zwerdling, N., Ronen, I., Carmel, D., Uziel, E. (2010). Social media
recommendation based on people and tags. En Proceedings of the 33rd international
ACM SIGIR conference on Research and development in information retrieval, 194-201.
Juliana, E. (2015). Patria (en línea)
http://www.lavanguardia.com/politica/20150201/54425706950/patria-enric-juliana.html,
acceso 21 de Febrero de 2016.
Martínez, E., Martín, M., Urena, L., Montejo, A. (2014). Sentiment analysis in twitter.
Natural Language Engineering, 20(01): 1–28.
Mateo, M. (2005). La idea de España a finales del S.XX: El nacionalismo español desde
la transición (en línea)
http://www.vientosur.info/documentos/cuestionnacional-montsemateo.pdf, acceso 2 de
Abril de 2015.
Muñoz, J. (2012). La construcción política de la identidad española: ¿del
nacionalcatolicismo al patriotismo democrático? Madrid: Centro de Investigaciones
Sociológicas.
Navarro, L. (2016). La nación evitada. Identidad nacional en España y discursos de
élites de izquierda. Tesis doctoral, Departamento de Sociología, Universidad Pablo de
Olavide, Sevilla.
Troyano, J., Ureña, L., Maña, M., Cruz, F., Enríquez de Salamanca, F. (2015). Aorescu:
14
análisis de opinión en redes sociales y contenidos generados por usuarios.
Vilares, D. (2016). A review on political analysis and social media. Procesamiento del
Lenguaje Natural, 56: 13–24.
Wallach, H. M. (2006, June). Topic modeling: beyond bag-of-words. In Proceedings of
the 23rd international conference on Machine learning (pp. 977-984). ACM.
Zhang, A. X. y Counts, S. (2015). Modeling ideology and predicting policy change with
social media: Case of same-sex marriage. En CHI, 2603–2612.
15
Documentos relacionados
Descargar