Informe Grupo 4

Anuncio
TÉCNICAS Y HERRAMIENTAS (THAI), MUI-TIC, UNIVERSIDAD DE VALLADOLID
1
Estudio de datos de redes sociales (SNA)
Carlos Andrés, Daniel Getino, Héctor Ortega, Anuar Salim (Grupo 4)
5 de octubre de 2010
Abstract — A Social Network Analysis (SNA) is proposed
by using two experimental datasets taken from a shared
BSCW storage space. This paper summarizes some
individual and group measures along with a sociogram
study. The first case results show a dense, non-centralised
and moderately cohesive network. The second network is
less dense and has a highly centralised outstanding node.
In addition, some global parameters measured, such as
cliques and the graphical analysis of their sociograms,
provide the readers with a complete study of the
networks.
Palabras clave — Redes sociales, SNA, Ucinet.
I . I NT RO DU C CI Ó N
as redes expresan las relaciones entre varios actores
de una comunidad, ya sea social, entre máquinas o de
otro tipo. En concreto, el análisis de redes sociales
(SNA) presenta unos parámetros de interés para la
comunidad científica [ 1].
L
El objetivo central de este artículo es extraer algunas
medidas de dos redes sociales propuestas y analizarlas
con cierto detalle.
Primero se presentarán los datasets utilizados.
Después, se realizarán medidas individuales y grupales
con la herramienta Ucinet [ 2] y se analizan. Finalmente
se estudia un sociograma.
I I . D AT OS AN ALI ZADO S
En el contexto de una asignatura en la Universidad
Oberta de Catalunya (UOC), se extrajeron datos de una
red social experimental en una asignatura en el curso
2002/2003. En concreto, se analizarán las relaciones
directas e indirectas entre actores en un espacio
compartido de un servidor BSCW. Cada enlace entre
actores representa lo siguiente: un actor crea un objeto y
otro ejecuta una acción sobre él (lectura, edición, etc.). Es
decir, las relaciones reflexivas (uno a sí mismo) no se
cuentan. Se analizarán los periodos 4 y 5 del curso, con
sendos datasets f4 y f5, junto a sus atributos (grupo 1).
La centralidad es una de las medidas más
significativas, ya que aporta información sobre la
importancia de los actores dentro de la red. Presenta
varios indicadores que determinan el grado de prestigio o
poder de un actor en la red. Dentro de las medidas de
grado de centralidad, existen varios tipos en función de
sus características de la red. Las redes asimétricas utilizan
las medidas Indegree y Outdegree. Mientras que las
redes simétricas utilizan el indicador Grado. Suponiendo
el caso más general se tendría entonces:
Outdegree: inicio de las relaciones. Tiene en cuenta
cuantas relaciones directas inicia cada actor. Refleja la
actividad de cada actor y la capacidad para acceder a
otros actores.
Indegree: recepción de relaciones. Indica el número
de actores que se relacionan de forma directa a cada
actor. Permite conocer directamente los actores de más
prestigio en la red.
En el caso de los períodos 4 y 5 de la red bajo estudio.
FREEMAN'S DEGREE CENTRALITY MEASURES (Periodo 4)
-----------------------------------------------25 ifa
18 fer
19 ffo
...
OutDegree
InDegree
NrmOutDeg
NrmInDeg
------------ ------------ ------------ -----------31.000
76.000
5.784
14.179
20.000
20.000
3.731
3.731
19.000
0.000
3.545
0.000
Network Centralization (Outdegree) = 5.118%
Network Centralization (Indegree) = 13.639%
FREEMAN'S DEGREE CENTRALITY MEASURES (Periodo 5)
-----------------------------------------------25 ifa
19 ffo
12 Dav
...
18 fer
...
OutDegree InDegree
NrmOutDeg
NrmInDeg
------------ ------------ ------------ -----------36.000
14.000
13.433
5.224
12.000
0.000
4.478
0.000
11.000
11.000
4.104
4.104
0.000
0.000
0.000
0.000
Network Centralization (Outdegree) = 12.954%
Network Centralization (Indegree) = 10.682%
El nodo 25 ifa es el nodo central de nuestra red social
en ambos períodos debido a que posee el mayor
outdegree e indegree al mismo tiempo, por lo que es
considerado el NODO CENTRAL de la red.
I I I . MEDI D AS I NDI VI DU A LE S
Cada uno de los datasets es analizado por separado.
Las medidas realizadas se estudian a continuación.
A. Centralidad de un nodo: degree-based
B. Centralidad de un nodo: closeness
La medida de la cercanía (closeness) da información
acerca de la distancia media de cada actor al resto de
actores de la red. A mayor cercanía, mayor facilidad de
TÉCNICAS Y HERRAMIENTAS (THAI), MUI-TIC, UNIVERSIDAD DE VALLADOLID
acceso al resto de actores de la red. Las medidas
realizadas respecto de la cercanía par los períodos 4 y 5
son las siguientes:
CLOSENESS CENTRALITY (Periodo 4)
-----------------------------------------------58 rca
53 npa
42 mgr
48 mvi
25 ifa
...
inFarness
outFarness inCloseness outCloseness
------------ ------------ ------------ -----------3235.000
4556.000
2.071
1.471
3235.000
4556.000
2.071
1.471
3235.000
4556.000
2.071
1.471
3235.000
4556.000
2.071
1.471
3283.000
3289.000
2.041
2.037
CLOSENESS CENTRALITY (Periodo 5)
-----------------------------------------------1 ade
36 jsr
15 emi
55 pra
29 jco
...
inFarness
outFarness inCloseness outCloseness
------------ ------------ ------------ -----------3634.000
4556.000
1.844
1.471
3634.000
4556.000
1.844
1.471
3634.000
4556.000
1.844
1.471
3634.000
4556.000
1.844
1.471
3634.000
4556.000
1.844
1.471
Para interpretar estos resultados es necesario
comprender la definición de cercanía en la red, la cual
esta dada por la siguiente expresión.
1
g
C C (n i )
d(n i , n j )
(1)
j 1
La ecuación 1 representa la cercacnía como la inversa
de la distancia geodésica de un nodo hacia todos los
demás nodos conectados. Por tanto al ser inversamente
proporcional a la distancia implica que el nodo ifa es un
nodo central en el período 4. Ya que su cercanía es mayor
numéricamente.
C. Centralidad de un nodo: betweenness
La intermediación (betweenness), da información
acerca de la posición de intermediario en las trayectorias
más cortas entre nodos (distancias geodésicas). Los
actores con mayor intermediación poseen gran relevancia
dentro de la red, ya que controlan las comunicaciones
más importantes. En el caso analizado se obtiene los
siguientes resultados:
FREEMAN BETWEENNESS CENTRALITY (Periodo 4)
------------------------------------------Un-normalized centralization: 7660.586
Betweenness nBetweenness
------------ -----------115.626
2.615
24.426
0.552
22.244
0.503
20.926
0.473
8.426
0.191
25 ifa
18 fer
61 San
38 jur
13 dac
...
Network Centralization Index = 2.59%
FREEMAN BETWEENNESS CENTRALITY (Periodo 5)
------------------------------------------Un-normalized centralization: 16286.600
25 ifa
Betweenness nBetweenness
------------ -----------244.200
5.522
13 dac
36.700
12 Dav
12.700
60 rsa
12.200
38 jur
12.000
...
Network Centralization Index =
2
0.830
0.287
0.276
0.271
5.50%
De nuevo el nodo 25 vuelve a ser el actor central
de la red debido a que tiene el mayor índice de
intermediacíón, por lo que se afianza su papel como nodo
central. Esto es debido en gran manera a que sin este
nodo, otros se volverían inalcanzables.
D. Centralidad de flujo: flow b etweenness
Este indicador representa la intermediación en su
definición más general, es decir en todas las trayectorias
de comunicación posibles. Calcula el flujo de
intermediación en cada vértice. Para la simulación
efectuada se han obtenido los siguientes resultados:
FLOW BETWEENNESS CENTRALITY MEASURES (Periodo 4)
-----------------------------------------------FlowBet
nFlowBet
------------ -----------1 ade
0.000
0.000
18 fer
33.716
0.762
25 ifa
154.305
3.489
38 jur
34.035
0.770
Network Centralization Index = 3.423%
FLOW BETWEENNESS CENTRALITY MEASURES (Periodo
5)
-----------------------------------------------FlowBet
nFlowBet
------------ -----------01 ade
0.000
0.000
13 dac
44.290
1.002
18 fer
0.000
0.000
25 ifa
230.473
5.212
38 jur
26.273
0.594
60 rsa
27.156
0.614
Network Centralization Index = 5.163%
Con esta medición más completa de centralidad de
intermediación los actores ifa y otros como él (jur, fer,...)
son claramente los más importante mediadores. El actor
ifa que era importante cuando considerábamos sólo
intermediación en los caminos geodésicos es ahora un
poco menos importante. Mientras la imagen completa no
cambia mucho, la definición elaborada de intermediación
nos da una impresión algo distinta de quién es el más
importante en la red.
E. Distancia
El parámetro de distancia indica el esfuerzo que
supone la comunicación de un actor con otro. La
distancia geodésica es el número de relaciones en el
camino más corto entre dos actores. La mayor de las
distancias geodésicas recibe el nombre de ecentricidad. El
diámetro de una red corresponde con la distancia
geodésica más larga de la red. Como ejemplo se presenta
la distancia para el período 4.
TÉCNICAS Y HERRAMIENTAS (THAI), MUI-TIC, UNIVERSIDAD DE VALLADOLID
3
IV. MEDI D AS G RUP ALE S
GEODESIC
DISTANCE
f4_ind_gral_au1_cp
Average Distance-based Distance-weighted
distance
cohesion
fragmentation
1.526
0.062
0.938
El resultado es un valor de 1.526 que indica la
distancia media más corta que hay entre los nodos en la
red social.
F. Alcanzabilidad
Un actor es alcanzable por otro si existe un conjunto
de conexiones que van de uno a otro. Si hay actores no
conectados nos apuntan a una red des-estructurada, con
posibilidad de subgrupos, aunque en nuestro caso
tenemos nodos completamente aislados, algunos
inalcanzables y otros con alcanzabilidad cero
(suponiendo que las relaciones directas entre nuestros
alumnos tengan la propiedad transitiva, de otra manera
este estudio no tendría sentido).
CONEXIONES DEL NODO 1, 22 y 42 CON EL RESTO DE LA RED
12345678901234567890123456789012345678901234567…8
a a a a c c c c c c d D d e e e f f f f f gab g h i j j I j j j j J J j j j j m mgr m m … x
------------------------- ----------------------------------1 ade 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 …0
2 ara 0
0
... ...
...
22 gab 0
0
... ...
...
42 mgr 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 …0
... ...
...
68 xva 0
0
Aquellos nodos con alcanzabilidad cero son aquellos
que no pueden alcanzar ningún otro nodo de la red, se
detectan si vemos una fila de ceros en la matriz de
alcanzabilidad, como el nodo 42.
Por el contrario los nodos inalcanzables son aquellos
que no pueden ser alcanzados por ningún otro nodo de la
red, se detectan si vemos una columna de ceros en la
matriz, como el nodo 22.
El estudio de la red desde el punto de vista de grupos
o subgrupos permite conocer el funcionamiento de la
misma en su conjunto.
G. Densidad
Indica la relación entre el número de enlaces
existentes respecto al máximo posible. Se aprecia que la
red f4 es más densa que la f5 (se ve también en los
sociogramas).
Datos
Media
F4
F5
0.0593
0.0268
H. Cliques
El estudio de la cohesión de la red se realiza mediante
el análisis de los cliqués. Estos se pueden tomar como un
indicador del centro neurálgico de la red. Es la estructura
que está más fuertemente cohesionada. Se denomina la
columna vertebral de la red. Altos niveles de cohesión
ponen de manifiesto espacios de alta identificación y
solidaridad entre los actores.
Periodo 4: Dirigido
Periodo 4: Tratado como
no dirigido
6 cliques found.
8 cliques found.
1: cao dac fer
ifa jur San xva
2: dac fer jsr
San xva
3: dac fer jur
San xva
4: fca fer jur
5: Dav fer jur
6: asa fer jur
fgu
jur
neu
San
Por último, los nodos aislados son aquellos
inalcazables y con alcanzabilidad cero al mismo tiempo,
están aislados, para detectarlos es necesario que tanto la
fila como la columna tengan sólo ceros, como el nodo 1.
Como estos nodo podemos encontrar varios otros
iguales, alcanzabilidad cero como ebu, han y gab,
inalcanzables como npa, rca, mvi y mgr, y aislados de la
red social como los que se observan en el grafo generado
por NetDraw a continuación. En él podremos observar
todos casos aislados situados en columna a la izquierda
de éste.
Fig. 1. Red con los datos f4.
Desviación
estándar
0.3689
0.2201
1: asa cao Dav dac
fca fer fgu ifa jsr jur
neu San xva
2: asa cao dac fer
fgu ifa jsr jur neu San
xre xva
3: cao dac fer fgu
han ifa jur San xva
4: cao dac ebu fer
fgu ifa jur San xva
5: cao dac fer ifa
jpe jsr jur neu San xva
6: asa cao Dav dac
fca fer ffo ifa jsr jur
neu xva
7: cao dac fer fgu
gab ifa San
8: cao csa dac ifa
Periodo 5: Dirigido
Periodo 5: Tratado como
no dirigido
2 cliques found.
7 cliques found.
1: Dav dac ifa jur
rsa San
2: csa Dav dac ifa
Sa
1: csa Dav dac
ifa jur rsa San
2: csa Dav dac
ifa jur rsa San
3: asa csa Dav
ifa rsa San
4: csa Dav dac
jpe San
5: Dav dac ifa
6: dac ifa npa
7: ara jur rsa
gab
ffo
dac
ifa
rca
Según la teoría de grafos, a mayor número de cliques
mayor cohesión o interés común. Por tanto se pude
TÉCNICAS Y HERRAMIENTAS (THAI), MUI-TIC, UNIVERSIDAD DE VALLADOLID
apreciar que existía una mayor cohesión general en el
período 4 que en el 5, según los resultados del ejemplo.
I.
4
nodos de la zona izquierda es alta ya que hay rutas
alternativas para llegar de un nodo a otro.
N-Clique
En muchos casos el concepto de cliqué puede ser
demasiado restrictivo porque cada miembro debe tener
relación directa con cada uno de los otros miembros. Ncliqué es útil en situaciones en las que algunos actores de
un supuesto cliqué no están conectados a todos los
demás. En este supuesto, N-clique trabaja considerando
que los actores del cliqué están conectados entres sí a
distancia mayor de 1. Normalmente se utiliza distancia 2
(amigo de amigo).
Fig. 2. Red con los datos f4.
N-CLIQUES (Periodo 4)
-----------------------------------------------Max Distance (n-): 2
Minimum Set Size: 3
1 clique found:
1: asa cao csa Dav dac ebu fca fer ffo fgu
gab han ifa jpe jsr jur mgr mvi neu npa rca San
xre xva
El sociograma de a red de datos f5 (Fig. 3) muestra
claramente cómo un nodo está conectado con otros
muchos e incluso lo conecta con un subgrupo de nodos
muy interconectados entre sí. Esto indica un valor muy
alto de betweenness para ese nodo. La distancia media de
la red es baja. Además, la red es poco densa, ya que se
podrían establecer más enlaces entre nodos. El número de
cliques es bajo, por lo que la cohesión es baja.
N-CLIQUES (Periodo 5)
-----------------------------------------------Max Distance (n-): 2
Minimum Set Size: 3
2 2-cliques found.
1: ade asa
ifa jmo jco Jor
pra rca rsa San
2: ara asa
San
cao cmo csa Dav dac emi ffo gab
jpe jsr jur mgr mlo msu neu npa
xre xva
csa Dav dac ffo gab ifa jur rsa
El análisis N-clique de ambos períodos revela una
posible explicación a lo indicado en el apartado anterior.
Es posible que en el segundo período existan menos
cliques, sin embargo es debido a que la red se ha
fragmentado en subgrupos probablemente más
cohesionados internamente lo que es lógico en las
relaciones sociales.
V. AN ÁLI SI S DE UN S O CI O G R AM A
Para cada dataset, se ha dicotomizado la matriz de
relaciones para que éstas sean binarias (umbral=0,
relación “mayor que”). Cabe indicar que los valores de la
diagonal no se consideran válidos para hacer la media (la
herramienta Ucinet requiere indicarlo), ya que son
relaciones reflexivas.
El sociograma de la red de datos f4 (Fig. 2) indica
una zona de nodos bastante interconectados entre sí y un
nodo (verde) que da acceso a otros cinco. La densidad es
media en la zona izquierda, con una estructura no muy
centralizada a nivel de red, pero sí en el nodo verde (ifa),
que tiene alto betweenness. La alcanzabilidad de los
Fig. 3. Red con los datos f5.
VI. CO N C LUSI ON ES
Se ha analizado la topología de dos redes sociales
experimentales, a partir de datos de un espacio
compartido en un servidor BSCW. Las medidas
individuales para cada red indican que ambas tienen unos
pocos nodos con centralidad media y el resto con
centralidad baja. Además, un nodo en concreto (ifa) actúa
con alto betweenness. La distancia media obtenida en
ambas redes es media-alta, ya que la densidad es mediabaja.
Las medidas grupales indican que la densidad es
media-baja y el parámetro cliques obtenido indica que la
cohesión es baja, aunque mayor en la primera red.
TÉCNICAS Y HERRAMIENTAS (THAI), MUI-TIC, UNIVERSIDAD DE VALLADOLID
Como propuesta futura, se propone analizar con
detalle cómo varían los parámetros al establecer más
enlaces o al añadir o quitar uno o varios nodos.
VII. RE FE RE N C I AS
[ 1]
Apuntes Social Network Analysis (SNA). THAI, MUI-TIC,
Universidad de Valladolid, Septiembre 2010. Link:
http://titan.tel.uva.es/~amartine/thai/slides/THAI2010-S5slides.ppt (Último acceso: 4 de octubre de 2010).
[ 2]
Herramienta
Ucinet.
http://www.analytictech.com/ucinet/download.htm
acceso: 4 de octubre de 2010).
Link:
(Último
5
Descargar