TÉCNICAS Y HERRAMIENTAS (THAI), MUI-TIC, UNIVERSIDAD DE VALLADOLID 1 Estudio de datos de redes sociales (SNA) Carlos Andrés, Daniel Getino, Héctor Ortega, Anuar Salim (Grupo 4) 5 de octubre de 2010 Abstract — A Social Network Analysis (SNA) is proposed by using two experimental datasets taken from a shared BSCW storage space. This paper summarizes some individual and group measures along with a sociogram study. The first case results show a dense, non-centralised and moderately cohesive network. The second network is less dense and has a highly centralised outstanding node. In addition, some global parameters measured, such as cliques and the graphical analysis of their sociograms, provide the readers with a complete study of the networks. Palabras clave — Redes sociales, SNA, Ucinet. I . I NT RO DU C CI Ó N as redes expresan las relaciones entre varios actores de una comunidad, ya sea social, entre máquinas o de otro tipo. En concreto, el análisis de redes sociales (SNA) presenta unos parámetros de interés para la comunidad científica [ 1]. L El objetivo central de este artículo es extraer algunas medidas de dos redes sociales propuestas y analizarlas con cierto detalle. Primero se presentarán los datasets utilizados. Después, se realizarán medidas individuales y grupales con la herramienta Ucinet [ 2] y se analizan. Finalmente se estudia un sociograma. I I . D AT OS AN ALI ZADO S En el contexto de una asignatura en la Universidad Oberta de Catalunya (UOC), se extrajeron datos de una red social experimental en una asignatura en el curso 2002/2003. En concreto, se analizarán las relaciones directas e indirectas entre actores en un espacio compartido de un servidor BSCW. Cada enlace entre actores representa lo siguiente: un actor crea un objeto y otro ejecuta una acción sobre él (lectura, edición, etc.). Es decir, las relaciones reflexivas (uno a sí mismo) no se cuentan. Se analizarán los periodos 4 y 5 del curso, con sendos datasets f4 y f5, junto a sus atributos (grupo 1). La centralidad es una de las medidas más significativas, ya que aporta información sobre la importancia de los actores dentro de la red. Presenta varios indicadores que determinan el grado de prestigio o poder de un actor en la red. Dentro de las medidas de grado de centralidad, existen varios tipos en función de sus características de la red. Las redes asimétricas utilizan las medidas Indegree y Outdegree. Mientras que las redes simétricas utilizan el indicador Grado. Suponiendo el caso más general se tendría entonces: Outdegree: inicio de las relaciones. Tiene en cuenta cuantas relaciones directas inicia cada actor. Refleja la actividad de cada actor y la capacidad para acceder a otros actores. Indegree: recepción de relaciones. Indica el número de actores que se relacionan de forma directa a cada actor. Permite conocer directamente los actores de más prestigio en la red. En el caso de los períodos 4 y 5 de la red bajo estudio. FREEMAN'S DEGREE CENTRALITY MEASURES (Periodo 4) -----------------------------------------------25 ifa 18 fer 19 ffo ... OutDegree InDegree NrmOutDeg NrmInDeg ------------ ------------ ------------ -----------31.000 76.000 5.784 14.179 20.000 20.000 3.731 3.731 19.000 0.000 3.545 0.000 Network Centralization (Outdegree) = 5.118% Network Centralization (Indegree) = 13.639% FREEMAN'S DEGREE CENTRALITY MEASURES (Periodo 5) -----------------------------------------------25 ifa 19 ffo 12 Dav ... 18 fer ... OutDegree InDegree NrmOutDeg NrmInDeg ------------ ------------ ------------ -----------36.000 14.000 13.433 5.224 12.000 0.000 4.478 0.000 11.000 11.000 4.104 4.104 0.000 0.000 0.000 0.000 Network Centralization (Outdegree) = 12.954% Network Centralization (Indegree) = 10.682% El nodo 25 ifa es el nodo central de nuestra red social en ambos períodos debido a que posee el mayor outdegree e indegree al mismo tiempo, por lo que es considerado el NODO CENTRAL de la red. I I I . MEDI D AS I NDI VI DU A LE S Cada uno de los datasets es analizado por separado. Las medidas realizadas se estudian a continuación. A. Centralidad de un nodo: degree-based B. Centralidad de un nodo: closeness La medida de la cercanía (closeness) da información acerca de la distancia media de cada actor al resto de actores de la red. A mayor cercanía, mayor facilidad de TÉCNICAS Y HERRAMIENTAS (THAI), MUI-TIC, UNIVERSIDAD DE VALLADOLID acceso al resto de actores de la red. Las medidas realizadas respecto de la cercanía par los períodos 4 y 5 son las siguientes: CLOSENESS CENTRALITY (Periodo 4) -----------------------------------------------58 rca 53 npa 42 mgr 48 mvi 25 ifa ... inFarness outFarness inCloseness outCloseness ------------ ------------ ------------ -----------3235.000 4556.000 2.071 1.471 3235.000 4556.000 2.071 1.471 3235.000 4556.000 2.071 1.471 3235.000 4556.000 2.071 1.471 3283.000 3289.000 2.041 2.037 CLOSENESS CENTRALITY (Periodo 5) -----------------------------------------------1 ade 36 jsr 15 emi 55 pra 29 jco ... inFarness outFarness inCloseness outCloseness ------------ ------------ ------------ -----------3634.000 4556.000 1.844 1.471 3634.000 4556.000 1.844 1.471 3634.000 4556.000 1.844 1.471 3634.000 4556.000 1.844 1.471 3634.000 4556.000 1.844 1.471 Para interpretar estos resultados es necesario comprender la definición de cercanía en la red, la cual esta dada por la siguiente expresión. 1 g C C (n i ) d(n i , n j ) (1) j 1 La ecuación 1 representa la cercacnía como la inversa de la distancia geodésica de un nodo hacia todos los demás nodos conectados. Por tanto al ser inversamente proporcional a la distancia implica que el nodo ifa es un nodo central en el período 4. Ya que su cercanía es mayor numéricamente. C. Centralidad de un nodo: betweenness La intermediación (betweenness), da información acerca de la posición de intermediario en las trayectorias más cortas entre nodos (distancias geodésicas). Los actores con mayor intermediación poseen gran relevancia dentro de la red, ya que controlan las comunicaciones más importantes. En el caso analizado se obtiene los siguientes resultados: FREEMAN BETWEENNESS CENTRALITY (Periodo 4) ------------------------------------------Un-normalized centralization: 7660.586 Betweenness nBetweenness ------------ -----------115.626 2.615 24.426 0.552 22.244 0.503 20.926 0.473 8.426 0.191 25 ifa 18 fer 61 San 38 jur 13 dac ... Network Centralization Index = 2.59% FREEMAN BETWEENNESS CENTRALITY (Periodo 5) ------------------------------------------Un-normalized centralization: 16286.600 25 ifa Betweenness nBetweenness ------------ -----------244.200 5.522 13 dac 36.700 12 Dav 12.700 60 rsa 12.200 38 jur 12.000 ... Network Centralization Index = 2 0.830 0.287 0.276 0.271 5.50% De nuevo el nodo 25 vuelve a ser el actor central de la red debido a que tiene el mayor índice de intermediacíón, por lo que se afianza su papel como nodo central. Esto es debido en gran manera a que sin este nodo, otros se volverían inalcanzables. D. Centralidad de flujo: flow b etweenness Este indicador representa la intermediación en su definición más general, es decir en todas las trayectorias de comunicación posibles. Calcula el flujo de intermediación en cada vértice. Para la simulación efectuada se han obtenido los siguientes resultados: FLOW BETWEENNESS CENTRALITY MEASURES (Periodo 4) -----------------------------------------------FlowBet nFlowBet ------------ -----------1 ade 0.000 0.000 18 fer 33.716 0.762 25 ifa 154.305 3.489 38 jur 34.035 0.770 Network Centralization Index = 3.423% FLOW BETWEENNESS CENTRALITY MEASURES (Periodo 5) -----------------------------------------------FlowBet nFlowBet ------------ -----------01 ade 0.000 0.000 13 dac 44.290 1.002 18 fer 0.000 0.000 25 ifa 230.473 5.212 38 jur 26.273 0.594 60 rsa 27.156 0.614 Network Centralization Index = 5.163% Con esta medición más completa de centralidad de intermediación los actores ifa y otros como él (jur, fer,...) son claramente los más importante mediadores. El actor ifa que era importante cuando considerábamos sólo intermediación en los caminos geodésicos es ahora un poco menos importante. Mientras la imagen completa no cambia mucho, la definición elaborada de intermediación nos da una impresión algo distinta de quién es el más importante en la red. E. Distancia El parámetro de distancia indica el esfuerzo que supone la comunicación de un actor con otro. La distancia geodésica es el número de relaciones en el camino más corto entre dos actores. La mayor de las distancias geodésicas recibe el nombre de ecentricidad. El diámetro de una red corresponde con la distancia geodésica más larga de la red. Como ejemplo se presenta la distancia para el período 4. TÉCNICAS Y HERRAMIENTAS (THAI), MUI-TIC, UNIVERSIDAD DE VALLADOLID 3 IV. MEDI D AS G RUP ALE S GEODESIC DISTANCE f4_ind_gral_au1_cp Average Distance-based Distance-weighted distance cohesion fragmentation 1.526 0.062 0.938 El resultado es un valor de 1.526 que indica la distancia media más corta que hay entre los nodos en la red social. F. Alcanzabilidad Un actor es alcanzable por otro si existe un conjunto de conexiones que van de uno a otro. Si hay actores no conectados nos apuntan a una red des-estructurada, con posibilidad de subgrupos, aunque en nuestro caso tenemos nodos completamente aislados, algunos inalcanzables y otros con alcanzabilidad cero (suponiendo que las relaciones directas entre nuestros alumnos tengan la propiedad transitiva, de otra manera este estudio no tendría sentido). CONEXIONES DEL NODO 1, 22 y 42 CON EL RESTO DE LA RED 12345678901234567890123456789012345678901234567…8 a a a a c c c c c c d D d e e e f f f f f gab g h i j j I j j j j J J j j j j m mgr m m … x ------------------------- ----------------------------------1 ade 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 …0 2 ara 0 0 ... ... ... 22 gab 0 0 ... ... ... 42 mgr 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 …0 ... ... ... 68 xva 0 0 Aquellos nodos con alcanzabilidad cero son aquellos que no pueden alcanzar ningún otro nodo de la red, se detectan si vemos una fila de ceros en la matriz de alcanzabilidad, como el nodo 42. Por el contrario los nodos inalcanzables son aquellos que no pueden ser alcanzados por ningún otro nodo de la red, se detectan si vemos una columna de ceros en la matriz, como el nodo 22. El estudio de la red desde el punto de vista de grupos o subgrupos permite conocer el funcionamiento de la misma en su conjunto. G. Densidad Indica la relación entre el número de enlaces existentes respecto al máximo posible. Se aprecia que la red f4 es más densa que la f5 (se ve también en los sociogramas). Datos Media F4 F5 0.0593 0.0268 H. Cliques El estudio de la cohesión de la red se realiza mediante el análisis de los cliqués. Estos se pueden tomar como un indicador del centro neurálgico de la red. Es la estructura que está más fuertemente cohesionada. Se denomina la columna vertebral de la red. Altos niveles de cohesión ponen de manifiesto espacios de alta identificación y solidaridad entre los actores. Periodo 4: Dirigido Periodo 4: Tratado como no dirigido 6 cliques found. 8 cliques found. 1: cao dac fer ifa jur San xva 2: dac fer jsr San xva 3: dac fer jur San xva 4: fca fer jur 5: Dav fer jur 6: asa fer jur fgu jur neu San Por último, los nodos aislados son aquellos inalcazables y con alcanzabilidad cero al mismo tiempo, están aislados, para detectarlos es necesario que tanto la fila como la columna tengan sólo ceros, como el nodo 1. Como estos nodo podemos encontrar varios otros iguales, alcanzabilidad cero como ebu, han y gab, inalcanzables como npa, rca, mvi y mgr, y aislados de la red social como los que se observan en el grafo generado por NetDraw a continuación. En él podremos observar todos casos aislados situados en columna a la izquierda de éste. Fig. 1. Red con los datos f4. Desviación estándar 0.3689 0.2201 1: asa cao Dav dac fca fer fgu ifa jsr jur neu San xva 2: asa cao dac fer fgu ifa jsr jur neu San xre xva 3: cao dac fer fgu han ifa jur San xva 4: cao dac ebu fer fgu ifa jur San xva 5: cao dac fer ifa jpe jsr jur neu San xva 6: asa cao Dav dac fca fer ffo ifa jsr jur neu xva 7: cao dac fer fgu gab ifa San 8: cao csa dac ifa Periodo 5: Dirigido Periodo 5: Tratado como no dirigido 2 cliques found. 7 cliques found. 1: Dav dac ifa jur rsa San 2: csa Dav dac ifa Sa 1: csa Dav dac ifa jur rsa San 2: csa Dav dac ifa jur rsa San 3: asa csa Dav ifa rsa San 4: csa Dav dac jpe San 5: Dav dac ifa 6: dac ifa npa 7: ara jur rsa gab ffo dac ifa rca Según la teoría de grafos, a mayor número de cliques mayor cohesión o interés común. Por tanto se pude TÉCNICAS Y HERRAMIENTAS (THAI), MUI-TIC, UNIVERSIDAD DE VALLADOLID apreciar que existía una mayor cohesión general en el período 4 que en el 5, según los resultados del ejemplo. I. 4 nodos de la zona izquierda es alta ya que hay rutas alternativas para llegar de un nodo a otro. N-Clique En muchos casos el concepto de cliqué puede ser demasiado restrictivo porque cada miembro debe tener relación directa con cada uno de los otros miembros. Ncliqué es útil en situaciones en las que algunos actores de un supuesto cliqué no están conectados a todos los demás. En este supuesto, N-clique trabaja considerando que los actores del cliqué están conectados entres sí a distancia mayor de 1. Normalmente se utiliza distancia 2 (amigo de amigo). Fig. 2. Red con los datos f4. N-CLIQUES (Periodo 4) -----------------------------------------------Max Distance (n-): 2 Minimum Set Size: 3 1 clique found: 1: asa cao csa Dav dac ebu fca fer ffo fgu gab han ifa jpe jsr jur mgr mvi neu npa rca San xre xva El sociograma de a red de datos f5 (Fig. 3) muestra claramente cómo un nodo está conectado con otros muchos e incluso lo conecta con un subgrupo de nodos muy interconectados entre sí. Esto indica un valor muy alto de betweenness para ese nodo. La distancia media de la red es baja. Además, la red es poco densa, ya que se podrían establecer más enlaces entre nodos. El número de cliques es bajo, por lo que la cohesión es baja. N-CLIQUES (Periodo 5) -----------------------------------------------Max Distance (n-): 2 Minimum Set Size: 3 2 2-cliques found. 1: ade asa ifa jmo jco Jor pra rca rsa San 2: ara asa San cao cmo csa Dav dac emi ffo gab jpe jsr jur mgr mlo msu neu npa xre xva csa Dav dac ffo gab ifa jur rsa El análisis N-clique de ambos períodos revela una posible explicación a lo indicado en el apartado anterior. Es posible que en el segundo período existan menos cliques, sin embargo es debido a que la red se ha fragmentado en subgrupos probablemente más cohesionados internamente lo que es lógico en las relaciones sociales. V. AN ÁLI SI S DE UN S O CI O G R AM A Para cada dataset, se ha dicotomizado la matriz de relaciones para que éstas sean binarias (umbral=0, relación “mayor que”). Cabe indicar que los valores de la diagonal no se consideran válidos para hacer la media (la herramienta Ucinet requiere indicarlo), ya que son relaciones reflexivas. El sociograma de la red de datos f4 (Fig. 2) indica una zona de nodos bastante interconectados entre sí y un nodo (verde) que da acceso a otros cinco. La densidad es media en la zona izquierda, con una estructura no muy centralizada a nivel de red, pero sí en el nodo verde (ifa), que tiene alto betweenness. La alcanzabilidad de los Fig. 3. Red con los datos f5. VI. CO N C LUSI ON ES Se ha analizado la topología de dos redes sociales experimentales, a partir de datos de un espacio compartido en un servidor BSCW. Las medidas individuales para cada red indican que ambas tienen unos pocos nodos con centralidad media y el resto con centralidad baja. Además, un nodo en concreto (ifa) actúa con alto betweenness. La distancia media obtenida en ambas redes es media-alta, ya que la densidad es mediabaja. Las medidas grupales indican que la densidad es media-baja y el parámetro cliques obtenido indica que la cohesión es baja, aunque mayor en la primera red. TÉCNICAS Y HERRAMIENTAS (THAI), MUI-TIC, UNIVERSIDAD DE VALLADOLID Como propuesta futura, se propone analizar con detalle cómo varían los parámetros al establecer más enlaces o al añadir o quitar uno o varios nodos. VII. RE FE RE N C I AS [ 1] Apuntes Social Network Analysis (SNA). THAI, MUI-TIC, Universidad de Valladolid, Septiembre 2010. Link: http://titan.tel.uva.es/~amartine/thai/slides/THAI2010-S5slides.ppt (Último acceso: 4 de octubre de 2010). [ 2] Herramienta Ucinet. http://www.analytictech.com/ucinet/download.htm acceso: 4 de octubre de 2010). Link: (Último 5