El Cluster Analysis* su aplicación en el estudio de la

Anuncio
REVISTA CUBANA DE PSICOLOGÍA
Vol. IV, No. 3, 1987
El Cluster Analysis* su aplicación en el
estudio de la validez de un instrumento
psicodiagnóstico
Martha Vázquez Villazón y María Eugenia de Bernard Cerezo
Facultad de Psicología, Universidad de La Habana
RESUMEN
En este trabajo se muestran diferentes técnicas de Cluster Analysis,
enfatizándose en la utilización de las "jerárquicas". Estas son adecuadas
para el análisis descriptivo de los datos de una investigación inicial. A
través de un ejemplo, se explica su aplicación,
análisis e interpretación
de los resultados.
ABSTRACT
_
This paper shows the different techniques of Cluster Analysis emphasising the use of Hierarchies.
Hierarchies are best to do a descriptive analysis of the data of a primary
investigation. Its application is shown with an example, the analysis and
interpretation of results.
1. I N T R O D U C C I Ó N
El Cluster Analysis incluye una colección de técnicas que se emplean
para agrupar entidades multidimensionales de acuerdo con varios criterios
de sus grados de homogeneidad y heterogeneidad. El problema central es
repartir m individuos en k grupos de manera tal, que en algún sentido, los
individuos de un grupo muestren homogeneidad y los individuos de grupos
diferentes sean heterogéneos entre sí.
25
Una característica esencial del Cluster Analysis es la utilización simultánea ció tocias las propiedades en la formación de grupos. Las técnicas
comprendí des:- on este tipo de análisis no hacen suposiciones sobre las disiribucieooo do Los individuos o entidades, por lo que no incluyen ninguna
prueba ció hipótesis, aunque uno de sus objetivos fundamentales es el de
sugerirlo». De esta forma, si después de realizado un Cluster Analysis,
obtenemos grupos diferentes de individuos, un próximo paso podría ser investigar si existen diferencias significativas entre los grupos de individuos y, por tanto, estamos en presencia de una prueba de hipótesis y la
técnico utilizada será capaz de generar la hipótesis a probar.
'•or otra parte, otro caso posible de estas técnicas será la exploración
do -tatos, pues a través de ellas, podremos conocer qué ocurre con nuestras
observaciones, si tienden a agruparse o no y sobre la base de qué criterio.
2. DIFERENTES TÉCNICAS:
,
,
Existen diferentes técnicas de Cluster Analysis, ellas pueden clasific ars e en:
1. Técnicas no jerárquicas. Estas, a su vez, se dividen en:
1.1. Técnicas de Optimización y Partición. Los grupos son formados por
la optimización de un criterio de agrupamiento formándose una partición del conjunto de individuos.
1.2. Técnicas de Densidad. Los grupos son formados buscando regiones
que contengan una concentración de densidad relativa de entidades.
1.3. Técnicas de Agrupamiento. Las clases pueden sobreponerse.
Estas técnicas no jerárquicas tienen la desventaja de que debe darse
ele antemano el número de grupos que deben resultar ya que, aunque en algunos casos, esto no es una gran dificultad, existe el peligro de que se
agrupen individuos que pueden ser lo suficientemente diferentes como para
formar grupos apartes.
2. Técnicas jerárquicas i Las clases por sí mismas son clasificadas dentro
de grupos, repitiéndose este proceso a diferentes
niveles hasta formar un árbol o dendograma.
Los resultados finales se expresan a través de un dendograma, diagrama
de dos dimensiones que ilustra las fusiones o particiones sucesivas realizadas en cada nivel.
La entrada de cualquiera de las técnicas jerárquicas es una matriz de
similitud o disimilitud calculada a partir de la matriz de datos. Para
calcular esta matriz, es necesario haber definido antes el índice o métrica a utilizar. Entre otros, tenemos;
A) índices de similitud o correlación: ofrecen el grado de asociación o
semejanza de los individuos.
26
Cuando se comparan dos individuos caracterizados por datos binarios,
existirán cuatro patrones:
10
1 1
00
01
Esto se resume en una tabla básica de doble entrada, en la forma
siguiente:
individuo 1
0
1
1
(1,1)
a
(0,1)
b
0
(1,0)
c
(0,0)
d
individuo j
Donde en cada casilla irá la cantidad de veces que aparece el par.
A partir de la tabla anterior se han construido varios índices. Algunos
de ellos, son:
a) Coeficiente de apareamiento simple -.
a + d
a+b + c+d
CAS =
0 < C A S < 1
b) Coeficiente de jaecard: (no considera la combinación
CJ
(0,0)
0 sí CJ < 1
a + b + c
c) Coeficiente de correlación cp:
ad - be
cp
=
—
•
/ (a+b)
(a+b) (a+c)
(a +
ic+d)
(b+d)
Para datos cuantitativos se utiliza el coeficiente do i'ear
( x i : - :<))
( x i k - >; k )
1
/""n "
"""
> ; (XJ -¡ - x
-L ~
B)
índices
.1 --1
(XÍK
-
de d i s i.mi] i.1 un : ('frecen
(A
r o d o d e di. f e r ^ n :
viduos,
A nartir
de
>•].)
J.
Ja me t. r i ea d e :--¡ i.nkovsk ,
27
s e o) /t i C'i:en
(xj, xk) = (E |xij - x i k | P ) 1 / P
Dp
Para diferentes valores de p se obtienen distancias comunes que son:
a) Distancias Manhattan
(p=1)
D»„
=
M
u ,
£
xij - xik
1-1 '
'
b) Si la anterior se divide entre el número de variables se obtiene
la
Diferencia Media
1
Dif = -=—
n
c) Distancia taxonómica
u
E | xij - xik |
1-1
(p = 2)
u
Dt = (
La selección del
E
1-1
índice está
i
( xij - xik 2 )
en dependencia de la naturaleza de las
variables escogidas, siendo esto el efecto más importante en la clasificac ion.
Los índices cualitativos se construyen para variables de escala no
métrica, mientras que los índices cuantitativos se construyen para las variables de escala métrica. Ambos grupos corresponden a matrices que incluyen un único tipo de variables, pues existen también los índices mixtos,
los cuales son utilizados con variables medidas según los dos grupos de
escala. Estos últimos no son usuales porque requieren una partición de la
matriz en dos submatrices con las dos escalas respectivamente y es necesario después, compatibilizar ambas agrupaciones.
El Cluster Analysis no exige una escala específica, pero cuando se
trabaja con distintas escalas a la vez, es necesario homogeneizar el conjunto de variables.
Las Técnicas Jerárquicas, pueden ser:
2.1. Divisivas, cuando el grupo completo de datos se dividen en grupos,
conteniendo cada uno, un individuo simple.
2.2. Aglomerativas, cuando los datos se reducen a un simple grupo que
contiene a todos los individuos.
Por ser estas últimas las más comúnmente utilizadas para resolver diferentes problemas prácticos, será la que desarrollaremos a continuación.
Técnicas Aglomerativas:
Una vez construida la matriz de similitud, el siguiente paso es la utilización de algunos de los algoritmos aglomerativos para encontrar el den-
28
dograma que muestra la fusión sucesiva de los individuos que culmina en la
etapa, en la que todos los individuos están en un solo grupo.
Una característica común a todos los métodos aglomerativos es el hecho
de que el primer grupo que se forma es el resultado de la fusión de los dos
individuos, más cercanos.
Algunos de estos métodos, son:
2.2.1. Ligamiento simple (Single Linkage): aquí la distancia entre grupos
se define como la distancia entre sus miembros más cercanos.
Los dos primeros sujetos que se unen, son aquellos cuya distancia es
mínima.
A continuación se unen los dos sujetos vecinos próximos. Si los vecinos
estañen grupos distintos, los grupos se unen para formar un nuevo grupo.
En cada paso de la aglomeración, cada fusión disminuye en uno, el número
de grupos.
Este método tiene la desventaja de que puede resultar un efecto de encadenamiento (escalera) en las distancias jerarquías que se forman. Esto
trae como consecuencia, que se dificulta la determinación de los grupos.
2.1.2. Ligamiento completo(Complete Linkage): es exactamente el método
opuesto del anterior. Aquí la distancia entre grupos se define como
la distancia entre sus más remotos pares de individuos.
Este método genera muchas clases homogéneas, produce un efecto de alargamiento de las jerarquías, lo cual es provocado por su propia definición.
En general, da buenas agrupaciones,
2.1.3. Ligamiento promedio:define la distancia entre grupos como el promedio de las distancias entre todos los pares de individuos en los dos
grupos.
Este método está entre el Simple y el Completo y, por tanto, posee la
estabilidad del uno y la propiedad homogénea del otro. Sus deficiencias en
el caso de distancias iguales son semejantes a las del método de Ligamiento
Completo.
Los métodos vistos anteriormente son los más utilizados, aunque existen
otros no menos importantes, tales como: método del Centroide y método de
la Mediana, los cuales tienen la desventaja de que una jerarquía que supuestamente es superior puede ser, en realidad, inferior.
2.1.4. Interpretación de los Resultados:
Una vez realizado el algoritmo escogido, obtenemos una representación
gráfica, a través del dondoqrama o árboL de clasificación. Es necesario,
entonces, interpretar los grupos que se forman. Para esto, so debe determinar el umbral o ñivo] que se fija en el dendograma para com: u V car de
29
él hacia abajo, los grupos. El número de grupos depende del nivel del
umbral, pues a niveles bajos les corresponden más grupos y a niveles altos,
menos grupos.
No existe ninguna fórmula para determinar el umbral, lo mejor es situar
el mismo en un punto donde por debajo, el número de grupos pequeños, no
sea muy bajo.
3. EJEMPLO DE APLICACIÓN:
El Cuestionario para el Registro de Alteraciones Físicas de origen
Psíquico (BEB) de E. Kasielke y K-D Hansgen es un método adecuado para
determinar los trastornos que vivencia el sujeto de los procesos emocionales , cognitivos ymotivacionales y que en menor o mayor medida afectan
su comportamiento ante la vida.
De los resultados del Análisis Factorial, los autores encontraron las
siguientes relaciones entre las dimensiones de los trastornos:
r
Trastornos
Trastornos Neuróticos
Corporales
Trastornos Psíquicos
Funcionales
Respiración/^
Circulación'
Neurótico-Psicasténico
Inhibido socialmente
Transpiración/
Sudoración
Hipocondríaco/
Anancástico
Digestión
Temeroso-Fóbico
De aquí derivaron escalas individuales que abarcan los trastornos corporales-funcionales y otras que incluyen la esfera de los trastornos psíquicos. Estas escalas conformaron la forma final del test que consta de
50 ítems distribuidos de la forma siguiente:
Escala general
Trastornos corporales funcionales
Trastornos psíquicos
Trastornos digestivos
Respiración/cardiovascular
Transpiración/sudoración
Trastornos neuróticos psicasténicos
Trastornos hipocondriacos/anancásticos
Inhibición social
Temores/fobias
30
50
25
25
6
7
4
10
7
8
8
ítems
ítems
ítems
ítems
ítems
ítems
ítems
ítems
ítems
ítems
Al analizar la evaluación de la frecuencia de los trastornos, los autores recomiendan diferenciar tres niveles en los que se utilizan todos los
ítems del 1 al 50:
- El nivel general de los trastornos (GES)
- Nivel de los trastornos corporales-funcionales (Ko) y el nivel de los
trastornos psíquicos (PS)
- El nivel de las escalas particulares
Los datos brutos obtenidos en estos niveles se pueden transformar a
valores C en tres tipos de normas para neuróticos, para pacientes de consultas externas y para sujetos normales. Los autores recomiendan adoptar
una primera decisión, mediante la norma de los neuróticos, agregando que:
Valores
Valores
Valores
Valores
C
C
C
C
del 0 al 2 se toman como fuera de la norma (no neuróticos)
= 3 como caso límite.
entre 4 y 7 como característica de neuróticos y
mayores de 7 como perturbación grave.
Los autores afirman también que el registro estandarizado de los trastornos a través del BEB, se puede aprovechar para detectar a aquellas personas sospechosas de ser neuróticas; por eso es adecuado utilizarlo en
investigaciones de rutina en trabajadores que están sometidos a fuerte
carga y entonces determinar aquellos que necesitan un tratamiento especial.
De aquí nuestro interés de investigar su adaptación a nuestras condiciones
para que en el futuro forme parte de baterías psicodiagnósticas, donde la
detección temprana de trastornos neuróticos permita el tratamiento precoz
y con esto, evitar el menoscabo de la personalidad de nuestros trabajadores. Por eso, en esta etapa del análisis de los ítems del BEB, es necesario dar respuesta a la pregunta siguiente:
¿Los ítems del BEB son capaces de discriminar a los sujetos neuróticos
de los sanos?
La muestra para el análisis de la calidad del BEB, fue la siguiente:
12 pacientes neuróticos hospitalizados.
30 pacientes con patologías digestivas, tratados en el Instituto de
gastroenterología.
15 sujetos sanos.
3.1. Aplicación del Cluster Analysis:
Sobre la base de los datos de tres grupos de sujetos (neuróticos, pacientes con patologías digestivas del IGE y sujetos sanos) se realizó un
análisis de Grupos (Cluster Analysis).
Se utilizó la forma adaptada del B. E. B. con 46 ítems (por el análisis
de ítems en un trabajo anterior se eliminaron 4 ítems originales que no
31
medían) utilizando solamente las Escalas de Trastornos Corporales-Funcionales, la de los Trastornos Psíquicos y la Escala Total.
La decisión acerca del punto donde se cortó el Cluster, se hizo, desde
el punto de vista del contenido. Se efectuaron los 56 pasos posibles del
Cluster y se determinó fijar el umbral en un paso donde el Cluster dé una
solución de cuatro grupos que pueden resultar interesantes.
Gráfica No. 2. Análisis de los grupos
(dendograma reducido):
o2
o1
o4
o3
La tabla Ne 1 contiene los valores promedios de esas cuatro agrupaciones
en las tres escalas investigadas en el B. E. B. (total, corporales y psíquicas) y la cantidad de sujetos comprendidos en el Cluster correspondiente (n) .
Tabla MQ 1, Perfiles de los valores C promedios de los Cluster del B.E.B.
Número de Escalas:
Cluster
Total
C
1
C o r , <•
Trastornos
Psíquicos
Trastornos
Corporales
Pune ionales
C
Sujetos
C
8
7
25
8
17
-
3
13
-
13
-
6
4
4
-
-
0
15
-
-
15
Total:
57
12
30
15
in ele hacer más clara la diferenciación de los perfiles, hemos
ana l i /ad .na distribución por clases en la tabla NQ 2, donde se le ha dado
r.-ositivo a los valores de los grupos por encima del. promedio y
negativo a los grupos con valores por debajo del promedio.
32
Tabla NQ 2. Perfiles promedios de los Cluster del B.E.B.
Cluster de Escalas:
Total
los valores
Trastornos
Corporales
Funcionales
Trastornos
Psíquicos
8
—
15
Total:
57
++
•(- +
+
+
+
-
3
4
+
-
+
—
Nota:
t
25
13
4
1
2
—
n
Sujetos
n
n
d
n
17
13
n
c
-
-
-
15
12
30
15
4
—
0-2,0C
no neuróticos
- 3C Límite
+ 4-7C Neuróticos
++ Más de 7C Fuertes alteraciones
neuróticas
Analizando primeramente la agrupación que resulta de los sujetos sanos
y los que presentan alguna alteración neurótica (neuróticos, psiquiátricos,
y pacientes con patologías digestivas del IGE) se hace evidente la división
de estos dos grupos de sujetos. Los primeros alcanzan valores de OC en todas las escalas, mientras que los segundos llegan a alcanzar desde valores
límites y características de neuróticos, hasta valores característicos de
fuertes alteraciones neuróticas.
En relación con los pacientes con alteraciones neuróticas, observamos
también que ellos se subdividen en tres grupos con alteraciones neuróticas
diferentes.
En el Cluster 1, encontramos, de forma generalizada, valores muy altos
en todas las escalas. Parece ser que se trata de pacientes con graves trastornos neuróticos. (8 sujetos neuróticos y 17 pacientes con patologías
digestivas del IGE) .
En el Cluster 2, la Escala de Trastornos Corporales-Funcionales muestra
un valor particularmente alto. En este grupo de pacientes predominan los
trastornos Corporales-Funcionales (13 sujetos con patologías digestivas
del IGE).
Por el contrario, en el Cluster 3, al alcanzar valores altos en la Escala de Trastornos Psíquicos, esto parece ser la particularidad neurótica de
este pequeño grupo de sujetos (cuatro sujetos neuróticos).
Estos dos últimos Clusters indican grupos de sujetos con trastornos
particulares en una esfera.
Por último, el Cluster 4, indica un perfil homogéneo con valores de
0 centiles. Aquí se encuentran los 13 sujetos normales.
33
En general, predomina una distribución por grados de importancia sobre
la base de los valores promedio totales en el orden jerárquico siguiente:
Cluster 1, 2-3 y 4.
El análisis de los Clusters demostró que el B. E. B. es apropiado para
diferenciar grupos de sujetos con neurosis diferentes y grupos diferentes
de sujetos, incluso, permite suponer como buena, la validez diferencial
del B. E. B.
A pesar de estos resultados satisfactorios, queremos enfatizar que por
ser el Cluster Analysis un método descriptivo, no podemos asegurar que
estos resultados confirman la validez de este cuestionario. Para eso es
necesario utilizar en el futuro una prueba de la Estadística Inferencial
que demuestre que, efectivamente, el BEB es capaz de diferenciar, significativamente a estos cuatro grupos de sujetos.
BIBLIOGRAFÍA
1. Anderberg, M.R.
Cluster Analysis for applications.
2. Everett, B.
Cluster Analysis. Heinemann Educational Bocka, Ltd. 2da. Ed., 1977.
3. Hacker, W.
Psicología Especial del Trabajo e Ingenieril en sus manifestaciones
particulares, Tomos 1 y 2 (en Impresión ENSPES).
4. Instituto de Investigaciones en Matemáticas
Introducción a los Métodos Jerárquicos de Análisis de Cluster.
UNAM, México, 1977.
5. Kasielke, E. y K.D. Honsgen
Cuestionario para el Registro de Alteraciones Físicas de Origen
Psíquico (BEB) Centro de Diagnósticos, Sección de Psicología de
la Universidad de Humboldt, Berlín, RDA, 1982 (manual en alemán,
traducción sin publicar).
6. Mardes, K.V.; J.T. Kent and J.M. Bibby
Multivariate Analysis, Academic. Press, EUA, 1979.
7. Prado, R. de,
R. Jurguen y M. Vázquez
Aspectos Teóricos y Metodológicos de la Carga Psíquica: Una Escala
Valorativa para su Medición (PVC), Rev. Cub. de Psic. Suplemento,
1985.
8. Prado, R. de, e I. Smith (compiladores)
Selección de lecturas sobre Psicología del Trabajo. ENSPES, 1986.
9. Schaarschmidt, U. y R. de Prado
Psicología del Trabajo, ENSPES, 1979.
34
10. Schaarschmidt, U.
Algunas consideraciones acerca del psicodiagnóstico laboral,
ENSPES, 1986.
35
Descargar