Para comprender la estructura de la información de una tabla T(n,p

Anuncio
5.
ESTRATEGIA DE ANÁLISIS DE TABLAS
T(n, p) DE GRANDES DIMENSIONES
Para comprender la estructura de la información
de una tabla T(n, p) de grandes dimensiones es
necesario combinar el Análisis de Componentes
Principales con las técnicas de clasificación.
5.1. ¿Por qué se debe combinar el ACP
con las técnicas de clasificación...?
El ACP de una tabla T(n, p) de grandes dimensiones es
necesario... pero insuficiente.
a) El análisis factorial es necesario
F
Permite determinar el número de dimensiones
pertinentes (factores continuos) que deben ser
consideradas para comprender la estructura de la
información de la tabla.
F
Permite observar la organización espacial de las clases
de objetos observados.
La capacidad descriptiva de los ejes factoriales
(representación de comparaciones en un espacio
continuo) es irreemplazable.
Programa PRESTA - 1999 - Eduardo CRIVISQUI
Tr. N°62
b) El análisis factorial es insuficiente...
Por las siguientes razones:
1. Dificultades de interpretación ; reducción
excesiva de dimensiones ; deformaciones
✜
Dificultad de interpretar las proximidades entre los n
objetos de la tabla T(n, p) en planos de orden superior
al segundo plano principal.
La visualización de proximidades entre los n objetos
se limita a los 2 o 3 primeros ejes factoriales, pero el
número de dimensiones «interesantes» puede ser muy
superior.
✜
Reducción excesiva del espacio, lo cual puede producir
deformaciones y superposiciones ficticias entre los
objetos.
☞
La clasificación hecha sobre todas las dimensiones (o
sobre el subespacio «interesante») produce una
partición que toma en cuenta la dimensión real de la
nube de puntos, corrigiendo las deformaciones
producidas por las operaciones de proyección.
Programa PRESTA - 1999 - Eduardo CRIVISQUI
Tr. N°63
2. Carencia de robustez
✜
Un objeto «extremo» (¿valor «aberrante»?) tiene una
marcada influencia sobre el primer factor y
- en
consecuencia- sobre todas las dimensiones siguientes,
ligadas a la primera por la exigencia de ortogonalidad.
☞
La mayoría de los métodos de clasificación son
robustos. Los primeros nudos de un dendrograma
(formados por objetos que presentan las distancias
menores) son independientes de la presencia de objetos
aislados.
3. Representaciones gráficas intrincadas
✜
La visualización de centenares de puntos puede hacer
incomprensibles los gráficos factoriales, impidiendo el
reagrupamiento de los individuos en clases homogéneas.
☞
Los métodos de clasificación pueden ayudar a la
interpretación de los planos factoriales, identificando
«zonas» correspondientes a clases bien descriptas.
Programa PRESTA - 1999 - Eduardo CRIVISQUI
Tr. N°64
5.2. ¿Cómo combinar el ACP con las técnicas
de clasificación...?
El análisis de la información de una tabla T(n, p) de grandes
dimensiones, se realiza en cuatro etapas.
10 Etapa : Análisis factorial de la tabla T(n, p)
Esta primera etapa es indispensable...
✔
✔
En razón de la capacidad descriptiva del método.
Para observar la organización espacial de las clases de
individuos.
✔
Para operar un «filtro» sobre las dimensiones
importantes de la estructura de la información de la
tabla T(n, p).
Objetivos de esta etapa :
✧ Verificar la
clasificabilidad de los n individuos
observados.
✧
Determinar el número k de dimensiones (k < p) del
subespacio factorial que permite representar lo esencial
de la estructura de la información de la tabla T(n, p),
filtrando las fluctuaciones aleatorias o las variaciones
no-sistemáticas contenidas en la misma («alisado» de la
estructura de la información).
Programa PRESTA - 1999 - Eduardo CRIVISQUI
Tr. N°65
20 Etapa : Clasificación Jerárquica Ascendente
a partir de la «tabla de factores» Fα(n, k)
Esta etapa es necesaria...
✔
Porque los resultados producidos por un
procedimiento de agregación en torno a «centros
móviles» varían según el número de clases elegido.
✔
Las distancias iniciales entre los n individuos se
calculan en el espacio de los k primeros ejes factoriales
que fueron seleccionados. Se emplea para ello la
distancia euclidiana clásica.
✔
La C.J.A. se realiza con el método de Ward.
Objetivo de esta etapa :
✧
Determinar el número s de clases correspondiente a
una «buena» partición de los n individuos observados.
30 Etapa : Partición de los n individuos
a partir de la «tabla de factores» Fα(n, k)
Objetivo de esta etapa :
✧
Construcción de la partición Ps de los n individuos
en s clases.
Programa PRESTA - 1999 - Eduardo CRIVISQUI
Tr. N°66
40 Etapa : Descripción automática de las clases
✔
Para el conjunto de las p variables de T(n, p) [activas
y/o ilustrativas], se calculan los indicadores de desvíos
entre los valores de los grupos de individuos que
componen cada clase y los valores del conjunto de
individuos observados (ver sección §6).
✔
Los valores-test permiten ordenar esos desvíos por
orden de interés.
Objetivo de esta etapa :
✧
Caracterizar las clases de la partición Ps con las
variables de la tabla T(n, p).
50 Etapa : Ubicación de las clases en
en los planos factoriales
✔
Proyección de los Centros de Gravedad de las clases
de la partición Ps en el primer plano factorial de las
variables activas.
Objetivo : poner en evidencia ciertas «trayectorias»
ignoradas por el proceso discontinuo de
construcción de la partición Ps.
✔
Representación de la nube de puntos-individuos en los
primeros planos principales, utilizando la etiqueta del
número de clase a la cual pertenece cada individuo.
Objetivo : representar la densidad y la dispersión de las
clases de partición Ps.
Programa PRESTA - 1999 - Eduardo CRIVISQUI
Tr. N°67
Descargar