ANALISIS MULTIVARIANTE

Anuncio
ANALISIS MULTIVARIANTE
Es un conjunto de técnicas que se utilizan cuando se trabaja sobre colecciones
de datos en las cuáles hay muchas variables implicadas. Los principales problemas, en este contexto, son:
(i) [Análisis en Componentes Principales] Muchas de las variables que se
recogen entre los individuos de la población están correlacionadas, con lo
cuál la información es redundante. Interesa, por lo tanto, reducir el número
de variables para resumir adecuadamente la información. En este sentido,
la técnica consiste en crear “artificialmente” unas pocas variables “nuevas”
que retengan una parte significativa de la información proporcionada por los
datos. El procedimiento para crear dichas variables es matemático y no hay
seguridad de que las nuevas variables tengan un sentido claro; sin embargo,
en muchos casos esas variables pueden interpretarse, es decir, se les puede
dotar de sentido. Por ejemplo, si tomamos como variables las notas de un
conjunto de alumnos de Bachillerato en las distintas materias, el análisis en
componentes principales puede reducir las variables a unas pocas variables,
que quizá puedan identificarse como ı́ndices de competencia humanı́stica,
cientı́fico-técnica, etc.
(ii) [Análisis Discriminante] Consideremos una variable Y , categórica, con
una cantidad finita de valores (niveles) posibles, y varias variables numéricas
X1 , . . . , Xn . Tanto la variable Y como las Xi se registran simultáneamente
sobre un conjunto de individuos. Por ejemplo, si consideramos un conjunto
de pacientes afectados de una cierta enfermedad, las Xi podrı́an ser el
número de pulsaciones, el número de glóbulos rojos, niveles de calcio, potasio, etc. y la variable Y podrı́a ser una variable cualitativa que indica si se
estima que el paciente puede curar totalmente, parcialmente, o no curar. Se
plantean entonces dos cuestiones:
(a) Cuáles de entre las variables Xi permiten “discriminar” mejor el valor de Y
entre distintas alternativas? (obsérvese que en el fondo estamos intentando
detectar “influencias”).
(b) Dado un nuevo individuo en el cuál se han registrado los valores de las
variables Xi , predecir el valor más probable de Y para dicho individuo (es
decir, “clasificar” dicho individuo en alguno de los niveles posibles para la
variable Y ).
(iii) [Análisis Cluster] Dado un conjunto amplio de individuos sobre los cuáles
se han registrado los valores de ciertas variables numéricas X1 , . . . , Xn , dividir a dichos individuos en k grupos, también llamados clusters, distintos
1
(el número de grupos lo fija el experimentador) de modo que los elementos de cada grupo posean cierta afinidad. La técnica para determinar los
clusters es matemática, es decir, la idea de “afinidad” se traduce en ciertos
procedimientos matemáticos que permiten agrupar observaciones. Al igual
que en el caso del análisis en componentes principales, corre después a cargo
del experimentador dar sentido a cada uno de los grupos determinados, es
decir, encontrar los rasgos, comunes a las observaciones pertenecientes a un
cluster dado, que lo definen. Por ejemplo, en el caso de los clientes de una
empresa, el análisis cluster puede servir para dividir a dichos clientes en
distintos grupos, cada uno con un perfil distinto.
A menudo las técnicas anteriores se combinan. Por ejemplo, puede suceder que
la predicción de una cierta variable categórica Y mejore cuando se utilizan no
ciertas variables Xi , sino ciertas combinaciones de las Xi determinadas a partir
de un análisis en componentes principales. O que el análisis discriminante
funcione mejor sobre los elementos de un cierto cluster, en lugar de aplicarse
a toda la muestra, etc.
Análisis en Componentes Principales
El problema es el siguiente: dadas X1 , . . . , Xn variables, recogidas sobre una
cierta población, que poseen las siguientes caracterı́sticas,
a. n es grande
b. Entre ellas existen correlaciones (es decir, proporcionan información redundante).
c. Tienen significación (es decir, cada Xi tiene un sentido claro),
determinar nuevas variables Y1 , . . . , Ym , llamadas componentes principales, cada una de ellas de la forma
Yj = a1,j X1 + · · · + an,j Xn
(el coeficiente ak,i recibe el mombre de peso de la variable Xi en Yj ) y con las
siguientes caracterı́sticas:
a. m es menor que n (a menudo, significativamente menor)
b. Las Yj son independientes (es decir, entre ellas no hay correlaciones, y por
tanto no proporcionan información redundante).
c. En principio, se obtienen a partir de un procedimiento matemático, y no
hay certeza de que tengan un significado claro. Sin embargo, al observar
en las Yj las variables que tienen mayor peso (es decir, aquellas a las que
corresponden los mayores ak,j ), algunas Yj pueden interpretarse (observemos
que para hacer efectivo este criterio, las Yj deben ser de tamaños similares).
2
En principio, el procedimiento matemático suministra Y1 , . . . , Yn , es decir, el
mismo número de Yj que de Xi (lo cuál no supone ningún adelanto). Sin embargo, las Yj aparecen ordenadas según el porcentaje de información original
(es decir, procedente de las Xi ) que retienen. De este modo, basta con tomar
unas cuantas Yj , no todas, para retener un porcentaje de información suficiente. Es en esta etapa del proceso cuando el número de variables se reduce.
Dicho porcentaje de información se mide como el porcentaje de varianza “original” retenida. La idea es que, conocidas las varianzas de las Xi (que pueden
calcularse a partir de los datos originales) y las expresiones de las Yj (es decir,
una vez determinados los pesos de las Xi en cada Yj ), las varianzas de las
Yj pueden determinarse. Además, la varianza conjunta de varias variables se
estima como la suma de las varianzas. Puesto que la varianza conjunta de las
Xi supone una estimación de la “diversidad” presente en los datos, para que
un número reducido de Yj describa suficientemente bien la población la varianza conjunta de estas Yj debe suponer un porcentaje suficientemente grande
(digamos, cerca del 80 por ciento) de la variabilidad original. De hecho, este
es el criterio que suele considerarse para escoger las componentes principales
más relevantes.
Análisis Discriminante
Dadas X1 , . . . , Xn variables numéricas, y una variable categórica (o discreta)
Y , que recibe el nombre de variable clasificadora o factor de clasificación,
y que posee k valores (niveles) posibles, se plantean dos cuestiones:
(i) Determinar las Xi más influyentes a la hora de discriminar el valor de Y
entre distintas opciones. Este problema está relacionado con las llamadas
funciones discriminantes.
(ii) Predecir el valor de Y más probable para un individuo en el que se han registrado valores concretos de las Xi . Esta cuestión puede responderse también
mediante las funciones discriminanes, o bien mediante las llamadas funciones de clasificación.
Las funciones discriminantes son expresiones del tipo:
F1 = a1 X1 + a2 X2 + · · · + an Xn
F2 = b1 X1 + b2 X2 + · · · + bn Xn
..
.
donde los ai , bj , etc. reciben el nombre de pesos. Cada función discriminante
posee un cierto poder discriminante. En general, el procedimiento proporciona
varias funciones discriminantes; de ellas, nosotros nos quedaremos con unas
cuántas (en ocasiones, bastará con una) de modo que el poder discriminante
3
total sea grande. Cada función discriminante permite discriminar entre distintas opciones, de modo que la utilización sucesiva de todas las funciones
permite discriminar efectivamente el valor de Y ; por ejemplo, si Y es un diagnóstico sobre un enfermo del tipo “cura totalmente”, “cura parcialmente”
o “no cura”, y tenemos dos funciones discriminantes, puede suceder que la
primera permita distinguir entre aquellos pacientes que curan (total o parcialmente) y aquellos que no, mientras que la segunda función permita distinguir
los que curan totalmente de los que sólo lo hacen parcialmente. Si por el contrario, en el mismo ejemplo tenemos sólo una función discriminante, de su
valor podemos deducir directamente el posible diagnóstico de entre las tres
alternativas que se dan. Observemos que, si las variables involucradas en la
función tienen tamaños similares, las variables que poseen mayor peso en cada
función discriminante son las más influyentes a la hora de discriminar Y entre
las alternativas correspondientes a dicha función.
Si la variable Y tiene k niveles posibles, hay k funciones de clasificación
s1 = c1,0 + c1,1 X1 + · · · + c1,n Xn
..
.
sj = cj,0 + cj,1 X1 + · · · + cj,n Xn
de modo que dado un nuevo individuo, que registra valores x1 , . . . , xn en las
respectivas variables Xi , el valor más probable de Y para dicho individuo se
obtiene sustituyendo los valores x1 , . . . , xn en las funciones de clasificación,
y tomando el nivel correspondiente al subı́ndice de aquella función que de
un valor mayor. En el caso de las funciones de clasificación, los coeficientes
de las funciones no son interpretables, y por tanto no pueden utilizarse para
responder a la pregunta (i).
Análisis Cluster
Dado un número suficientemente grande de individuos entre los cuáles hemos
registrado los valores de las variables numéricas X1 , . . . , Xn , queremos dividir
las observaciones en grupos (clusters) según criterios de homogeneidad. Es
decir, cada grupo responderá a un cierto perfil, cuya descripción corre a cargo
del experimentador (es decir, el criterio para formar los clusters es matemático,
y los resultados son interpretados por el experimentador, si ello es posible).
Para formar los grupos o clusters, el procedimiento es el siguiente:
(1) Fijamos una cierta distancia. La más habitual es la euclı́dea al cuadrado,
según la cuál la distancia entre dos puntos del plano es el cuadrado de la
longitud de la porción de recta que los une; esta noción puede generalizarse
al espacio, y a un número mayor de dimensiones. Hay, no obstante, otras
4
nociones posibles de distancia, que también pueden usarse.
(2) Fijamos un número (k) de clusters.
(3) Buscamos la pareja de datos más próxima, conforme a la distancia fijada
en (1). Dicha pareja forma, provisionalmente, un grupo.
(4) A partir de este momento, continuamos buscando la pareja más próxima.
En este sentido, el grupo formado en (3) cuenta ahora como una sóla entidad, y por tanto se hace necesaria definir la distancia de una observación
a un grupo como el anterior, o, en general, la distancia entre dos grupos
(por ejemplo, entre dos parejas que han sido encontradas en distintos pasos del procedimiento). Para medir distancias entre grupos hay distintas
posibilidades. Entre ellas:
· método del centroide: Se sustituye el grupo por el punto (centroide) cuyas
coordenadas son las medias de las observaciones que integran el grupo.
De este modo, la distancia entre dos grupos es la distancia entre sus centroides, medida según (1).
· método del vecino más próximo: La distancia entre dos grupos es la menor
de las distancias (según (1)) entre los integrantes de cada grupo.
· método de Ward: tiene en cuenta la variabilidad total de cada grupo, de
modo que la distancia entre dos grupos se define como el aumento que se
producirı́a en la variabilidad conjunta si ambos grupos se fundieran para
formar uno sólo. Este método requiere que la distancia fijada en (1) sea
la euclı́dea al cuadrado.
· etc.
(5) Reiteramos el paso (4) hasta obtener k clusters.
Conviene observar que el experimentador tiene que decidir tanto el número
de clusters, como la distancia entre observaciones y la distancia entre grupos.
Distintas elecciones para estos parámetros llevan a resultados distintos, con
lo cuál en cada caso habrá que ver qué elecciones arrojan resultados más
significativos.
5
Descargar