El análisis discriminante

Anuncio
El análisis discriminante
Joaquín Aldás Manzano1
Universitat de València
Dpto. de Dirección de Empresas “Juan José Renau Piqueras”
1
Estas notas son una selección de aquellos textos que, bajo mi punto de vista, mejor abordan
el tema analizado. Sus autores aparecen citados al principio de cada epígrafe, y a ellos hay
que referirse cuando se citen los contenidos de estas notas. Mi única tarea ha sido la de seleccionar, ordenar y, en algunos casos traducir los textos originales.
2
Análisis discriminante
Joaquín Aldás Manzano
El análisis discriminante
1. ¿Qué es el análisis discriminante?
(Uriel, 1997)
El análisis discriminante se utiliza para clasificar a distintos individuos en
grupos o poblaciones alternativos a partir de los valores de un conjunto de
variables sobre los individuos a los que se pretende clasificar. Imaginemos, a
modo de ejemplo, que un director de una sucursal bancaria necesita establecer
algún criterio que para conceder o no los préstamos que le son solicitados. Su
misión es detectar si el solicitante pertenecerá en el futuro al grupo de los que
devuelven los préstamos o si, por el contrario, será de aquellos que no lo hacen.
Supongamos que ese director tiene el historial de todos aquellos individuos que,
en el pasado, solicitaron préstamos. En ese historial figura, evidentemente, si
finalmente el préstamo fue devuelto o no, es decir, el director tiene clasificados
a los individuos en solventes e insolventes. Lo que se plantea ahora es si se
puede obtener algún tipo de función que le permita, ante una nueva solicitud,
predecir a cuál de los dos grupos va a pertenecer el solicitante.
Para esto sirve el análisis discriminante. Dada una población, que tenemos
dividida en grupos, el análisis discriminante encuentra una función que
permite, con un determinado grado de acierto, explicar esa división en grupos
(visión explicativa). Una vez obtenida, puede utilizarse para clasificar a nuevos
individuos en alguno de los grupos en que está dividida la población (visión
predictiva).
2. Visión geométrica del análisis discriminante
(Uriel, 1997)
Intentaremos ofrecer una intuición geométrica del análisis discriminante que
nos servirá, además, para introducir algunos conceptos necesarios. Supongamos
que tenemos una población que puede dividirse en dos grupos. Siguiendo con el
ejemplo inicial del director de banco: clientes solventes e insolventes. Supongamos, también, que queremos ser capaces de explicar esa clasificación
atendiendo a una única variable, por ejemplo, el nivel de ingresos del cliente.
Como el director del banco tiene el historial de los créditos pasados que conce-
3
Análisis discriminante
Joaquín Aldás Manzano
dió, sabe qué nivel de ingresos tenían los solventes y los insolventes. De esta
información podría obtenerse fácilmente la figura 1.
Distribución de frecuencias
Figura 1. Funciones de distribución hipotéticas de dos grupos
Grupo I
Grupo II
Insolventes
XI
Solventes
C
X II
Nivel de ingresos
Miembros del grupo II
Miembros del grupo I
como del grupo I
como del grupo II
incorrectamente clasificados
X
incorrectamente clasificados
Un criterio que podría adoptar el director de banco para conceder o no un
préstamo, podría ser calcular la media de ingresos de los dos grupos. La media
de ambas medias (C) sería un buen punto de corte como se ilustra en la figura
1. Si el nuevo solicitante tiene unos ingresos (X) superiores a C, se le concede el
préstamo y si los tiene inferiores no se le concede:
C =
XI + XII
2
es decir, si X>C al individuo se le clasifica en el grupo de los solventes y si
X<C en el de los probables insolventes.
Este criterio, como también se observa en la figura 1, no es infalible, dado que
en la base de datos del director del banco hay clientes con unos ingresos
inferiores a C que sí que devolvieron sus créditos y, por el contrario, hay clientes que tenían ingresos superiores a esa cantidad y que acabaron siendo insolventes. La misión del análisis discriminante es obtener un criterio de clasificación que reduzca ese error. Es decir, encontrar una función discriminante que
separe lo mejor posible las dos poblaciones.
4
Análisis discriminante
Joaquín Aldás Manzano
La figura 2, ilustra el caso anterior cuando utilizamos no una variable explicativa (los ingresos), sino dos, por ejemplo, los ingresos y la edad del solicitante.
Figura 2. Análisis discriminante con dos variables explicativas
X1
X1
X1,
II
C1
X 1, I
X2
D
C
DII
DI
X 2,I
C2
X 2,I I
X2
En esta figura 2, se intenta ilustrar cómo, si en lugar de utilizar para clasificar
una de las dos variables X1 y X2 por separado, se utiliza una combinación de
ambas D, el área que recoge el error, es mucho menor. En síntesis, el análisis
discriminante pretende encontrar aquella función discriminante:
D = u1X1 + u2X 2 + K + uk Xk
que menor error de clasificación produzca, donde X1 ...Xk son las k variables
explicativas y u1 ...uk son coeficientes de ponderación.
Cuando a los individuos se les quiera clasificar en dos grupos, bastará con una
función discriminante D, pero si se les quiere clasificar en tres grupos, harán
falta dos funciones discriminantes. En general serán necesarias G-1 funciones
discriminantes donde G es el número de grupos en que se divide la población
(figura 3).
5
Análisis discriminante
Joaquín Aldás Manzano
Figura 3. Ilustración del caso de tres grupos
X1
X2
3. Un ejemplo de aplicación del análisis discriminante para el
caso de dos grupos
(Hair, Anderson, Tatham y Black, 1995; Uriel, 1997)
Paso 1. Objetivos del análisis discriminante
Para ilustrar la aplicación de un análisis discriminante con dos grupos, utilizaremos el caso de la empresa HATCO como en temas anteriores. Se recordará
que una de las variables que describían a los clientes de HATCO, era el nivel
de utilización de los servicios de HATCO que cada cliente hacía, medido como
porcentaje del total de sus compras de maquinaria que le hacen a HATCO.
Parece razonable que HATCO desee explicar porqué unas empresas recurren
con más intensidad que otras a ella como proveedora.
Paso 2. Desarrollo del plan de análisis
En primer lugar es necesario determinar qué variables serán las independientes
y cuál la dependiente. Dado que la variable dependiente indica la pertenencia a
un grupo u otro, deberá ser no métrica, mientras que las independientes deben
ser métricas.
La variable dependiente, puede ser dicotómica (dos grupos) o politómica (más
de dos grupos), pero en todo caso, los grupos deben ser excluyentes. Un individuo no puede pertenecer a más de un grupo. Las variables independientes, por
su lado, deben ser seleccionadas partiendo de estudios previos que confirmen
6
Análisis discriminante
Joaquín Aldás Manzano
que pueden ejercer algún tipo de influencia sobre la pertenencia a los grupos.
En todo caso el investigador ha de sustituir la ausencia de estos trabajos con
su propio sentido común.
En nuestro ejemplo, la variable nivel de utilización de los servicios (X9), tal
como se ha definido, es una variable métrica, y en un discriminante la variable
dependiente tiene que ser no métrica, dado que sólo indica si se pertenece a un
grupo u a otro. Por ello HATCO divide a sus clientes en dos grupos, los que le
compran por encima de la media de todos los clientes, y los que le compran por
debajo de esa media. Estos son los dos grupos cuya pertenencia quiere explicar.
En cuanto a las variables independientes, parece lógico que se utilicen aquellas
que miden la percepción que de HATCO tienen sus clientes. Un cliente es
probable que mantenga una relación más intensa con HATCO si valora positivamente su rapidez del servicio (X1), su nivel de precios (X2) y así hasta la
calidad de sus productos. Serán por tanto las variables X1 a X7 las que se utilizarán como explicativas.
En cuanto al tamaño de la muestra, hay que indicar que el análisis discriminante es bastante sensible al número de casos por cada variable independiente.
La mayoría de trabajos sugieren un ratio de 20 observaciones por cada predictor. Aunque no siempre es posible llegar a esta cifra, el investigador debe ser
consciente de que los resultados pueden volverse inestables cuando se baja de
esta cifra. Esta consideración hay que hacerla también no sólo para el conjunto
de la muestra, sino también en cada uno de los grupos en que se divide la
población. Como guía, no deberían haber menos de 20 observaciones en cada
grupo. Además debe analizarse también los tamaños relativos de los grupos, si
hay grandes diferencias de tamaño entre ellos, el análisis puede verse afectado
al aumentar desproporcionadamente la probabilidad de pertenencia a los más
grandes, llegando a recomendarse un muestreo aleatorio de casos de los grupos
más grandes para equilibrar la muestra.
En nuestra base de datos, disponemos de 100 observaciones y de 7 variables
independientes, lo que da un ratio de 15 a 1, no muy alejado de la cifra
óptima. Asimismo, como se observa en el cuadro 1, en cada uno de los dos
grupos hay el mismo número de casos, no siendo necesario equilibrar la
muestra.
7
Análisis discriminante
Joaquín Aldás Manzano
Cuadro 1. Descriptivos de la variable dependiente
Intensidad de uso dicotomizada
Válidos
Porcentaje
válido
Porcentaje
acumulado
Frecuencia
Porcentaje
Menos de la media
50
50,0
50,0
50,0
Más de la media
50
50,0
50,0
100,0
100
100,0
100,0
Total
Paso 3. Condiciones de aplicabilidad del análisis discriminante
Dos son las hipótesis a las que el análisis discriminante se muestra especialmente sensible: normalidad multivariante de las variables independientes y
homoscedasticidad (igualdad de la matriz de covarianzas en los grupos). Si los
datos no cumplen la normalidad multivariante, aparecen problemas en la
estimación de la función discriminante y, por otro lado, el procedimiento de
clasificación hace que haya una marcada tendencia a clasificar a los individuos
en aquellos grupos que tienen una matriz de covarianzas mayor.
Para estas comprobaciones se remite al lector a la comprobación que se efectuó
de los mismos en el tema del análisis de regresión.
Paso 4. Estimación del modelo y ajuste global.
Al igual que ocurría con la regresión lineal, podemos optar por dos métodos de
estimación de la función discriminante. El primero de ellos es la estimación
simultánea, es decir, introduciendo todas las variables explicativas. Este
método es adecuado cuando lo que prima es la precisión de la clasificación, esto
es, no nos importa tanto explicar porqué la función discriminante clasifica
como lo hace (qué variables independientes ha incluído), sino que clasifique
bien. Es decir, prima en el investigador el enfoque predictivo sobre el explicativo.
El segundo método, adecuado cuando lo que quiere el investigador es explicar
la pertenencia a los grupos, es la estimación paso a paso. Sólo entrarán aquellas
variables independientes que superen ciertos niveles mínimos de poder explicativo (normalmente se busca la minimización del estadístico Λ de Wilks aunque
existen otros criterios como reducir la distancia de Mahalanobis entre los
centroides).
8
Análisis discriminante
Joaquín Aldás Manzano
Dado que a nosotros nos interesa tanto obtener una función discriminante con
un buen poder clasificatorio, como saber qué variables determinan la pertenencia a los grupos, mostraremos la solución del método paso a paso.
En el procedimiento paso a paso puede entrar, y también salir, aquella variable
que cumpliendo el requisito mínimo (Valor mínimo de F para entrar o Valor
máximo de F para salir), tenga un valor más pequeño del estadístico Λ de
Wilks. Antes de comenzar la aplicación del procedimiento es necesario fijar una
valor mínimo de F para entrar y un valor máximo de F para salir. Nosotros
tomaremos los valores por defecto del programa (3’84 y 2’71 respectivamente).
El valor F para entrar debe ser mayor que el de salida, pues de no ser así una
variable podría estar entrando y saliendo de forma indefinida en la selección.
En el cuadro 2 se observa como, inicialmente, todas las variables son candidatas a entrar en la función discriminante, salvo el nivel de precios (F = 0’697 <
3’84).
Cuadro 2. Variables que pueden entrar
Pruebas de igualdad de las medias de los grupos
Lambda
de Wilks
F
gl1
gl2
Sig.
Rapidez de servicio
,682
45,687
1
98
,000
nivel de precios
,993
,697
1
98
,406
flexibilidad de precios
,692
43,681
1
98
,000
Imagen del fabricante
,970
2,999
1
98
,086
Servicio
,650
52,688
1
98
,000
Imagen de los
vendedores
,970
3,016
1
98
,086
Calidad del producto
,950
5,106
1
98
,026
Como se observa en el cuadro 2, la variable que tiene un valor Λ de Wilks más
pequeño (consecuentemente un F asociado al mismo más grande) es el correspondiente con la variable servicio que será la que entrará en primer lugar,
como se señala en el cuadro 3. En el paso 0 todas las variables están fuera del
análisis, el programa calcula la Λ de Wilks y la correspondiente F. Como
primera candidata a entrar se encuentra la mencionada servicio por los
motivos señalados. Como su F supera el valor mínimo para entrar, es la
considerada.
9
Análisis discriminante
Joaquín Aldás Manzano
Cuadro 3. Resumen de los pasos del discriminante
Variables no incluidas en el análisis
Tolerancia
Paso
0
1
2
Tolerancia
mín.
F que
introducir
Lambda
de Wilks
Rapidez de servicio
1,000
1,000
45,687
,682
nivel de precios
1,000
1,000
,697
,993
flexibilidad de precios
1,000
1,000
43,681
,692
Imagen del fabricante
1,000
1,000
2,999
,970
Servicio
1,000
1,000
52,688
,650
Imagen de los
vendedores
1,000
1,000
3,016
,970
Calidad del producto
1,000
1,000
5,106
,950
Rapidez de servicio
,825
,825
10,820
,585
nivel de precios
,668
,668
10,818
,585
flexibilidad de precios
,848
,848
67,688
,383
Imagen del fabricante
,939
,939
,003
,650
Imagen de los
vendedores
,970
,970
,149
,649
Calidad del producto
,991
,991
5,714
,614
Rapidez de servicio
,588
,542
1,037
,379
nivel de precios
,460
,460
1,420
,377
Imagen del fabricante
,908
,820
1,247
,378
Imagen de los
vendedores
,960
,835
,873
,380
Calidad del producto
,836
,715
,514
,381
Para que una variable entre, no sólo basta con que su F supere el valor mínimo
para entrar, también se le exige una segunda condición. El método paso a paso
fija un nivel llamado de tolerancia. La tolerancia es una medida de la asociación lineal entre las variables independientes. Para la variable i la tolerancia se
define como 1-ri 2 donde ri 2 es el coeficiente de determinación entre la variable i
y el resto de variables explicativas que figuran en el modelo. Cuando la toleracia de la variable i es muy pequeña significa que dicha variable está muy correlacionada con el resto de las variables explicativas, lo que puede crear probemas en la estimación. El programa establece un nivel mínimo de tolerancia de
0,001, con lo que las variables con tolerancia menor que ese límite son excluídas
del análisis. En el paso 0, la tolerancia es 1, dado que el estadístico no se
calcula en esa iteración.
En el paso 1, como se ha indicado, ha entrado la variable servicio. El programa
entonces evalúa las variables restantes y comprueba que de las que superan el
valor mínimo de la F para entrar, el que tiene un valor de la Λ de Wilks más
10
Análisis discriminante
Joaquín Aldás Manzano
baja (F más alta) se corresponde con la variable flexibilidad de precios, siendo
ésta la que entrará en el paso 2, dado que también cumple el requisito de la
tolerancia. Finalmente, como se observa en el cuadro 3, ninguna variable es
candidata para entrar, pues tienen un valor de F demasiado pequeño.
Pero, como se ha indicado, en cada paso, no sólo hay que determinar qué
variable puede entrar, sino si las que han entrado debe salir. Para ello hay que
comprobar que superan el valor máximo de F para salir que las haría ser excluídas. El programa toma por defecto el valor 2,71. En el cuadro 4 se comprueba
como, las dos variables que han entrado superan ese valor y no deben ser
excluídas.
Cuadro 4. Valores de F para salir
Variables en el análisis
Paso
Tolerancia
F que eliminar
Lambda
de Wilks
1
Servicio
1,000
52,688
2
Servicio
,848
78,157
,692
flexibilidad de precios
,848
67,688
,650
El cuadro 5 resume las variables que se incorporan a la función discriminante.
Es interesante destacar cómo en las notas al pie 2 y 3 del cuadro, aparecen los
valores máximo y mínimo de F que se han señalado como por defecto del
programa con anterioridad.
Cuadro 5. Variables de la función discriminante
1,2,3,4
Variables introducidas/eliminadas
Lambda de Wilks
F exacta
Introducidas
Paso
Estadístico
gl1
gl2
gl3
Estadístico
gl1
gl2
1
Servicio
,650
1
1
98,000
52,688
1
98,000
,000
2
flexibilidad
de precios
,383
2
1
98,000
78,114
2
97,000
,000
En cada paso se introduce la variable que minimiza la lambda de Wilks global.
1.
2.
3.
4.
Sig.
El número máximo de pasos es 14.
La F parcial mínima para entrar es 3.84.
Maximum partial F to remove is 2.71.
El nivel de F, la tolerancia o el VIN son insuficientes para continuar los cálculos.
Una vez calculada la función discriminante, se determina si esta es globalmente
significativa (no si cada una de las variables que han entrado deberían haberlo
hecho). Para ello se plantea la hipótesis nula de si las medias poblacionales
11
Análisis discriminante
Joaquín Aldás Manzano
difieren significativamente en los dos grupos considerados. En el caso de que la
respuesta fuera negativa, carecería de interés continuar con el análisis, ya que
significaría que las variables introducidas como variables clasificadoras no
tienen capacidad discriminante significativa. Como se comprueba en el cuadro
7, el estadístico χ2 que se utiliza para contrastar la hipótesis nula de igualdad
de los vectores de medias (χ2 = 93,080) tiene una significatividad asociada de
0, lo que permite rechazar la hipótesis nula y afirmar la significatividad de la
función discriminante.
Cuadro 7. Significatividad global de la función discriminante
Lambda de Wilks
Lambda
de Wilks
Contraste de
las funciones
1
Chi-cuadrado
,383
gl
93,080
Sig.
2
,000
Una vez estimada la función discriminante, la segunda fase en este paso es
establecer la capacidad predictiva del análisis efectuado, es decir, medir la
bondad del ajuste del modelo. Para ello el programa ofrece la llamada matriz
de confusión. Dado que en nuestra muestra sabemos a qué grupo pertenecen
de verdad las empresas (si compran por debajo o por encima de la media), lo
que hace la matriz de confusión es cruzar la clasificación real con la estimada
mediante la función discriminante. Cuantos más casos hayan sido correctamente clasificados, más probable es que acertemos a la hora de utilizar la
función con fines predictivos o, bajo otra perspectiva, más seguros estaremos de
que las variables que han entrado son las que realmente determinan la clasificación. El cuadro 8 muestra la matriz de confusión de nuestro ejemplo.
Cuadro 8. Matriz de confusión
Resultados de la clasificación1
Grupo de pertenencia
pronosticado
Menos de
la media
Original
Recuento
%
Intensidad de uso
dicotomizada
Menos de la media
Intensidad de uso
dicotomizada
Menos de la media
Más de la media
Más de la media
Más de la
media
Total
43
7
50
3
47
50
86,0
14,0
100,0
6,0
94,0
100,0
1. Clasificados correctamente el 90,0% de los casos agrupados originales.
12
Análisis discriminante
Joaquín Aldás Manzano
Puede comprobarse como, de haber utilizado la función discriminante para
clasificar a nuestra población, caso de no saber a qué grupo pertenecían las
emrpesas, hubiéramos acertado en el 90% de los casos. El acierto es ligeramente
mayor para predecir la pertenencia al grupo de compradores por encima de la
media (94%) que para predecir la pertenencia al grupo que compra por debajo
de la media (86%).
Otro indicador de la bondad de ajuste es el coeficiente η2 que es el coeficiente
de correlación obtenido al realizar la regresión entre la variable dicotómica que
indica la pertenencia al grupo y las puntuaciones discriminantes. A la raíz
cuadrada de este coeficiente, que es la que aparece en la salida (cuadro 9) se la
denomina correlación canónica, pudiéndose calcular también en función del
autovalor λ que minimiza el valor de la Λ de Wilks del siguiente modo:
h=
l
=
1+l
h 2 = 0,61
1,611
= 0,785
1 + 1,611
2
Cuadro 9. Indicador η de bondad de ajuste
Autovalores
Autovalor
Función
1
1,6111
% de varianza
% acumulado
100,0
100,0
Correlación
canónica
,785
1. Se han empleado las 1 primeras funciones discriminantes canónicas en el
análisis.
Paso 5. Interpretación de los resultados
Si, como ocurre en nuestro ejemplo, la función discriminante es significativa, y
la bondad del ajuste aceptable, el investigador se centrará en interpretar los
resultados. Este proceso pasa por examinar las funciones discriminantes obtenidas para establecer la importancia relativa de cada variable independiente a la
hora de discriminar entre los grupos. Existen tres métodos para ello: los coeficientes estandarizados de las funciones discriminantes, la matriz de estructura
y el F univariante.
El enfoque más habitual es interpretar el signo y magnitud de los coeficientes
estandarizados de la función discriminante. Si hacemos caso omiso del signo,
cada coeficiente representa la contribución relativa de su variable asociada a la
13
Análisis discriminante
Joaquín Aldás Manzano
función. Las variables independientes con coeficientes más grandes contribuyen
más al poder discriminante de la función que las variables con coeficientes más
pequeños. El signo solo indica el sentido de la contribución.
La interpretación de estos coeficientes es análoga a la de los coeficientes estandarizados de una regresión y sujeta por ello a las mismas críticas. Por ejemplo,
un coeficiente pequeño indica tanto que la variable asociada es irrelevante en la
relación como que ha sido eliminada por un alto grado de multicolinealidad.
El cuadro 10 muestra los coeficientes estandarizados de las dos variables que
entraron en la función. Puede observarse que la contribución de las dos variables es similar y, en ambos casos, incrementos en las mismas favorecen la intensidad de la relación comercial entre las empresas.
Cuadro 10. Coeficientes estandarizados
Coeficientes estandarizados de las
funciones discriminantes canónicas
Función
1
flexibilidad de precios
,886
Servicio
,924
En los últimos años se utilizan cada vez con más frecuencia las puntuaciones
discriminantes para interpretar los resultados del análisis, debido a las deficiencias señaladas del método anterior. Las puntuaciones discriminantes, que
aparecen bajo la etiqueta de matriz de estructura (cuadro 11), miden la correlación simple entre cada variable independiente y la función discriminante.
Reflejan la varianza que la variable independiente comparte con la función
discriminante y pueden interpretarse como las puntuaciones factoriales de un
análisis factorial. En nuestro caso, si nos fijamos solamente en las correlaciones
de las variables que han entrado en la función, se confirma que ambas variables
tienen contribuciones parejas.
14
Análisis discriminante
Joaquín Aldás Manzano
Cuadro 11. Matriz de estructura
Matriz de estructura
Función
1
Rapidez de
servicio1
,639
Servicio
,578
flexibilidad de precios
,526
Calidad del producto 1
-,265
nivel de
precios 1
-,039
Imagen de los
1
vendedores
,019
Imagen del fabricante 1
,000
Correlaciones intra-grupo combinadas entre
las variables discriminantes y las funciones
discriminantes canónicas tipificadas
Variables ordenadas por el tamaño de la
correlación con la función.
1. Esta variable no se emplea en el análisis.
Finalmente, cuando se utiliza el método paso a paso para estimar la función
discriminante, también pueden utilizarse los estadísticos F univariantes que
aparecían en el cuadro 2 para interpretar el poder discriminante relativo de
cada variable independiente. Esto se logra analizando el tamaño del estadístico
y ordenándolos por él. Valores de F elevados indican mayor poder discriminante. En la práctica las ordenaciones que se obtienen con los F son las mismas
que cuando se utilizan los coeficientes, pero tienen la ventaja de tener asociados un valor de significatividad.
No podemos olvidar, sin embargo, que la utilización del análisis discriminante
se ha planteado con dos finalidades. Una explicativa, para lo que sirven los
comentarios anteriores. Pero otra predictiva, es decir, pretendemos clasificar a
nuevas empresas en uno de los dos grupos establecidos. Veamos cómo procede
el análisis discriminante para clasificar mediante la función discriminante a las
empresas de nuestra base de datos en los dos grupos establecidos y, de aquí,
derivaremos cómo clasificaríamos a una empresa nueva.
El programa calcula las llamadas funciones discriminantes lineales de Fisher,
una para cada uno de los grupos. A partir de la información que aparece en el
cuadro 12, estas funciones serían:
15
Análisis discriminante
Joaquín Aldás Manzano
F1 = - 44,23 + 7,87 × X 3 + 12,51 × X5
F2 = - 70,52 + 9,79 × X 3 + 16,33 × X5
Cuadro 12. Salida de SPSS para las funciones de Fisher
Coeficientes de la función de clasificación
Intensidad de uso
dicotomizada
flexibilidad de precios
Servicio
(Constante)
Menos de
la media
Más de la
media
7,873
9,795
12,519
16,331
-44,239
-70,524
Funciones discriminantes lineales de Fisher
A continuación se calcula la llamada probabilidad a posteriori o Pr(g/D), que
es la probabilidad de que, dado que la puntuación discriminante de un individuo ha sido D, pertenezca al grupo g (en nuestro caso, al grupo 1 o al grupo
2). Esto se hace del siguiente modo:
Pr ( g / D ) =
e Fg
e F1 + e F2
g = 1,2
Pues bien, el individuo se clasificará en aquel grupo para el que tenga una
probabilidad a posteriori mayor. Si nos fijamos en la empresa 1 de la base de
datos HATCO, las variables X3 flexibilidad de precios y X5 servicio, toman
respectivamente los valores 6’9 y 2’5, luego sus funciones discriminantes lineales
de Fisher tomarán los valores:
F1 = - 44,23 + 7,87 × 6,9 + 12,51 × 2, 4 = 40,13
F2 = - 70,52 + 9,79 × 6,9 + 16,33 × 2,4 = 36,25
y las probabilidades a posteriori:
e 40,13
= 0,98
e 40,13 + e 36,25
e 36,25
Pr ( g = 2/ D ) = 40,13
= 0,02
e
+ e 36,25
Pr ( g = 1/ D ) =
16
Análisis discriminante
Joaquín Aldás Manzano
luego a la empresa 1 se la clasificará en el grupo 1 que, en este caso, coincide
con el grupo real al que pertenece. Para clasificar a una nueva empresa bastará
con repetir los pasos señalados pero teniendo en cuenta la valoración que
hagan de X3 y X5.
Paso 6. Validación de los resultados.
El último paso del análisis discriminante pasa por validar los resultados. La
mejor forma de hacerlo consiste en reservar parte de la muestra cuando se
estima la función discriminante. Una vez obtenida esta, se clasifica mediante el
procedimiento que acaba de describirse a los individuos que no se utilizaron
para estimarla. Si el porcentaje de acierto es similar al de la muestra de estimación, el análisis sería válido.
4. Un ejemplo de aplicación del análisis discriminante para el
caso de tres grupos
(Hair, Anderson, Tatham y Black, 1995; Uriel, 1997)
Vamos a ilustrar la aplicación del análisis discriminante para el caso de tres
grupos. Dado que la mayoría de los pasos anteriores son idénticos, nos centraremos, sobre todo, en la interpretación de las funciones discriminantes, que es
el elemento novedoso, al haber más de una.
El problema que analizamos es el mismo que en el caso anterior, con la diferencia de que la población aparece ahora dividida en tres grupos: el tercio de las
empresas que menos compran a HATCO, el tercio intermedio y el tercio que
más intensa relación mantienen con esta empresa. El objetivo es el mismo:
establecer los determinantes de este uso y predecir a qué grupo pertenecerán
nuevas empresas.
El proceso es el mismo. Así, el cuadro 13 nos permite determinar que las variables que se han incluído en las funciones discriminantes son las mismas que en
el caso anterior: el servicio y la flexibilidad de precios. Obviamos el detalle del
proceso paso a paso por ser análogo al anterior
17
Análisis discriminante
Joaquín Aldás Manzano
Cuadro 13. Variables de las funciones discriminantes
1,2,3,4
Variables introducidas/eliminadas
Lambda de Wilks
F exacta
Introducidas
Paso
Estadístico
gl1
gl2
gl3
Estadístico
gl1
gl2
Servicio
,550
1
2
97,000
39,735
2
97,000
,000
2
flexibilidad
de precios
,316
2
2
97,000
37,446
4
192,000
,000
En cada paso se introduce la variable que minimiza la lambda de Wilks global.
1.
2.
3.
4.
Sig.
1
El número máximo de pasos es 14.
La F parcial mínima para entrar es 3.84.
Maximum partial F to remove is 2.71.
El nivel de F, la tolerancia o el VIN son insuficientes para continuar los cálculos.
Como en el caso de dos grupos, el cuadro 14, muestra que las dos funciones
discriminantes obtenidas son, también, globalmente significativas.
Cuadro 14. Significatividad global de la función discriminante
Lambda de Wilks
Lambda
de Wilks
Contraste de las
funciones
Chi-cuadrado
gl
Sig.
1 a la 2
,316
111,300
4
,000
2
,903
9,850
1
,002
La mayor importancia de la primera función a la hora de separar los grupos,
queda evidenciada por el hecho de que explica por sí misma más del 94% de la
varianza. Los indicadores η2 de bondad de ajuste (cuadro 15) conducen a
conclusiones análogas.
2
Cuadro 15. Indicador η de bondad de ajuste
Autovalores
Autovalor
Función
% de varianza % acumulado
Correlación
canónica
1
1,8611
94,5
94,5
,807
2
1
5,5
100,0
,312
,107
1. Se han empleado las 2 primeras funciones discriminantes canónicas en el
análisis.
18
Análisis discriminante
Joaquín Aldás Manzano
Finalmente, la matriz de confusión, evidencia que la capacidad clasificatoria de
las funciones obtenidas es menor que en el caso de dos grupos, al clasificar
adecuadamente sólo al 77% de la muestra, siendo especialmente falible en el
grupo de uso intermedio.
Cuadro 16. Matriz de confusión
1
Resultados de la clasificación
Grupo de pertenencia pronosticado
Original
Recuento
nivel de
uso tres
niveles
menor uso
uso
intermedio
mayoruso
27
7
0
34
4
21
9
34
menor uso
uso intermedio
mayoruso
%
nivel de
uso tres
niveles
Total
0
3
29
32
menor uso
79,4
20,6
,0
100,0
uso intermedio
11,8
61,8
26,5
100,0
,0
9,4
90,6
100,0
mayoruso
1. Clasificados correctamente el 77,0% de los casos agrupados originales.
El último paso, una vez establecida la significatividad y precisión del proceso,
es interpretar las funciones discriminantes. Ya hemos señalado la mayor importancia relativa de la primera función a la hora de separar los grupos. Pues bien,
como se comrpueba en los cuadros 17 y 18, ya utilizando el criterio de los coeficientes estandarizados, ya el de la matriz de estructura, son las variables flexibilidad de precios y servicio quienes determinan la función con pesos muy
parecidos. La segunda función viene también explicada por estas variables, con
la única diferencia de que el servicio tiene signo negativo
Cuadro 17. Coeficientes estandarizados
Coeficientes estandarizados de las funciones
discriminantes canónicas
Función
1
2
flexibilidad de precios
,833
,688
Servicio
,952
-,511
19
Análisis discriminante
Joaquín Aldás Manzano
Cuadro 18. Matriz de estructura
Matriz de estructura
Función
1
2
Rapidez de servicio1
,612*
flexibilidad de precios
,473
,881*
Servicio
,637
-,771*
,029
-,696*
-,286
-,299*
Imagen del fabricante
-,100
-,262*
Imagen de los
1
vendedores
-,049
-,174*
1
nivel de precios
1
Calidad del producto
1
-,040
Correlaciones intra-grupo combinadas entre las
variables discriminantes y las funciones
discriminantes canónicas tipificadas
Variables ordenadas por el tamaño de la
correlación con la función.
*. Mayor correlación absoluta entre cada variable y
cualquier función discriminante.
1. Esta variable no se emplea en el análisis.
Finalmente, para clasificar a los individuos se procede del mismo modo que en
el caso de dos grupos, con la salvedad de que ahora se dispone de tres funciones lineales de Fisher (cuadro 19). Se ilustra la clasificación de la empresa
número 1 de la base de datos de HATCO.
20
Análisis discriminante
Joaquín Aldás Manzano
Cuadro 19. Funciones de Fisher
Coeficientes de la función de clasificación
nivel de uso tres niveles
flexibilidad de precios
Servicio
(Constante)
menor uso
uso
intermedio
mayoruso
7,924
8,895
10,367
13,118
16,855
18,622
-44,135
-61,370
-79,354
Funciones discriminantes lineales de Fisher
Las funciones discriminantes son, pues:
F1 = - 44,13 + 7,92 × X3 + 13,11 × X5
F2 = - 61,37 + 8,89 × X 3 + 16,85 × X 5
F3 = - 79,35 + 10,36 × X 3 + 18,62 × X5
y como para la primera empresa X3 = 6,9 y X5 = 2,4, estas funciones toman
los valores:
F1 = - 44,13 + 7,92 × 6,9 + 13,11 × 2, 4 = 42,02
F2 = - 61,37 + 8,89 × 6,9 + 16,85 × 2,4 = 40,45
F3 = -79,35 + 10,36 × 6,9 + 18,62 × 2,4 = 36,87
De tal modo que las probabilidades a posteriori serán:
e 42,02
= 0,82
e 42,02 + e 40,45 + e 36,87
e 40,45
Pr ( g = 2/ D ) = 42,02
= 0,17
e
+ e 40,45 + e 36,87
e 36,87
Pr ( g = 3 / D ) = 42,02
= 0,01
e
+ e 40,45 + e 36,87
Pr ( g = 1/ D ) =
con lo que la empresa ha sido clasificada en el grupo 1, correspondiente a aquel
tercio que menos uso hace de los servicios de HATCO. Esta clasificación
mediante la función discriminante coincide, en este caso, con la real. Cualquier
nueva empresa podría clasificarse con una probabilidad calculable, sin más que
conocer sus valoraciones de X3 y X5.
21
Análisis discriminante
Joaquín Aldás Manzano
Referencias bibliográficas
Hair, J.F.; Anderson, R.E.; Tatham, R.L. y Black; W.C. (1995): Multivariate
Data Analysis. 4ª edición. Englewood Cliffs, NJ: Prentice Hall.
Uriel, E. (1997): Análisis de datos. Series temporales y análisis multivariante.
Madrid: AC.
Descargar