El análisis discriminante Joaquín Aldás Manzano1 Universitat de València Dpto. de Dirección de Empresas “Juan José Renau Piqueras” 1 Estas notas son una selección de aquellos textos que, bajo mi punto de vista, mejor abordan el tema analizado. Sus autores aparecen citados al principio de cada epígrafe, y a ellos hay que referirse cuando se citen los contenidos de estas notas. Mi única tarea ha sido la de seleccionar, ordenar y, en algunos casos traducir los textos originales. 2 Análisis discriminante Joaquín Aldás Manzano El análisis discriminante 1. ¿Qué es el análisis discriminante? (Uriel, 1997) El análisis discriminante se utiliza para clasificar a distintos individuos en grupos o poblaciones alternativos a partir de los valores de un conjunto de variables sobre los individuos a los que se pretende clasificar. Imaginemos, a modo de ejemplo, que un director de una sucursal bancaria necesita establecer algún criterio que para conceder o no los préstamos que le son solicitados. Su misión es detectar si el solicitante pertenecerá en el futuro al grupo de los que devuelven los préstamos o si, por el contrario, será de aquellos que no lo hacen. Supongamos que ese director tiene el historial de todos aquellos individuos que, en el pasado, solicitaron préstamos. En ese historial figura, evidentemente, si finalmente el préstamo fue devuelto o no, es decir, el director tiene clasificados a los individuos en solventes e insolventes. Lo que se plantea ahora es si se puede obtener algún tipo de función que le permita, ante una nueva solicitud, predecir a cuál de los dos grupos va a pertenecer el solicitante. Para esto sirve el análisis discriminante. Dada una población, que tenemos dividida en grupos, el análisis discriminante encuentra una función que permite, con un determinado grado de acierto, explicar esa división en grupos (visión explicativa). Una vez obtenida, puede utilizarse para clasificar a nuevos individuos en alguno de los grupos en que está dividida la población (visión predictiva). 2. Visión geométrica del análisis discriminante (Uriel, 1997) Intentaremos ofrecer una intuición geométrica del análisis discriminante que nos servirá, además, para introducir algunos conceptos necesarios. Supongamos que tenemos una población que puede dividirse en dos grupos. Siguiendo con el ejemplo inicial del director de banco: clientes solventes e insolventes. Supongamos, también, que queremos ser capaces de explicar esa clasificación atendiendo a una única variable, por ejemplo, el nivel de ingresos del cliente. Como el director del banco tiene el historial de los créditos pasados que conce- 3 Análisis discriminante Joaquín Aldás Manzano dió, sabe qué nivel de ingresos tenían los solventes y los insolventes. De esta información podría obtenerse fácilmente la figura 1. Distribución de frecuencias Figura 1. Funciones de distribución hipotéticas de dos grupos Grupo I Grupo II Insolventes XI Solventes C X II Nivel de ingresos Miembros del grupo II Miembros del grupo I como del grupo I como del grupo II incorrectamente clasificados X incorrectamente clasificados Un criterio que podría adoptar el director de banco para conceder o no un préstamo, podría ser calcular la media de ingresos de los dos grupos. La media de ambas medias (C) sería un buen punto de corte como se ilustra en la figura 1. Si el nuevo solicitante tiene unos ingresos (X) superiores a C, se le concede el préstamo y si los tiene inferiores no se le concede: C = XI + XII 2 es decir, si X>C al individuo se le clasifica en el grupo de los solventes y si X<C en el de los probables insolventes. Este criterio, como también se observa en la figura 1, no es infalible, dado que en la base de datos del director del banco hay clientes con unos ingresos inferiores a C que sí que devolvieron sus créditos y, por el contrario, hay clientes que tenían ingresos superiores a esa cantidad y que acabaron siendo insolventes. La misión del análisis discriminante es obtener un criterio de clasificación que reduzca ese error. Es decir, encontrar una función discriminante que separe lo mejor posible las dos poblaciones. 4 Análisis discriminante Joaquín Aldás Manzano La figura 2, ilustra el caso anterior cuando utilizamos no una variable explicativa (los ingresos), sino dos, por ejemplo, los ingresos y la edad del solicitante. Figura 2. Análisis discriminante con dos variables explicativas X1 X1 X1, II C1 X 1, I X2 D C DII DI X 2,I C2 X 2,I I X2 En esta figura 2, se intenta ilustrar cómo, si en lugar de utilizar para clasificar una de las dos variables X1 y X2 por separado, se utiliza una combinación de ambas D, el área que recoge el error, es mucho menor. En síntesis, el análisis discriminante pretende encontrar aquella función discriminante: D = u1X1 + u2X 2 + K + uk Xk que menor error de clasificación produzca, donde X1 ...Xk son las k variables explicativas y u1 ...uk son coeficientes de ponderación. Cuando a los individuos se les quiera clasificar en dos grupos, bastará con una función discriminante D, pero si se les quiere clasificar en tres grupos, harán falta dos funciones discriminantes. En general serán necesarias G-1 funciones discriminantes donde G es el número de grupos en que se divide la población (figura 3). 5 Análisis discriminante Joaquín Aldás Manzano Figura 3. Ilustración del caso de tres grupos X1 X2 3. Un ejemplo de aplicación del análisis discriminante para el caso de dos grupos (Hair, Anderson, Tatham y Black, 1995; Uriel, 1997) Paso 1. Objetivos del análisis discriminante Para ilustrar la aplicación de un análisis discriminante con dos grupos, utilizaremos el caso de la empresa HATCO como en temas anteriores. Se recordará que una de las variables que describían a los clientes de HATCO, era el nivel de utilización de los servicios de HATCO que cada cliente hacía, medido como porcentaje del total de sus compras de maquinaria que le hacen a HATCO. Parece razonable que HATCO desee explicar porqué unas empresas recurren con más intensidad que otras a ella como proveedora. Paso 2. Desarrollo del plan de análisis En primer lugar es necesario determinar qué variables serán las independientes y cuál la dependiente. Dado que la variable dependiente indica la pertenencia a un grupo u otro, deberá ser no métrica, mientras que las independientes deben ser métricas. La variable dependiente, puede ser dicotómica (dos grupos) o politómica (más de dos grupos), pero en todo caso, los grupos deben ser excluyentes. Un individuo no puede pertenecer a más de un grupo. Las variables independientes, por su lado, deben ser seleccionadas partiendo de estudios previos que confirmen 6 Análisis discriminante Joaquín Aldás Manzano que pueden ejercer algún tipo de influencia sobre la pertenencia a los grupos. En todo caso el investigador ha de sustituir la ausencia de estos trabajos con su propio sentido común. En nuestro ejemplo, la variable nivel de utilización de los servicios (X9), tal como se ha definido, es una variable métrica, y en un discriminante la variable dependiente tiene que ser no métrica, dado que sólo indica si se pertenece a un grupo u a otro. Por ello HATCO divide a sus clientes en dos grupos, los que le compran por encima de la media de todos los clientes, y los que le compran por debajo de esa media. Estos son los dos grupos cuya pertenencia quiere explicar. En cuanto a las variables independientes, parece lógico que se utilicen aquellas que miden la percepción que de HATCO tienen sus clientes. Un cliente es probable que mantenga una relación más intensa con HATCO si valora positivamente su rapidez del servicio (X1), su nivel de precios (X2) y así hasta la calidad de sus productos. Serán por tanto las variables X1 a X7 las que se utilizarán como explicativas. En cuanto al tamaño de la muestra, hay que indicar que el análisis discriminante es bastante sensible al número de casos por cada variable independiente. La mayoría de trabajos sugieren un ratio de 20 observaciones por cada predictor. Aunque no siempre es posible llegar a esta cifra, el investigador debe ser consciente de que los resultados pueden volverse inestables cuando se baja de esta cifra. Esta consideración hay que hacerla también no sólo para el conjunto de la muestra, sino también en cada uno de los grupos en que se divide la población. Como guía, no deberían haber menos de 20 observaciones en cada grupo. Además debe analizarse también los tamaños relativos de los grupos, si hay grandes diferencias de tamaño entre ellos, el análisis puede verse afectado al aumentar desproporcionadamente la probabilidad de pertenencia a los más grandes, llegando a recomendarse un muestreo aleatorio de casos de los grupos más grandes para equilibrar la muestra. En nuestra base de datos, disponemos de 100 observaciones y de 7 variables independientes, lo que da un ratio de 15 a 1, no muy alejado de la cifra óptima. Asimismo, como se observa en el cuadro 1, en cada uno de los dos grupos hay el mismo número de casos, no siendo necesario equilibrar la muestra. 7 Análisis discriminante Joaquín Aldás Manzano Cuadro 1. Descriptivos de la variable dependiente Intensidad de uso dicotomizada Válidos Porcentaje válido Porcentaje acumulado Frecuencia Porcentaje Menos de la media 50 50,0 50,0 50,0 Más de la media 50 50,0 50,0 100,0 100 100,0 100,0 Total Paso 3. Condiciones de aplicabilidad del análisis discriminante Dos son las hipótesis a las que el análisis discriminante se muestra especialmente sensible: normalidad multivariante de las variables independientes y homoscedasticidad (igualdad de la matriz de covarianzas en los grupos). Si los datos no cumplen la normalidad multivariante, aparecen problemas en la estimación de la función discriminante y, por otro lado, el procedimiento de clasificación hace que haya una marcada tendencia a clasificar a los individuos en aquellos grupos que tienen una matriz de covarianzas mayor. Para estas comprobaciones se remite al lector a la comprobación que se efectuó de los mismos en el tema del análisis de regresión. Paso 4. Estimación del modelo y ajuste global. Al igual que ocurría con la regresión lineal, podemos optar por dos métodos de estimación de la función discriminante. El primero de ellos es la estimación simultánea, es decir, introduciendo todas las variables explicativas. Este método es adecuado cuando lo que prima es la precisión de la clasificación, esto es, no nos importa tanto explicar porqué la función discriminante clasifica como lo hace (qué variables independientes ha incluído), sino que clasifique bien. Es decir, prima en el investigador el enfoque predictivo sobre el explicativo. El segundo método, adecuado cuando lo que quiere el investigador es explicar la pertenencia a los grupos, es la estimación paso a paso. Sólo entrarán aquellas variables independientes que superen ciertos niveles mínimos de poder explicativo (normalmente se busca la minimización del estadístico Λ de Wilks aunque existen otros criterios como reducir la distancia de Mahalanobis entre los centroides). 8 Análisis discriminante Joaquín Aldás Manzano Dado que a nosotros nos interesa tanto obtener una función discriminante con un buen poder clasificatorio, como saber qué variables determinan la pertenencia a los grupos, mostraremos la solución del método paso a paso. En el procedimiento paso a paso puede entrar, y también salir, aquella variable que cumpliendo el requisito mínimo (Valor mínimo de F para entrar o Valor máximo de F para salir), tenga un valor más pequeño del estadístico Λ de Wilks. Antes de comenzar la aplicación del procedimiento es necesario fijar una valor mínimo de F para entrar y un valor máximo de F para salir. Nosotros tomaremos los valores por defecto del programa (3’84 y 2’71 respectivamente). El valor F para entrar debe ser mayor que el de salida, pues de no ser así una variable podría estar entrando y saliendo de forma indefinida en la selección. En el cuadro 2 se observa como, inicialmente, todas las variables son candidatas a entrar en la función discriminante, salvo el nivel de precios (F = 0’697 < 3’84). Cuadro 2. Variables que pueden entrar Pruebas de igualdad de las medias de los grupos Lambda de Wilks F gl1 gl2 Sig. Rapidez de servicio ,682 45,687 1 98 ,000 nivel de precios ,993 ,697 1 98 ,406 flexibilidad de precios ,692 43,681 1 98 ,000 Imagen del fabricante ,970 2,999 1 98 ,086 Servicio ,650 52,688 1 98 ,000 Imagen de los vendedores ,970 3,016 1 98 ,086 Calidad del producto ,950 5,106 1 98 ,026 Como se observa en el cuadro 2, la variable que tiene un valor Λ de Wilks más pequeño (consecuentemente un F asociado al mismo más grande) es el correspondiente con la variable servicio que será la que entrará en primer lugar, como se señala en el cuadro 3. En el paso 0 todas las variables están fuera del análisis, el programa calcula la Λ de Wilks y la correspondiente F. Como primera candidata a entrar se encuentra la mencionada servicio por los motivos señalados. Como su F supera el valor mínimo para entrar, es la considerada. 9 Análisis discriminante Joaquín Aldás Manzano Cuadro 3. Resumen de los pasos del discriminante Variables no incluidas en el análisis Tolerancia Paso 0 1 2 Tolerancia mín. F que introducir Lambda de Wilks Rapidez de servicio 1,000 1,000 45,687 ,682 nivel de precios 1,000 1,000 ,697 ,993 flexibilidad de precios 1,000 1,000 43,681 ,692 Imagen del fabricante 1,000 1,000 2,999 ,970 Servicio 1,000 1,000 52,688 ,650 Imagen de los vendedores 1,000 1,000 3,016 ,970 Calidad del producto 1,000 1,000 5,106 ,950 Rapidez de servicio ,825 ,825 10,820 ,585 nivel de precios ,668 ,668 10,818 ,585 flexibilidad de precios ,848 ,848 67,688 ,383 Imagen del fabricante ,939 ,939 ,003 ,650 Imagen de los vendedores ,970 ,970 ,149 ,649 Calidad del producto ,991 ,991 5,714 ,614 Rapidez de servicio ,588 ,542 1,037 ,379 nivel de precios ,460 ,460 1,420 ,377 Imagen del fabricante ,908 ,820 1,247 ,378 Imagen de los vendedores ,960 ,835 ,873 ,380 Calidad del producto ,836 ,715 ,514 ,381 Para que una variable entre, no sólo basta con que su F supere el valor mínimo para entrar, también se le exige una segunda condición. El método paso a paso fija un nivel llamado de tolerancia. La tolerancia es una medida de la asociación lineal entre las variables independientes. Para la variable i la tolerancia se define como 1-ri 2 donde ri 2 es el coeficiente de determinación entre la variable i y el resto de variables explicativas que figuran en el modelo. Cuando la toleracia de la variable i es muy pequeña significa que dicha variable está muy correlacionada con el resto de las variables explicativas, lo que puede crear probemas en la estimación. El programa establece un nivel mínimo de tolerancia de 0,001, con lo que las variables con tolerancia menor que ese límite son excluídas del análisis. En el paso 0, la tolerancia es 1, dado que el estadístico no se calcula en esa iteración. En el paso 1, como se ha indicado, ha entrado la variable servicio. El programa entonces evalúa las variables restantes y comprueba que de las que superan el valor mínimo de la F para entrar, el que tiene un valor de la Λ de Wilks más 10 Análisis discriminante Joaquín Aldás Manzano baja (F más alta) se corresponde con la variable flexibilidad de precios, siendo ésta la que entrará en el paso 2, dado que también cumple el requisito de la tolerancia. Finalmente, como se observa en el cuadro 3, ninguna variable es candidata para entrar, pues tienen un valor de F demasiado pequeño. Pero, como se ha indicado, en cada paso, no sólo hay que determinar qué variable puede entrar, sino si las que han entrado debe salir. Para ello hay que comprobar que superan el valor máximo de F para salir que las haría ser excluídas. El programa toma por defecto el valor 2,71. En el cuadro 4 se comprueba como, las dos variables que han entrado superan ese valor y no deben ser excluídas. Cuadro 4. Valores de F para salir Variables en el análisis Paso Tolerancia F que eliminar Lambda de Wilks 1 Servicio 1,000 52,688 2 Servicio ,848 78,157 ,692 flexibilidad de precios ,848 67,688 ,650 El cuadro 5 resume las variables que se incorporan a la función discriminante. Es interesante destacar cómo en las notas al pie 2 y 3 del cuadro, aparecen los valores máximo y mínimo de F que se han señalado como por defecto del programa con anterioridad. Cuadro 5. Variables de la función discriminante 1,2,3,4 Variables introducidas/eliminadas Lambda de Wilks F exacta Introducidas Paso Estadístico gl1 gl2 gl3 Estadístico gl1 gl2 1 Servicio ,650 1 1 98,000 52,688 1 98,000 ,000 2 flexibilidad de precios ,383 2 1 98,000 78,114 2 97,000 ,000 En cada paso se introduce la variable que minimiza la lambda de Wilks global. 1. 2. 3. 4. Sig. El número máximo de pasos es 14. La F parcial mínima para entrar es 3.84. Maximum partial F to remove is 2.71. El nivel de F, la tolerancia o el VIN son insuficientes para continuar los cálculos. Una vez calculada la función discriminante, se determina si esta es globalmente significativa (no si cada una de las variables que han entrado deberían haberlo hecho). Para ello se plantea la hipótesis nula de si las medias poblacionales 11 Análisis discriminante Joaquín Aldás Manzano difieren significativamente en los dos grupos considerados. En el caso de que la respuesta fuera negativa, carecería de interés continuar con el análisis, ya que significaría que las variables introducidas como variables clasificadoras no tienen capacidad discriminante significativa. Como se comprueba en el cuadro 7, el estadístico χ2 que se utiliza para contrastar la hipótesis nula de igualdad de los vectores de medias (χ2 = 93,080) tiene una significatividad asociada de 0, lo que permite rechazar la hipótesis nula y afirmar la significatividad de la función discriminante. Cuadro 7. Significatividad global de la función discriminante Lambda de Wilks Lambda de Wilks Contraste de las funciones 1 Chi-cuadrado ,383 gl 93,080 Sig. 2 ,000 Una vez estimada la función discriminante, la segunda fase en este paso es establecer la capacidad predictiva del análisis efectuado, es decir, medir la bondad del ajuste del modelo. Para ello el programa ofrece la llamada matriz de confusión. Dado que en nuestra muestra sabemos a qué grupo pertenecen de verdad las empresas (si compran por debajo o por encima de la media), lo que hace la matriz de confusión es cruzar la clasificación real con la estimada mediante la función discriminante. Cuantos más casos hayan sido correctamente clasificados, más probable es que acertemos a la hora de utilizar la función con fines predictivos o, bajo otra perspectiva, más seguros estaremos de que las variables que han entrado son las que realmente determinan la clasificación. El cuadro 8 muestra la matriz de confusión de nuestro ejemplo. Cuadro 8. Matriz de confusión Resultados de la clasificación1 Grupo de pertenencia pronosticado Menos de la media Original Recuento % Intensidad de uso dicotomizada Menos de la media Intensidad de uso dicotomizada Menos de la media Más de la media Más de la media Más de la media Total 43 7 50 3 47 50 86,0 14,0 100,0 6,0 94,0 100,0 1. Clasificados correctamente el 90,0% de los casos agrupados originales. 12 Análisis discriminante Joaquín Aldás Manzano Puede comprobarse como, de haber utilizado la función discriminante para clasificar a nuestra población, caso de no saber a qué grupo pertenecían las emrpesas, hubiéramos acertado en el 90% de los casos. El acierto es ligeramente mayor para predecir la pertenencia al grupo de compradores por encima de la media (94%) que para predecir la pertenencia al grupo que compra por debajo de la media (86%). Otro indicador de la bondad de ajuste es el coeficiente η2 que es el coeficiente de correlación obtenido al realizar la regresión entre la variable dicotómica que indica la pertenencia al grupo y las puntuaciones discriminantes. A la raíz cuadrada de este coeficiente, que es la que aparece en la salida (cuadro 9) se la denomina correlación canónica, pudiéndose calcular también en función del autovalor λ que minimiza el valor de la Λ de Wilks del siguiente modo: h= l = 1+l h 2 = 0,61 1,611 = 0,785 1 + 1,611 2 Cuadro 9. Indicador η de bondad de ajuste Autovalores Autovalor Función 1 1,6111 % de varianza % acumulado 100,0 100,0 Correlación canónica ,785 1. Se han empleado las 1 primeras funciones discriminantes canónicas en el análisis. Paso 5. Interpretación de los resultados Si, como ocurre en nuestro ejemplo, la función discriminante es significativa, y la bondad del ajuste aceptable, el investigador se centrará en interpretar los resultados. Este proceso pasa por examinar las funciones discriminantes obtenidas para establecer la importancia relativa de cada variable independiente a la hora de discriminar entre los grupos. Existen tres métodos para ello: los coeficientes estandarizados de las funciones discriminantes, la matriz de estructura y el F univariante. El enfoque más habitual es interpretar el signo y magnitud de los coeficientes estandarizados de la función discriminante. Si hacemos caso omiso del signo, cada coeficiente representa la contribución relativa de su variable asociada a la 13 Análisis discriminante Joaquín Aldás Manzano función. Las variables independientes con coeficientes más grandes contribuyen más al poder discriminante de la función que las variables con coeficientes más pequeños. El signo solo indica el sentido de la contribución. La interpretación de estos coeficientes es análoga a la de los coeficientes estandarizados de una regresión y sujeta por ello a las mismas críticas. Por ejemplo, un coeficiente pequeño indica tanto que la variable asociada es irrelevante en la relación como que ha sido eliminada por un alto grado de multicolinealidad. El cuadro 10 muestra los coeficientes estandarizados de las dos variables que entraron en la función. Puede observarse que la contribución de las dos variables es similar y, en ambos casos, incrementos en las mismas favorecen la intensidad de la relación comercial entre las empresas. Cuadro 10. Coeficientes estandarizados Coeficientes estandarizados de las funciones discriminantes canónicas Función 1 flexibilidad de precios ,886 Servicio ,924 En los últimos años se utilizan cada vez con más frecuencia las puntuaciones discriminantes para interpretar los resultados del análisis, debido a las deficiencias señaladas del método anterior. Las puntuaciones discriminantes, que aparecen bajo la etiqueta de matriz de estructura (cuadro 11), miden la correlación simple entre cada variable independiente y la función discriminante. Reflejan la varianza que la variable independiente comparte con la función discriminante y pueden interpretarse como las puntuaciones factoriales de un análisis factorial. En nuestro caso, si nos fijamos solamente en las correlaciones de las variables que han entrado en la función, se confirma que ambas variables tienen contribuciones parejas. 14 Análisis discriminante Joaquín Aldás Manzano Cuadro 11. Matriz de estructura Matriz de estructura Función 1 Rapidez de servicio1 ,639 Servicio ,578 flexibilidad de precios ,526 Calidad del producto 1 -,265 nivel de precios 1 -,039 Imagen de los 1 vendedores ,019 Imagen del fabricante 1 ,000 Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función. 1. Esta variable no se emplea en el análisis. Finalmente, cuando se utiliza el método paso a paso para estimar la función discriminante, también pueden utilizarse los estadísticos F univariantes que aparecían en el cuadro 2 para interpretar el poder discriminante relativo de cada variable independiente. Esto se logra analizando el tamaño del estadístico y ordenándolos por él. Valores de F elevados indican mayor poder discriminante. En la práctica las ordenaciones que se obtienen con los F son las mismas que cuando se utilizan los coeficientes, pero tienen la ventaja de tener asociados un valor de significatividad. No podemos olvidar, sin embargo, que la utilización del análisis discriminante se ha planteado con dos finalidades. Una explicativa, para lo que sirven los comentarios anteriores. Pero otra predictiva, es decir, pretendemos clasificar a nuevas empresas en uno de los dos grupos establecidos. Veamos cómo procede el análisis discriminante para clasificar mediante la función discriminante a las empresas de nuestra base de datos en los dos grupos establecidos y, de aquí, derivaremos cómo clasificaríamos a una empresa nueva. El programa calcula las llamadas funciones discriminantes lineales de Fisher, una para cada uno de los grupos. A partir de la información que aparece en el cuadro 12, estas funciones serían: 15 Análisis discriminante Joaquín Aldás Manzano F1 = - 44,23 + 7,87 × X 3 + 12,51 × X5 F2 = - 70,52 + 9,79 × X 3 + 16,33 × X5 Cuadro 12. Salida de SPSS para las funciones de Fisher Coeficientes de la función de clasificación Intensidad de uso dicotomizada flexibilidad de precios Servicio (Constante) Menos de la media Más de la media 7,873 9,795 12,519 16,331 -44,239 -70,524 Funciones discriminantes lineales de Fisher A continuación se calcula la llamada probabilidad a posteriori o Pr(g/D), que es la probabilidad de que, dado que la puntuación discriminante de un individuo ha sido D, pertenezca al grupo g (en nuestro caso, al grupo 1 o al grupo 2). Esto se hace del siguiente modo: Pr ( g / D ) = e Fg e F1 + e F2 g = 1,2 Pues bien, el individuo se clasificará en aquel grupo para el que tenga una probabilidad a posteriori mayor. Si nos fijamos en la empresa 1 de la base de datos HATCO, las variables X3 flexibilidad de precios y X5 servicio, toman respectivamente los valores 6’9 y 2’5, luego sus funciones discriminantes lineales de Fisher tomarán los valores: F1 = - 44,23 + 7,87 × 6,9 + 12,51 × 2, 4 = 40,13 F2 = - 70,52 + 9,79 × 6,9 + 16,33 × 2,4 = 36,25 y las probabilidades a posteriori: e 40,13 = 0,98 e 40,13 + e 36,25 e 36,25 Pr ( g = 2/ D ) = 40,13 = 0,02 e + e 36,25 Pr ( g = 1/ D ) = 16 Análisis discriminante Joaquín Aldás Manzano luego a la empresa 1 se la clasificará en el grupo 1 que, en este caso, coincide con el grupo real al que pertenece. Para clasificar a una nueva empresa bastará con repetir los pasos señalados pero teniendo en cuenta la valoración que hagan de X3 y X5. Paso 6. Validación de los resultados. El último paso del análisis discriminante pasa por validar los resultados. La mejor forma de hacerlo consiste en reservar parte de la muestra cuando se estima la función discriminante. Una vez obtenida esta, se clasifica mediante el procedimiento que acaba de describirse a los individuos que no se utilizaron para estimarla. Si el porcentaje de acierto es similar al de la muestra de estimación, el análisis sería válido. 4. Un ejemplo de aplicación del análisis discriminante para el caso de tres grupos (Hair, Anderson, Tatham y Black, 1995; Uriel, 1997) Vamos a ilustrar la aplicación del análisis discriminante para el caso de tres grupos. Dado que la mayoría de los pasos anteriores son idénticos, nos centraremos, sobre todo, en la interpretación de las funciones discriminantes, que es el elemento novedoso, al haber más de una. El problema que analizamos es el mismo que en el caso anterior, con la diferencia de que la población aparece ahora dividida en tres grupos: el tercio de las empresas que menos compran a HATCO, el tercio intermedio y el tercio que más intensa relación mantienen con esta empresa. El objetivo es el mismo: establecer los determinantes de este uso y predecir a qué grupo pertenecerán nuevas empresas. El proceso es el mismo. Así, el cuadro 13 nos permite determinar que las variables que se han incluído en las funciones discriminantes son las mismas que en el caso anterior: el servicio y la flexibilidad de precios. Obviamos el detalle del proceso paso a paso por ser análogo al anterior 17 Análisis discriminante Joaquín Aldás Manzano Cuadro 13. Variables de las funciones discriminantes 1,2,3,4 Variables introducidas/eliminadas Lambda de Wilks F exacta Introducidas Paso Estadístico gl1 gl2 gl3 Estadístico gl1 gl2 Servicio ,550 1 2 97,000 39,735 2 97,000 ,000 2 flexibilidad de precios ,316 2 2 97,000 37,446 4 192,000 ,000 En cada paso se introduce la variable que minimiza la lambda de Wilks global. 1. 2. 3. 4. Sig. 1 El número máximo de pasos es 14. La F parcial mínima para entrar es 3.84. Maximum partial F to remove is 2.71. El nivel de F, la tolerancia o el VIN son insuficientes para continuar los cálculos. Como en el caso de dos grupos, el cuadro 14, muestra que las dos funciones discriminantes obtenidas son, también, globalmente significativas. Cuadro 14. Significatividad global de la función discriminante Lambda de Wilks Lambda de Wilks Contraste de las funciones Chi-cuadrado gl Sig. 1 a la 2 ,316 111,300 4 ,000 2 ,903 9,850 1 ,002 La mayor importancia de la primera función a la hora de separar los grupos, queda evidenciada por el hecho de que explica por sí misma más del 94% de la varianza. Los indicadores η2 de bondad de ajuste (cuadro 15) conducen a conclusiones análogas. 2 Cuadro 15. Indicador η de bondad de ajuste Autovalores Autovalor Función % de varianza % acumulado Correlación canónica 1 1,8611 94,5 94,5 ,807 2 1 5,5 100,0 ,312 ,107 1. Se han empleado las 2 primeras funciones discriminantes canónicas en el análisis. 18 Análisis discriminante Joaquín Aldás Manzano Finalmente, la matriz de confusión, evidencia que la capacidad clasificatoria de las funciones obtenidas es menor que en el caso de dos grupos, al clasificar adecuadamente sólo al 77% de la muestra, siendo especialmente falible en el grupo de uso intermedio. Cuadro 16. Matriz de confusión 1 Resultados de la clasificación Grupo de pertenencia pronosticado Original Recuento nivel de uso tres niveles menor uso uso intermedio mayoruso 27 7 0 34 4 21 9 34 menor uso uso intermedio mayoruso % nivel de uso tres niveles Total 0 3 29 32 menor uso 79,4 20,6 ,0 100,0 uso intermedio 11,8 61,8 26,5 100,0 ,0 9,4 90,6 100,0 mayoruso 1. Clasificados correctamente el 77,0% de los casos agrupados originales. El último paso, una vez establecida la significatividad y precisión del proceso, es interpretar las funciones discriminantes. Ya hemos señalado la mayor importancia relativa de la primera función a la hora de separar los grupos. Pues bien, como se comrpueba en los cuadros 17 y 18, ya utilizando el criterio de los coeficientes estandarizados, ya el de la matriz de estructura, son las variables flexibilidad de precios y servicio quienes determinan la función con pesos muy parecidos. La segunda función viene también explicada por estas variables, con la única diferencia de que el servicio tiene signo negativo Cuadro 17. Coeficientes estandarizados Coeficientes estandarizados de las funciones discriminantes canónicas Función 1 2 flexibilidad de precios ,833 ,688 Servicio ,952 -,511 19 Análisis discriminante Joaquín Aldás Manzano Cuadro 18. Matriz de estructura Matriz de estructura Función 1 2 Rapidez de servicio1 ,612* flexibilidad de precios ,473 ,881* Servicio ,637 -,771* ,029 -,696* -,286 -,299* Imagen del fabricante -,100 -,262* Imagen de los 1 vendedores -,049 -,174* 1 nivel de precios 1 Calidad del producto 1 -,040 Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función. *. Mayor correlación absoluta entre cada variable y cualquier función discriminante. 1. Esta variable no se emplea en el análisis. Finalmente, para clasificar a los individuos se procede del mismo modo que en el caso de dos grupos, con la salvedad de que ahora se dispone de tres funciones lineales de Fisher (cuadro 19). Se ilustra la clasificación de la empresa número 1 de la base de datos de HATCO. 20 Análisis discriminante Joaquín Aldás Manzano Cuadro 19. Funciones de Fisher Coeficientes de la función de clasificación nivel de uso tres niveles flexibilidad de precios Servicio (Constante) menor uso uso intermedio mayoruso 7,924 8,895 10,367 13,118 16,855 18,622 -44,135 -61,370 -79,354 Funciones discriminantes lineales de Fisher Las funciones discriminantes son, pues: F1 = - 44,13 + 7,92 × X3 + 13,11 × X5 F2 = - 61,37 + 8,89 × X 3 + 16,85 × X 5 F3 = - 79,35 + 10,36 × X 3 + 18,62 × X5 y como para la primera empresa X3 = 6,9 y X5 = 2,4, estas funciones toman los valores: F1 = - 44,13 + 7,92 × 6,9 + 13,11 × 2, 4 = 42,02 F2 = - 61,37 + 8,89 × 6,9 + 16,85 × 2,4 = 40,45 F3 = -79,35 + 10,36 × 6,9 + 18,62 × 2,4 = 36,87 De tal modo que las probabilidades a posteriori serán: e 42,02 = 0,82 e 42,02 + e 40,45 + e 36,87 e 40,45 Pr ( g = 2/ D ) = 42,02 = 0,17 e + e 40,45 + e 36,87 e 36,87 Pr ( g = 3 / D ) = 42,02 = 0,01 e + e 40,45 + e 36,87 Pr ( g = 1/ D ) = con lo que la empresa ha sido clasificada en el grupo 1, correspondiente a aquel tercio que menos uso hace de los servicios de HATCO. Esta clasificación mediante la función discriminante coincide, en este caso, con la real. Cualquier nueva empresa podría clasificarse con una probabilidad calculable, sin más que conocer sus valoraciones de X3 y X5. 21 Análisis discriminante Joaquín Aldás Manzano Referencias bibliográficas Hair, J.F.; Anderson, R.E.; Tatham, R.L. y Black; W.C. (1995): Multivariate Data Analysis. 4ª edición. Englewood Cliffs, NJ: Prentice Hall. Uriel, E. (1997): Análisis de datos. Series temporales y análisis multivariante. Madrid: AC.