Máster en Técnicas Estadísticas Análisis Multivariante. Año 2008 2009. Profesor: César Sánchez Sellero. Tema 8. Fundamentos de Análisis discriminante 8.1. Introducción. Empezamos deniendo el problema discriminante. Resumidamente se puede decir que el problema discriminante consiste en establecer reglas de diagnóstico que permitan clasicar a un individuo en alguno de dos o más grupos bien denidos. El ejemplo paradigmático sería la diagnosis entre enfermos y sanos en Medicina. Para fundamentar la decisión de diagnóstico se emplean ciertas observaciones del individuo: presencia de síntomas, análisis de sangre y otras pruebas diagnósticas. Estas pruebas son útiles para el diagnóstico en la medida en que aportan resultados diferentes para los individuos enfermos respecto de los sanos. Esta situación da lugar a varias tareas, según el objetivo que se persiga: 1. Determinar la presencia de diferencias entre los grupos. 2. Determinar qué variables permiten discriminar mejor entre los grupos, en base a las diferencias que presentan entre ellos. 3. Construir la regla discriminante en base a una muestra de entrenamiento. 4. Asignar un individuo a cierto grupo en base a la regla discriminante, bien la regla óptima o bien estimada en base a una muestra de entrenamiento. La primera tarea se resuelve mediante un Análisis (multivariante) de la varianza, mientras que las otras tres son especícas del Análisis discriminante. La segunda tarea es objeto del Análisis Factorial Discriminante. Por último, las tareas tercera y cuarta, de estimación y aplicación de la regla discriminante han dado lugar a una gran cantidad de técnicas. Realmente la construcción de una regla discriminante y su aplicación constituye una cuestión de gran calado dentro de la teoría de la decisión y la inferencia estadística. Por ello, aunque el Análisis discriminante se puede considerar como una técnica de Análisis multivariante, su importancia supera ampliamente a la de otras técnicas, como las estudiadas anteriormente. El Análisis discriminante se puede considerar en sí mismo como una rama de la Estadística. 8.2. Dos grupos con distribuciones conocidas. Suponemos la existencia de dos grupos G1 y G2 , denidos de manera inequívoca. Consideramos un vector aleatorio X que presenta funciones de densidad o de probabilidad f1 si el individuo procede del grupo G1 y f2 si procede del grupo G2 . Utilizaremos el valor observado del vector aleatorio X para decidir si un individuo pertenece a uno u otro grupo. Esto supone dividir el soporte del vector X mediante una partición en dos regiones R1 y R2 : R = R1 ∪R2 y R1 ∩R2 = ∅, de modo que clasicaremos al individuo en el grupo G1 si X ∈ R1 y en el grupo G2 si X ∈ R2 . En 77 Máster en Técnicas Estadísticas 78 realidad, la regla discriminante anterior sería una regla determinista, de modo que una denición general de regla discriminante, que incluya la posibilidad de aleatorización, sería la siguiente. Denición Una regla discriminante (aleatorizada) es una aplicación ϕ : R −→ [0, 1] x −→ ϕ(x) = P (Clasicar en G1 /X = x) Una regla discriminante no aleatorizada es de la forma ϕ(x) = 1 si x ∈ R1 0 si x ∈ R2 En el procedimiento de clasicación podemos cometer dos tipos de errores: clasicar a un individuo que procede del grupo G1 en el grupo G2 , y clasicar a un individuo del grupo G2 en el grupo G1 . Las probabilidades condicionales de cada uno de estos errores son: Z P (2/1) = y (1 − ϕ(x)) f1 (x) dx Z P (1/2) = ϕ(x)f2 (x) dx donde las integrales son sumas en el caso discreto. Si la regla discriminante es no aleatorizada, entonces las probabilidades anteriores se pueden expresar así: Z f1 (x) dx P (2/1) = y Z f2 (x) dx P (1/2) = R1 R2 Nótese cómo el problema discriminante se puede encuadrar dentro de la teoría de la decisión. Un paso más en esta dirección nos conduce a la comparación de reglas discriminantes. Denición Una regla discriminante ϕ es preferible a otra ϕ0 si Pϕ (2/1) ≤ Pϕ0 (2/1) y Pϕ (1/2) ≤ Pϕ0 (1/2) Nota. La relación "ser preferible" es una relación de orden parcial. Denición Una regla discriminante se dice admisible si no hay ninguna otra regla discrimi- nante que sea preferible (estrictamente) a ella. Por "`preferible estrictamente"' entendemos que, además de ser preferible, en alguno de los dos errores de clasicación sea estrictamente mejor. Teorema 8.1 Sea f1 la función de densidad o de probabilidad, según el caso, del vector aleatorio X condicionada al grupo G1 y f2 la correspondiente función de densidad o probabilidad condicionada al grupo G2 . Análisis Multivariante 79 Las reglas discriminantes de la forma f (x) >c 1 si 1 f2 (x) f1 (x) =c γ(x) si ϕ(x) = f2 (x) f (x) si 1 <c 0 f2 (x) son admisibles. Además, son las únicas reglas admisibles. Demostración. Es la misma que para el Lema de Neyman-Pearson, en el caso del contraste de una hipótesis nula simple frente a una alternativa simple. En lo que sigue veremos cómo distintos criterios permiten la elección de una regla discriminante. Minimizar la probabilidad total de clasicación incorrecta Pensemos en una población que se encuentra dividida en individuos pertenecientes al grupo G1 e individuos pertenecientes al grupo G2 , con proporciones respectivas π1 y π2 = 1 − π1 . Así, π1 y π2 se convierten en probabilidades originales de pertenencia a cada grupo, antes de observar el vector aleatorio X . En consecuencia, la probabilidad total de clasicación incorrecta es: P (R, f ) = π1 P (2/1) + π2 P (1/2) denotando R = (R1 , R2 )0 al vector de regiones de clasicación y f = (f1 , f2 )0 al vector de densidades. Nuestro objetivo será adoptar una regla de clasicación que presente la menor probabilidad total de clasicación incorrecta. Recurrimos a un lema que nos ayudará en este propósito. Lema La integral R R g(x) dx alcanza su mínimo como función de R en R− = {x : g(x) < 0}. Demostración Denotemos R+ = (R− )c = {x : g(x) ≥ 0}. Para cualquier conjunto R, se tiene Z Z Z g(x) dx = R g(x) dx + − ZR∩R Z = g(x) dx − R− Z g(x) dx ≥ Z g(x) dx ≥ R∩R+ Rc ∩R− g(x) dx R∩R− g(x) dx R− lo cual concluye la demostración del presente lema. Desarrollando la probabilidad total de clasicación incorrecta, obtenemos Z P (R, f ) = π1 P (2/1) + π2 P (1/2) = π1 (1 − Z = π1 + [π2 f2 (x) − π1 f1 (x)] dx R1 Z f1 (x) dx) + π2 R1 f2 (x) dx R1 Máster en Técnicas Estadísticas 80 Por el lema anterior, como función de R1 alcanza su mínimo en R1 = {x : π2 f2 (x)−π1 f1 (x) < 0}, que se corresponde con la regla de clasicación que asigna al grupo G1 si f1 (X) π2 > f2 (X) π1 y al grupo G2 en otro caso. La asignación en la frontera de R1 no debería ser relevante, ya que no afecta a la probabilidad total. Sin embargo, esto puede dar lugar a varias reglas con la misma probabilidad total. Pero si el vector X es continuo y se cumple alguna otra condición más, P (f1 (X)/f2 (X) = π2 /π1 ) = 0, por lo que serían reglas equivalentes. Ejemplo. Supongamos que fi es la densidad de N (µi , Σi ), con Σ1 = Σ2 = Σ. Vamos a calcular la regla de clasicación óptima con el criterio anterior y las correspondientes probabilidades de clasicación incorrecta. Las densidades adoptan la forma −p/2 fi (x) = (2π) −1/2 |Σ| 1 0 −1 exp − (x − µi ) Σ (x − µi ) 2 y su cociente será f1 (x) f2 (x) 1 1 = exp − (x − µ1 )0 Σ−1 (x − µ1 ) + (x − µ2 )0 Σ−1 (x − µ2 ) 2 2 1 0 −1 0 −1 = exp (µ1 − µ2 ) Σ x − (µ1 − µ2 ) Σ (µ1 + µ2 ) 2 Tomando logaritmos, la regla de clasicación óptima asigna al grupo G1 si 1 D(x) = λ x − (µ1 + µ2 ) > log(π2 /π1 ) 2 0 siendo λ = Σ−1 (µ1 − µ2 ). La ecuación D(x) = log(π2 /π1 ) dene un hiperplano que separa los dos grupos. Para calcular las probabilidades de clasicación incorrecta, observamos que, condicionado a cada grupo, la variable aleatoria D(X) tiene distribución normal. Su media y varianza condicionadas son 1 1 E[D(X)/G1 ] = λ0 µ1 − (µ1 + µ2 ) = ∆2 2 2 V ar[D(X)/G1 ] = V ar[λ0 X/G1 ] = λ0 Σλ = ∆2 denotando ∆2 = (µ1 −µ2 )0 Σ−1 (µ1 −µ2 ) = λ0 (µ1 −µ2 ) al cuadrado de la distancia de Mahalanobis entre las medias µ1 y µ2 . Entonces D(X) − ∆2 /2 log(π2 /π1 ) − ∆2 /2 P (2/1) = P [D(X) ≤ log(π2 /π1 )/G1 ] = P ≤ /G1 ∆ ∆ log(π2 /π1 ) − ∆2 /2 = Φ ∆ Análisis Multivariante 81 De igual modo, E[D(X)/G2 ] = − 12 ∆2 y V ar[D(X)/G2 ] = ∆2 , y así: D(X) + ∆2 /2 log(π2 /π1 ) + ∆2 /2 P (1/2) = P [D(X) > log(π2 /π1 )/G2 ] = P > /G2 ∆ ∆ log(π2 /π1 ) + ∆2 /2 = 1−Φ ∆ La probabilidad total de clasicación incorrecta queda: P ("Clasicación incorrecta") = π1 P (2/1) + π2 P (1/2) log(π2 /π1 ) − ∆2 /2 log(π2 /π1 ) + ∆2 /2 = π1 Φ + π2 1 − Φ ∆ ∆ Si π1 = π2 = 21 , entonces la regla discriminante consiste en clasicar en G1 si D(x) = λ0 [x − 21 (µ1 + µ2 )] > log(π2 /π1 ) = 0, o equivalentemente, si λ0 x > 1 0 λ µ 1 + λ 0 µ2 2 esto es, si λ0 x está más próximo a λ0 µ1 que a λ0 µ2 . A esto se le conoce como regla discriminante lineal de Fisher (1936). Ejemplo. En el ejemplo anterior, supongamos que Σ1 6= Σ2 . Entonces Q(x) = log(f1 (x)/f2 (x)) 1 log(|Σ2 |/|Σ1 |) − = 2 1 = log(|Σ2 |/|Σ1 |) − 2 1 1 0 −1 (x − µ1 )0 Σ−1 1 (x − µ1 ) + (x − µ2 ) Σ2 (x − µ2 ) 2 2 1 0 −1 −1 −1 0 x (Σ1 − Σ−1 2 )x − 2x (Σ1 µ1 − Σ2 µ2 ) 2 y la regla óptima clasica en G1 si Q(X) > log(π2 /π1 ). Pero, mientras D(x) es una función lineal, ahora Q(x) es una función cuadrática, de modo que la frontera entre las dos regiones ya no es un hiperplano. Razón de verosimilitudes Nos situamos en el contexto en que las probabilidades a priori, π1 y π2 , son desconocidas o sencillamente no se tienen en cuenta. Una regla de clasicación debería asignar un individuo al grupo más verosímil, que es aquel que otorga mayor probabilidad a su resultado muestral. Esto equivale a clasicar en el grupo G1 si f1 (X)/f2 (X) > 1, lo cual coincide con el criterio anterior para π1 = π2 = 1/2. Minimizar el coste total de clasicación incorrecta Si asociamos unos costes C(2/1) y C(1/2) a cada uno de los errores de clasicación, entonces el coste total esperado es C = π1 P (2/1)C(2/1) + π2 P (1/2)C(1/2) Podemos repetir los argumentos que obtuvieron la regla que minimiza la probabilidad total de clasicación incorrecta sustituyendo π1 y π2 por π1 C(2/1) y π2 C(1/2), ya que en aquellos Máster en Técnicas Estadísticas 82 argumentos no se usó que π1 + π2 = 1. Así, obtendremos que la regla que hace mínimo el coste total esperado consiste en clasicar en el grupo G1 si f1 (X) π2 C(1/2) > f2 (X) π1 C(2/1) Por supuesto, si C(2/1) = C(1/2), coincide con el criterio que minimiza la probabilidad total de clasicación incorrecta. Maximizar la probabilidad a posteriori Consideramos la probabilidad de que el individuo proceda del grupo G1 , conocido el valor del vector aleatorio X . Dicha probabilidad se conoce como probabilidad a posteriori y se puede calcular mediante el teorema de Bayes: P (G1 /X = x0 ) = π1 f1 (x0 ) π1 f1 (x0 ) + π2 f2 (x0 ) La probabilidad a posteriori del grupo G2 se dene y obtiene de la misma manera: P (G2 /X = x0 ) = π2 f2 (x0 ) π1 f1 (x0 ) + π2 f2 (x0 ) Una regla de clasicación razonable asignaría al grupo con mayor probabilidad a posteriori, esto es, clasicaría en el grupo G1 si P (G1 /X) > P (G2 /X) lo cual coincide con f1 (X)/f2 (X) > π2 /π1 . Criterio minimax Un procedimiento que minimice la probabilidad total de clasicación incorrecta puede no prestar suciente atención a uno de los grupos, en especial si su probabilidad a priori es pequeña. Por ejemplo, esto ocurre en el problema de diagnosis de una enfermedad poco frecuente, donde la probabilidad de un falso negativo puede ser alta sin afectar mucho a la probabilidad total de clasicación incorrecta. Esto constituye una justicación para el uso de un criterio más conservador, como es el minimax. En este caso, escogemos la regla tal que el máximo de sus dos probabilidades de clasicación incorrecta sea mínima. Consideremos P una regla de clasicación cualquiera. Entonces max{P (2/1), P (1/2)} ≥ (1 − α)P (2/1) + αP (1/2) ≥ (1 − α)Pα (2/1) + αPα (1/2) ∀α ∈ [0, 1] siendo Pα la regla de clasicación que asigna a G1 si f1 (X)/f2 (X) > α/(1 − α). La primera desigualdad anterior es inmediata y la segunda se debe a que Pα es la regla que hace mínima la probabilidad total de clasicación incorrecta bajo la distribución a priori: π1 = α, π2 = 1 − α. Tomemos c = α0 1−α0 (o equivalentemente, α0 ) de modo que Pα0 (2/1) = Pα0 (1/2). Entonces max{P (2/1), P (1/2)} ≥ (1 − α0 )Pα0 (2/1) + α0 Pα0 (1/2) = (1 − α0 + α0 )Pα0 (2/1) = Pα0 (2/1) = max{Pα0 (2/1), Pα0 (1/2)} Análisis Multivariante 83 lo cual demuestra que Pα0 es la regla minimax. En consecuencia, la regla minimax será la que clasica en el grupo G1 si f1 (X)/f2 (X) > c, siendo c tal que Pc (2/1) = Pc (1/2). Ejemplo. Si las dos distribuciones condicionadas a cada grupo son normales con la misma matriz de covarianzas, la regla de clasicación minimax asigna al grupo G1 si D(X) > log c siendo c tal que log c − ∆2 /2 log c + ∆2 /2 Φ =1−Φ ∆ ∆ Esta ecuación tiene solución log c = 0, o lo que es lo mismo, c = 1, lo cual coincide con el criterio de la razón de verosimilitudes. Ejemplo. Una población se encuentra dividida en dos grupos G1 y G2 . Se realiza una observación de una variable que tiene distribución exponencial, cuyo parámetro depende del grupo. Si procede del grupo G1 el parámetro es 1, y si procede del grupo G2 el parámetro es 2. a. Supongamos una distribución a priori equiprobable sobre los dos grupos. Calcula la regla que minimiza la probabilidad de clasicación incorrecta. ¾Cuál es ese valor mínimo de la probabilidad de clasicación incorrecta? b. Calcula la regla de clasicación óptima con el criterio minimax. Ejemplo. Consideremos una población dividida en dos grupos. A cada individuo de la población le podemos observar una variable aleatoria discreta que toma valores 1,2,3,4 y 5, con probabilidades respectivas 0'05, 0'15, 0'5, 0'25, 0'05 para el primer grupo y 0'3, 0'1, 0'1, 0'1, 0'4 para el segundo grupo. a. Suponiendo una distribución a priori equiprobable entre los dos grupos, determina la regla discriminante que hace mínima la probabilidad total de clasicación incorrecta. b. Determina la regla discriminante óptima con el criterio minimax. 8.3. Estimación de la regla discriminante. La situación más común en la práctica consiste en que desconocemos las distribuciones de X condicionales a cada uno de los grupos. En su lugar disponemos de muestras procedentes de cada grupo, X11 , . . . , X1n1 del grupo G1 X21 , . . . , X2n2 del grupo G2 conocidas como muestras de entrenamiento, que nos sirven para estimar la regla discriminante, por lo general, a través de estimaciones de las distribuciones respectivas: ( R̂1 = ) fˆ1 (x) x: >c fˆ2 (x) Máster en Técnicas Estadísticas 84 Si se supone algún modelo paramétrico para las distribuciones, que podemos representar en la forma f1 (x) = f1 (x/θ1 ) y f2 (x) = f2 (x/θ2 ), los estimadores serían fˆ1 (x) = f1 (x/θ̂1 ) y fˆ2 (x) = f2 (x/θ̂2 ), donde θ̂1 y θ̂2 representan estimadores de los parámetros. En ausencia de modelo paramétrico, fˆ1 (x) y fˆ2 (x) serían algún tipo de estimador no paramétrico de la densidad. La regla discriminante estimada, R̂ = (R̂1 , R̂2 ), se aplicaría más adelante para clasicar a un nuevo individuo en uno u otro grupo, en base a su resultado en el vector X . En la sección anterior vimos que la regla discriminante óptima era R = (R1 , R2 ), donde las regiones de clasicación R1 y R2 dependían de las verdaderas funciones f1 y f2 . Como f1 y f2 son desconocidas, hemos tenido que sustituirlas por estimaciones fˆ1 y fˆ2 obteniendo una regla que ya no será óptima. Nuestra esperanza reside en que sea parecida a la regla óptima. Nos interesa conocer cómo afecta la estimación de la regla discriminante a los errores de clasicación. Debemos distinguir entre: Tasas de error óptimas Son las probabilidades de error de la regla discriminante óptima. Las denotamos Z ei,opt = fi (x) dx i = 1, 2 j 6= i Rj eopt = π1 e1,opt + π2 e2,opt Tasas de error efectivas Son las probabilidades de error de la regla discriminante estimada. Z fi (x) dx ei,ef e = i = 1, 2 j 6= i R̂j eef e = π1 e1,ef e + π2 e2,ef e Nótese que las regiones (R̂1 , R̂2 ) se obtienen de las muestras de entrenamiento. En la medida en que estas muestras son aleatorias, las regiones de clasicación serán aleatorias, y también lo serán las tasas de error efectivas. Por tanto, tiene sentido calcular su esperanza. Esperanza de las tasas de error efectivas No son más que la esperanza de las tasas de er- ror anteriores, calculadas respecto de la distribución de probabilidad de las muestras de entrenamiento: E(ei,ef e ) y E(eef e ) = π1 E(e1,ef e ) + π2 E(e2,ef e ) Es inmediato que ei,opt ≤ ei,ef e y eopt ≤ eef e Las tasas de error óptimas se reeren a la situación ideal en la que las distribuciones de cada grupo son conocidas. Sin embargo, en el caso que nos ocupa, las que tienen mayor interés son las tasas de error efectivas, pues representan las probabilidades de error en las que se va a incurrir cuando se clasique a un nuevo individuo mediante la regla estimada. Por desgracia, las tasas de error efectivas son desconocidas ya que dependen de f1 y f2 , que representan la distribución de la nueva observación. Planteamos los siguientes estimadores de las tasas de error efectivas: Análisis Multivariante 85 Estimadores plug-in Se obtienen sustituyendo f1 y f2 por fˆ1 y fˆ2 . Z fˆi (x) dx ei,pl = i = 1, 2 j 6= i Rj Tasas de error aparentes Si a cada individuo de la muestra de entrenamiento le aplicamos la regla discriminante estimada tendremos algunos individuos bien clasicados y otros mal clasicados. Pues bien, las tasas de error aparentes son las frecuencias relativas de observaciones mal clasicadas. ei,apa = mi ni i = 1, 2 siendo mi el número de individuos de la muestra de entrenamiento procedente del grupo Gi que son mal clasicados por la regla estimada. Las tasas de error aparentes tienden a infraestimar las tasas de error efectivas ya que estamos aplicando la regla estimada a los mismos datos con los que ha sido construida. El mismo fenómeno ocurre con los estimadores plug-in, ya que entre la regla estimada y fˆi hay una relación de optimalidad que no se cumple con las tasas de error efectivas. Por este motivo, se proponen correcciones de las tasas de error aparentes. Corrección por validación cruzada Consiste en construir la regla discriminante con todas las observaciones menos una, y aplicar después esa regla para clasicar al individuo omitido. Las tasas de error se calcularían después como las frecuencias relativas de individuos mal clasicados. Corrección mediante bootstrap Se trata de una corrección del sesgo de las tasas de error aparentes. Siguiendo las ideas del bootstrap, extraemos muestras articiales de la forma: ∗ ∗ X11 , . . . , X1n i.i.d. de la distribución equiprobable sobre X11 , . . . , X1n1 1 ∗ ∗ X21 , . . . , X2n i.i.d. de la distribución equiprobable sobre X21 , . . . , X2n2 2 Sobre las muestras articiales aplicamos los mismos procedimientos de estimación de la regla discriminante y cálculo de las tasas de error aparentes, m∗1 /n1 y m∗2 /n2 , siendo m∗i el número de individuos de la muestra bootstrap, del grupo Gi , que han sido mal clasicados por la regla estimada bootstrap. Denotemos morig al número de individuos de la muestra i original que son mal clasicados por la regla bootstrap. La estimación bootstrap del sesgo sería: ! E∗ morig m∗i − i ni ni donde E ∗ denota la esperanza respecto del muestreo bootstrap, que en la práctica se puede aproximar mediante la media obtenida tras extraer muchas muestras bootstrap. La corrección bootstrap del sesgo daría lugar a las tasas de error siguientes: mi − E∗ ni morig m∗i − i ni ni ! Máster en Técnicas Estadísticas 86 A partir de cualquiera de las tasas de error anteriores, también se puede estimar la probabilidad total de clasicación incorrecta. Para ello, podemos suponer que las probabilidades a priori π1 y π2 son conocidas, o en otro caso se pueden estimar mediante las proporciones n1 /(n1 + n2 ) y n2 /(n1 +n2 ), suponiendo que las dos muestras han sido extraídas al azar de la población formada al juntar los dos grupos. Ejemplo. Supongamos dos muestras de entrenamiento X11 , . . . , X1n1 ∈ N (µ1 , Σ) del grupo G1 X21 , . . . , X2n2 ∈ N (µ2 , Σ) del grupo G2 Estamos ante dos distribuciones normales con la misma matriz de covarianzas, por lo que, según hemos visto en la sección anterior, la regla de clasicación óptima asignaría a un nuevo individuo al grupo G1 si 1 D(x) = λ0 x − (µ1 + µ2 ) > log c 2 siendo λ = Σ−1 (µ1 − µ2 ). Como µ1 , µ2 y Σ son desconocidos, los sustituimos por sus estimaciones en base a las muestras −1 Pn2 −1 Pn1 de entrenamiento x̄1 = n1 i=1 x2i y i=1 x1i , x̄2 = n2 Sc = siendo Sc1 = (n1 − 1)−1 Pn1 La regla estimada resulta i=1 (x1i (n1 − 1)Sc1 + (n2 − 1)Sc2 n1 + n2 − 2 − x̄1 )(x1i − x̄1 )0 , y análogamente Sc2 . 1 D̂(x) = λ̂ x − (x̄1 + x̄2 ) > log c 2 0 siendo λ̂ = Sc−1 (x̄1 − x̄2 ). Las tasas de error efectivas serían e1,ef e = Φ log c − D̂(µ1 ) p λ̂0 Σλ̂ ! y e2,ef e = Φ − log c + D̂(µ2 ) p λ̂0 Σλ̂ ! Sustituyendo en las expresiones anteriores µ1 , µ2 y Σ por sus estimaciones, obtenemos las estimaciones plug-in de las tasas de error e1,pl = Φ ˆ 2 /2 log c − ∆ ˆ ∆ ! y e2,pl = Φ ˆ 2 /2 − log c − ∆ ˆ ∆ ! ˆ 2 = (x̄1 − x̄2 )0 Sc−1 (x̄1 − x̄2 ) es el cuadrado de la distancia de Mahalanobis en términos donde ∆ muestrales. Como ocurre en general, los estimadores ei,pl no son buenos estimadores de ei,ef e . ˜ en lugar de ∆ ˆ en la expresión de ei,pl , siendo Para corregirlos se ha propuesto utilizar ∆ ˆ2 ˜ 2 = n1 + n2 − d − 3 ∆ ∆ n1 + n2 − 2 Análisis Multivariante 87 Por supuesto, también se pueden llevar a cabo las estimaciones mediante las tasas de error aparentes, así como sus correcciones por validación cruzada o por bootstrap. Bibliografía. Peña, D. (2002). Análisis de datos multivariantes. McGraw-Hill. Seber, G.A.F. (1984). Multivariate observations. Wiley.