Panorámica actual del análisis discriminante.

Anuncio
ESTADISTICA ESPAÑOLA
Núm. 92, 1981, p^gs. 7 a 37
Panorámica actual del análisis discrirr^inante (*)
por FRANCISCO AZORIN
Instituto Nacional de Estadístíca
RESUMEN
E n esta panurámica se exponen lus antecedentes y fundamentos del
análisis discriminante, y sus relaciones cc^n el reconocimiento de patranes.
A cuntinuación se pasa revista a diferentes planteamientos, modelos y
técnicas de clasificación y asignación, y se examinan algunos de los aspectus de mayor interés en las investigaciones actuales, tales cumo rubustez,
contaminación, especificación, estimación de funciones de densidad y reglas nu paramétricas, y discriminación burrosa.
Pulubrus c•lu ^ ^c^: díscríminación; asignación; análisis y funciones discriminantes.
t.
DEF=INIt'IONI~:S Y RELAC(()NES ENTRE ANALISIS DISCRIMINANTE Y
REC'ONOC I M 1 ENTO DE PATRON E:S
Bajc^ la denuminación general de c•lusr'j^c•uc•i^^i1 se cumprenden dus grandes tipos de
a^tividad, investigación y estudiu:
a) Arr^ílisis v f urmuc•ic^rt clc^ c•lusc^s c^ c•un^lurnc^radc^s (c•Irtst^rs), mediante la u^rupuc•ic^n de Ic^s elementc^s de un ^unjunt^ c^ la clr^^isivn de éste, en subcunjuntus.
(*) Este artículu cuinc ide en parte con la punencia del mismo nombre presentada al Seminario
subre Prugramac: ión Matemát ica PM' R t.
ESTADISTICA ESPAÑOLA
8
b) IdentiJ^c•ac•ión y asignación de uncr v más elementcrs a una de ciertas c•lases
estaólec•idas, como resultado de la observación de ciertos caracteres '.
Se ll^ma carac•teriZación a 1a elección y determinación de dichos caracteres o
características, que pueden ser cuantitativos o ^^ariaátes, con determinados valores
posibles, y cualitativos o atrióutvs, con determinados estados o modalidades posibles.
En una o más etapas se van tomando de las infinitas variables o atributos posibles, los
más «expresivos^ o«distintivos^, para los elementos en estudio, como resultado de un
previo examen de la situación 2.
En lo que sigue se designa por p el número de caracteres.
Una vez establecidos los caracteres, se procede a la medición, esto es, a la determinación de los valores o modalidades (según que se trate de variables o de atributos) de
ca^la elernento, objeto, individuo o unidad que hay que asignar a una de las m clases,
poblaciones o conjuntos.
Se representa por xr; el valor de la variable j-ésima en el individuo i-ésimo. Para una
muestra de n elementos [x^;] n, p sería la llamada matriz taxonámica fundamental, con
una fila para cada elemento y una columna para cada carácter.
En cuanto a las definiciones de análisis discriminante y de reconocimiento de
patrones, debe indicarse que históricamente el primero responde a la pregunta ^a qué
clase pertenece este elemento, y el segundo, ^,qué forma o configuración tiene este
elemento, o a cuál se adscribe, entre las establecidas?
Como en ambos casos se trata de una asignación o adscripción, a veces se considera
que el reconocimiento de patrones es un análisis discriminante en que las clases son
formas, tipos, modelos, etc., y otras que el análisis discriminante es un reconocimiento
de patrones en el que se d ispone de una función llamada discriminante; de probabilidades, a privri y a posteriori, de pertenencia a las clases; y de muestras controladas, que
facilitan la asignación de nuevos elementos.
' Un tercer tipo podña ser: c) Verificación de si un individuo estú r^gistradr^ Pn un ficheru
(Chernoff, 1980),
^ Sobre la selección de variables o atributos puede verse el capitula 1 de la obra de
L. Escudera { 1977) y el capítulo 4 de la obra de Goldstein y Dillon ( 1978).
PANORAMICA AC?UAL DEL ANALISIS DISCRIMINANTE
2.
9
ESPACIO MUESTRAL Y ESPACIO DE PATRONES
Hay dos tipos principales de representaciones:
a)
Espacio muestral
Cada una de las diferentes muestras posi^bles de tamaño n toma un puesto en el
espacio muestral, para cada una de las p variables consideradas.
Si tiene así, para la primera variable:
X 11, ..., Xnl
y para la j-ésima (j = 1, ..., p)
X ^^, .. ., Xn.i
En un espacio euclideo de n dimensiones (con n ejes ortogonales) se representa un
punto en los p valores o coordenadas de la variable j-ésima.
Y p puntos para las p variables, con la misma muestra:
(X ^^, ..., X^^^
X 2,
Figuia 2.1
ESTAD{STICA ESPAÑOL,A
Claro es que tarnbién podrían representarse varias muestras de tamaño n para una
misma variable.
En los primeros trab^jos de R. A. Fisher, sobre la distribución de muestras pequeñas, se representaban así la media y la varianza de la muestra, y también la correlacián
entre dos variables; esto es , para una muestra bi variante de tamaño n:(x, ,, x, 2), .. .,
(x„^, x,^2) o con otra (^gura 2.2) notación: (x,. y,), ..., (x,,, y,^).
X n.
FigWra 2,2
Designando por P,, P^ los pies de las perpendiculares desde X,, X2 a la recta
bisectriz de coordenadas x, _... = x^.
En dichas figuras puede verse que se verifica:
n
UX, _ ^: ^/2:r ^,
Ú X,_ ^l l/2 X.
^x •, _^ x' ^ , u bien cc^n la 2.d nc^tación :
^i
_
^xr2
^-x ' á -
^
OX = n^l2x
(^Y = ni^2v
jl
X, P, = rt^ns ^^^ (s 2^^^ = E (-^^ i ^ :r • ^}2/rt)
XM = ni/ziX
X2 P^ = n ^/^S c2 ^ (s 2^z^ = E (xi2 - .x • ^)2In )
YN = n^ ^2Sy
PANORAMICA ACTUAL DEL ANALISIS DISCRIININANTE
11
y que el coseno def ángu^o de las paralelas por 0 a X, P, , X2 P2 es:
(X^^ ^X'^)(X^2-X'2) + ... + (x„I --x•,)(x^2-x^2).
Cos V =
^x„ - X •,)2 + ... + (x,^l -- x' ^)^
(x,2 -- x•2)2 + ... + (x,^2 - z•
o bien, con la otra notación:
(x, - z)Cy, - y) +
+ (x^ - ^CY,^ - y)
(x, - z)^ + ... + (x^ - x)^ (y, - y)^ + ... + (vM - y)2
Este coeficiente es el de correlacián entre ambas variables .
b) Espacio de patrones
Ahora se representa cada elemento de la muestra por sus p caracteres, en un
espacio euclideo de p dimensiones (*).
El i-ésimo elemento tiene por coordenadas:
(X^I^ ..., x;p)
Análogamente al punto o«patrón» anterior se tienen los n de la muestra, que
constituyen una nube de puntos (fig. 2.3).
Claro es que podrían obtenerse otros patrones para los mismos elementos con otros
p caracteres (fig. 2.4).
Y también podrian obtenerse correlaciones entre elementos de modo análogo a las
correlaciones entre variables que antes se mencionan. Hay una matriz simétrica R de
correlación entre los
ñ
entre los
3.
3.1.
2
p pares de caracteres, y otra matriz sirnétrica Q de correlación
?
pares de elementas.
INFORMACION DISPONIBLE, HIPOTESIS Y ESTIMACIONES
CONSIDERACIONES PREVIAS
Los métodos y procedimientos de discriminación que se consideran en la sección 4,
dependen no sólo de los criterios que se establezcan, sino también de la información
(*) Otra posible representación de un elemento por sus p caracteres es un «perfil» de barras
equidistantes.
ESTADiST1CA ESPAÑOLA
12
disp^onible y su estructura («structure of available knowledge^), de las hipótesis, y de
las estimaciones que se efectúan.
XP
^Xnt+
^x11+ ..., Xlp^
1Xrt.
..., XIp ^
X^^, ..., X^pÍ
Figura 2.3
•
^
•
/ lX1t+
..., X1p^
•
•
,
x,p)
•
•
•
x,
Figura 2.4
PANORAINlCA ACTUAL DEL ANALISIS DISCRI11/INANTE
1^
En el caso más simple, en el que se conoce la composición de las clases, la
asignación de un elernento a los más «próximos^ puede hacerse según un criterio de
distancia, como se verá en la práxima seccián. Los elementos, con sus valores en cada
variable, pueden representarse en un cuadro o tabla de doble entrada.
En situaciones menos favorables, pero más genera,les, sólo se tiene de las clases un
conocimiento probabilístico. En primer lugar, en cuanto a la probabilidad a priori, de
pertenecer a cada una de las clases. En segundo lugar, en cuanto a la distribucibn
probabilística de los valores de las p variables en cada clase.
Esto es, para m clases, exhaustivas y mutuamente ex'cluyentes:
P(^c E n^) = rcti ; h= l, ..., m
y P( X ^ x n ^), que correspande a una cierta función de probabllidad,
'
o de densidad,
.Í^h (x) •
EI conocimiento o la especificación hipotética puede ser total o parcial.
Pueden considerarse, además, los costes, cti^, pérdidas o penalidades, C(asignación
a nh^x E n^) en que se incurre al identif;car un elemento de la clase h como perteneciente a la clase j; C(se asigna x a nh^x E nh) = 0. Es decir, son los valores de una
función de pérdida.
3.2.
MUESTRAS DE APRENDIZAJE
Para conseguir información, o mejorar la información disponible acerca de los
aspectos antes mencionados, pueden utilizarse muestras de aprendiz^je («tr_aining samples») como información suplementaria.
Se distinguen diferentes casos:
a) Muestras supervisadas o controladas, con elementos de los que se conoce la
clase nh o población de procedencia. Si no se conoce nh, la probabilidad a priori se
estima a partir de estas muestras.
b)
Muestras no supervisadas, con poblaciones o clases mezcladas. Se distinguen
dos casos:
i)
ii)
Se conocen las n h, probabil idades a privri , pero no F( X^ fi h);
Se conocen las P(X^ (lh), pero no las nh.
Puede distin,guirse entre los métodos supervisados (véase, por ejernplo, Escudero,
1977) según que se conozca o no F(X^ I^1 ti), los métodos paramétricos, los métodos
i4
ESTADISTIC A ESNAÑOLA
directos, que más adelante se consideran al tratar de distancia, y el análisis discriminante propiamente dicho.
S. Das Gupia (Cacouilos, 19^3) distingue también casos en que fa decisión de
asignación queda diferida, así como la preferencia a ciertas asignaciones, hasta conseguir nueva información, y casos en que se asigna a un grup^o de clases, sin distinguir a
cuál de elias.
3.3.
SUPUESTC^S SOBRE LAS DtSTRI8UC1ONES
Por conc)cimientu previo, u basad^^ en las muestras de aprendizaje yue anteriurmente
se mencionan, puede llegar.^e a establecer yue la distribucián en una o varias de las
clases nh es de algunu de tus tipos ^-dimensiunales o^-vari^^ntes siguientes:
N^^rmu! c^ c^E^ Lupluc•E^-Car^ss, c^)n la #unción de densidad
[3.3. l ]
^h ^ -1^2 eXp
.fh (x ) = (2n } -Pnl ^ ^
_ 1 (X _ µ h ,},
^ ^
2
u,^(X - µ th^}
con:
.ar = (x,, ..., x^)
µ ^h ) _ (µ^lh ^ , ..., µ^h^)
2
6 1h
_
.
^^ 12h
^ 1h
tT^l
6 2h
'''
...........
... ............. CT^^h
o bien:
X ^ µ tf^ ^
^^ ( x } ^ ( 2n } -P ^ ( ^ 1 h, . . . , ^ r,h ) -1 p ^^? e X p
-
^h
^,^h ) X - N
^h
Es la de usc^ más generalizado en las distribuciones cuntin^ias, especialmente pur
consideraci^nes de convergencia asintótica.
b) P^^linumiul u mrrltinumic^l. Es de usu generalizadu cuandu se trata de distribuciones discretas (véase [3.3.2]}. Suele admitirse yue la distribución es binUmial en cada
variable dicotómica o atributu, y que éstus sun independientes entre si (mudelu de
independencia de primer orden, G^ldstein y Dillon, 1 y7K}.
^
[3.3.2j
Ph(x }- I I[ P^(^ = X^) ^1,, ]xJ[ 1
j= 1
- P.(^, - x^j n^1)
PANORAMICA ACTUAL DEL ANALISIS DISCR[MINANTE
IS
o simplemente:
^ ^ l ^^ ^ { 1 _ E^ j)
j=1
^ -Xj
con fl j= E(x j)
c)
Model^ de Bahadur (1961). Se considera como una generalización del anterior,
para su mejor adaptacián, al admitir cierta independencia entre los caracteres o atributos (véase [3.3.3]). En muchas aplicaciones se supone que se anulan las correlaciones
de orden superior, reduciéndose así el número de parámetros a estimar (Goldstein y
Dillon, 1978). Este modelo tiene la ventaja de que los parámetros son de fácil interpretación.
[3.3.3]
P(x) - j I e^
(1 _ f^^) ^-xj[ 1 + EP^k^ ^k +... + P^,2... ^,^ ^ z• ..., ^]
^
^ •P
P
j= l
con:
Zj
^ j ^ ^j
=
^^^ j( 1
„
P jk =
(.,,^
j^k)
- Hj)
d) Otr^as mvdelos para ^^ariables dicc^tómicas ^^ atribc^tus. Varios de estos modelos
representan las distribuciones por combinaciones lineales de polinomi^s urtugonales.
Lachenbruch y Goldstein { 1979) mencionan los siguientes, debidus a Martin y Bradley
(1972), que utilizan los polinomios:
^(x) = 1.
+^ j(x) = 2xj -- 1
„ ,j = 1, 2, ..., P
y Dtt-Kronmal (1976) (*), que parten de los polinomios:
^r(X) _ (_ 1)x'r
en donde r es un vector índice que toma valures en el espacio de los atributos.
^(x) = 1,
^^{ x) - 2xj - 1
j= l, 2, ..., p
r
^^cx) = I I ^ ^jc X)
v=(v ^, ..., v^)
r= 2, 3, ..., p
j= l
El modelo de Martin y Bradley parece ser preferible cuandu hay escasez («sparseness») de observaciones, mientras que el de Utt-Kronmal facilita la decisión sobre si un
parámetro determinado debe incluirse o nu en el modelo.
(*)
O bien, Krunmal-Ott-Tarter.
ESTADISTK'A ESPAÑUL.A
If)
e) Modelvs lr^glineal^s. En estos mudelos se aprovechan resultados obtenidos en el
análisis de la varianza ( Goldstein y Dillon, 1978) y en el de las tablas de contingencia
pluridimensionales (Lachenbruch y Goldstein, 19?9). Se expresa el logaritmo de las
probabilidades (*) como combinación lineal de los efectos principales y las interacciones
(véase [3.3.5]), en donde los términos satisfacen restricciones similares a las del análisis
de la varianza. Goldstein y Dillon emplean otra expresión análoga (véase [3.3.6]), en
donde a representa el efe^cto general; aj, el efecto principal debido al carácter x^,; ocjk, la
interacción de primer orden debida a xj, x,^, y así sucesivamente.
1 og p t^k = u + u,(i) + u2(j) +
[3.3.5]
+ u^(k) + u12(ij) +
+ u 2a(jk) + u a,(ik} +
+ u12}(ijk)
[3.3.6j
--1) x^tX^ +
1 og p( X) = Ot +
,,,_ 1) a^ +xk OL jk
+ . . . +
j <k
+ ( _ 1)x,+x^+...+xp0( , ...,
P
iz
Es oportuno mencionar también a este respecto la expresión debida a D. R. Cox, y
Day y Kerridge (J. A. Anderson, en T. Cacoullos, 1973) (véase [3.3.7]), para las
probabilidades a pusteriori y que se puede generalizar a p poblaciones o clases (véase
[3.3.8]) (*).
[3.3.7]
P(fl'^x) = exp (ao + a,x, + ... + apxp) • p,(Clz^x)
p((7 2Ix^) = 1/[ 1+ exp (ao + a,x, +... + apxp)]
[3.3.8J
p(Ilh^x) = exP (X'ah)P. (nP^x)
h= l, ..., p-i
p-t
p(C^P^x) = 1 / [ 1 + ^ exp (x'ah)
h=!
(*)
(*)
Por ejemplo, de la correspondiente a la casilla ijk^s`^` de una tabla de contingencia.
Los modelos o representaciones loglineales permiten: a) emplear estadísticas de bondad
del ^juste para la construcción de dichos modelos; 6) sustituir ceros por estimaciones no nulas en
casos de clasificación con observaciones escasas, y c^) incorporar información relativa a la ordenación de modalidades en los atributos considerados (por ejemplo, cuando se trata de preferencias •^
actitudes. Véase Lachenbcuch y Goldstein, 1979).
I%
PANORAMICA ACTUAL DEL ANALISIS DISCRIM[NANTE
Estas expresiones se relacionan ya con los rnodelos exponenciales y doble exponenciales, L. Escudera (1977) (véase [3.3.9]), y los que utiliza J. Tiago de 4liveira, en
Cacoullos { l9?3), con base a la distribución de Gumbel (véase [3.3.10]^.
[3.3.9]
pti(x^) _
1
. j = l,
= l, ..., m,
_e -uM1 ,.
µ.1
•• p
caso paRicular de:
exp [a ti(8h}bw{xh) + cw(6h) + d^(x^)]
[3.3.10]
Fti(x;) = 1- e-^
(distribución de Gumbel)
Fti(x^) =
(funcián logística)
1 -}- a^^^°^
Ck,e'bti1zJ'
.^
Fti(x^) = exp ( -e -X^)
4.
(doble exponencial)
CRITERIOS, METODUS Y TECNICAS
4.1.
PROCEDIMIENTO GENERAL DE ASIGNAC16N POR REGIONES
El criterio de hacer mínima la probabilidad de asignación errónea sugiere dividir el
espacio p-dimensional de patrones en tantas regiones como poblaciones o clases. En el
caso más simple, para dos clases, n,, n 2, suponiendo conocidas las distribuciones
probabilísticas correspondientes, f,(x), f2(x), puede darse una regla de clasifcación,
estableciendo una partición del espacia muestral en las regiones R,, R^, y fijarse las
probabilidade5 de error o asignación errónea, a,, a2 (véase [4.1.1]). Se trata ahora de
hacer mínima a, + aZ (si íos errores tienen importancia diferente, podría escribirse a, +
ka2). O bien, si se introducen probabilidades a priori, n,, n2, hacer mínimo el riesgo
n,a, + n2a2.
[4.1.1]
a, =
f,(x)dx
R2
a2 = .Í2(x)dx
R^
f^(x)
= CUnSt.
const.
ESTADISTICA ESPAÑU[.,.A
^$
El problema es elegir adecuadamente las regiones. Según el llamado lema o teorema
de Neyman-Pearson, para toda tamaño o nivet de significación dado, la regresión crítica
dada por la razón de verosimilitud es óptima (esto es, da máxima p^otencia o probabilidad de no cometer error en la hipótesis alternativa). En consecuenciz, conviene establecer una constante como cantorno que separe las regiones R,, R2, y que se base en la
razón de verosimilitud. En este caso, la razán de verosimilitud dará como contorno
separador de la regibn:
.f,(x)
= const., con la condición a, _
a2
..Í^{x)
(o bien, si se introducen diferentes probabilidades U pric^ri, n^, n 2:
n,f^^(x)
n af'2(x)
= const . ).
Se trata ahora de deterrninar esta constante.
Si además introducimos el supuesto de normalidad en ambas poblaciones o clases,
según el cual
J'^(x) es N(x ^µ(,^, E)
[4.1.2.j
,^2(x) es N ( x ( µ (2)^ ^)
esto es, tienen distinio vector de medias µ^^), µ(2^ pero la misma matriz ^ de varianzascovarianzas, se verificará (véase Kshirsagar, 1972) camo se indica en [4.1.3j, que el
doble del logaritmo de la razón de varianzas se expresa como función lineal de los
vectores de medias, y la constante h que se trataba de determinar como contorno para
la razón de varianzas vie ne dada por [4.1.4] .
[4.1.3]
2 log^
^ ^(x)
. ( x)
f^
,
1
,
_ ^. x -- 2 [µ (^^ - µ ^2)] ^,
en donde
^, = E ^'(µ ^,^^ - µ (z^)
j4.1.4j
1
h = 2 ^'(µ (1^ + µ (2^)
PANORAMICA ACTUAI. DEL ANALISIS DISCRIMINANTE
19
Pur consiguiente , se asigna la ubservación x a f i, o fI ^, según la desigualdad [4.1. 5]
que se verifique ( *). Esta es 1a regla de clasificación u asignaci+^n adoptada.
1
^. ' x >
2 ^c>>
+ µ ^2^), x a n ^
'
h x ^
1 (
-2
1(y^
+ µ(^^), x a n 2
Si
[4.1.5]
En cuanto al error de clasificación, viene dado pur [4.1.6], en donde Op es una
expresión de distancia que más adelante se considera (*).
Error de ciasificación:
[4.1.6]
para
0^ _ ^.'(N^I ^ - µcz^) = (µ^la -- µ^2^)'^-1(µ(^^ --- µ^2^)
C'c>n estimaciunes insertas («plug-in») se sustituye a, + oc^ de [4.1.1] y[4.1.6] por el
llamadu «error efectivu»
^ -^^ (X) ^^ ^ f^^(x)'
^,
U2
(Guldstein y Dillan, 1978) ( * *) .
4.2.
FUNCI(^N DISt'RIMINANTE LINEAL
Una explicación intuitiva det criteriu basado en la función discriminante lineal es la
siguienie:
Se tiene dus distribuciunes normales unidimensíonales cun la misrna desviaeión
típica y diférentes medias µ(^^, u^2^ representativas de las poblaciones o clases CI ^, f1^, y
una ubservación x se asigna a la distribución cuya media esté más próxima.
( *)
También pudría establece rse:
.x a fl i
^1 R2,
Si x E R,
x E R, ^1 R^,
x a[12_
x E(R, ^ R^) U(R,^} R2), se reserva el juicio.
(*) Una división del espaciu en regiunes por bluyues estadísticamente equivalentes puede
verse en Gessaman y Gessaman (1972).
(**) Sobre ia estimación de f(x), véase apartado e} de ta sección 9,
ESTADISTiCA ESPAÑOLA
La probabilidad de error será tanto menor cuanta más separadas estén las medias,
esto es, cuanto mayor sea (µ { ^) -- µ^i}) /^ . En consecuencia, la idea de R. A. Fisher fue ^
ha.ilar una combinación lineal de las p variables o caracteres considerados, de modo que
hiciese máxima la razón o cociente de la diferencia de medias a la expresión de su
variabilidad. El criterio es ahora hacer máxi^no este cociente como base de la regla de
clasificación o asignaçión. Si la combinación lineal se designa por ^,'x, esto es, ^,x, +
+ 1^^x2 +,.. +^.pxv, se trata de hacer máxima la expresión [4.2.1] o bien ^,'BJ^./^.'w^. (*).
[4.2.1)
max
^
[µ(1^'x) en t7 ,^-- [µ t?^'x ) en n 2]
= max
[ var (^.' x )] v^
I ^' (é^ í^ t) ^ µ (2)) (
(^' ^ ^ } vz
El valor máximo se obtiene derivando con respecto a^, de donde sale ^. _^-^
[4.2.2]. A1 sustituir en la razón o coci+ente se obtiene la expresión ©p . Estos resultados
coinciden con los obtenidos con el criterio de fijación en la región critica con probabilidad mínima, que se desarrollá en la sección anterior.
La razón de variabilidad entre
clases y dentro de clases se escribe también con la notación D2IS, en donde D=^,,(^.^„ - ^ 12^ -^- . , . -^- ^1. p(µ p ^ - ^,1 p2} .
[4.2.2]
^. _ ^-'(µ ^^^ - µf2)^)
En la práctica no suele conocerse las medias µ^^^, µ^2^ ni las varianzas y covarianzas
de la matriz ^. Si se dispone de muestra controlada o supervisada de i7 , y de f12, de
tamaño n,, n^ se trata de obtener la función discriminante lineal muestral^
Z= l,x, + 12x^ +... + lpxp = 1'x
y haciendo máxima la razón
[ 4. 2 .4^
D2
S
, para:
D- Et(X11
- x12}
-^
...
-F'
Ip(Xp^
- Xp2}
2
S --
^
;_^
(Zlk
- Z^)2 - n
k_
é=1
^; S W: + ^^ lh<<rh%SW^ S^h
h<i
.,
Al derivar con respecto a las 1; _^.; para hacer máxima la razón, sale el sistema de p
ecuaciones lineales con p incógnitas t;, de donde se obtiene el valor de estos coehcientes.
(*)
Para más de dos clases Cas soluciones de {8 - rW)3^ = 0 son ios valores propios de W;S.
21
PANORAMICA ACTUAL DEL ANAI.iSIS DISCRIMINANTE
La regla de clasificación o asignación es ahora la siguiente:
x se asigna a tl, si !'x -
1
2 1'{z^^^ + x^2^) >_ 0
1
^ ^
n2si1'x- ^1„{x^^) + x^z,
2
!'X
1
> 2 (X^1^ -^- X^2^,
Sl
1
1'x ^ 2 (x^,^ + x^i^),
x a i12
en donde
z^l^
_
(x`,,, ..., xP^)
jIC^2)
_
(X ^ 2,
[4.2.5]
. . . , XP2)
Este es el llamado estadístico de clasificación de Anderson (véase Kshirsagar, 1972).
La tabla o cuadro del análisis de la varianza que sirve de base al criterio de Fisher
puede escribirse corno en [4.2.ó] . E1 valor máximo de la razón se obtiene, como se ha
v i sto , para !-^o S-^^ d.
ANALISIS DE LA VARIANZA PARA z= I'x
g. de I.
Suma de
cuadrados
Entre ciases ........... ........
Dentro de clases ...............
1
n, + n2 - 2
c•2(I'd)2 = c•ZI'dd'1'
1'SI
Total ....................
n, + n2 - I
I'(S + cZdd')1
Fuente de variación
[4.2.ó]
en donde c es una const. indet., y d = i^- z2.
Otro criterio relacionado con esta función es el de Penrose { 1947), quien sugirió
considerar una función discriminante lineal óptima a partir de dos funciones lineales de
x, dadas por: 1) la suma de componentes de x, y 2) un contraste (comparación) lineal de
las mismas expresados en términos de sus desviaciones típicas {S. Das Gupta en
Cacoullos, 1973), á las que dio el nombre de «tamaño» y«forma», respectivamente. Lo
aplicó al caso de correlaciones iguales.
ESTADISTICA ESPAIV()LA
22
Kshirsagar ( 1972} desarrc^lla este caso, en que la matriz E cc^mún a dos distribuciones normales p-variantes, t1 ^ y r-^ 2, es de ía forma:
1 PP •••P
p 1 p ... p
[4.2.7]
E, _
_ (f - P)lp + PEPP
L P P
A continuación expresa la función discriminante ó' ^-`x, en donde ó es la diferencia de
lus vectures cie las medias de fl ^, f12:
d
F^p
i4.2.K]
l
h^x +
P(1 - i^}
i p
E^ x
1+(P i ^)P P
con
^d,
h'x =
E ^ j,d
i,^ = x^ + ... + x^,
Así pues, la función discriminante depende sulamente de los dos factores h'x y E lp =
= x, + x2 +...
(«tutal siz.e»).
+ xP, yue Penr^se denomina «furma» («shape») y«tamañu total»
En 1as aplicaciunes biulógicas del andlisis discriminante a órganos de
seres vivus, cuandu ^ es del tipu particular [4.2.7], puede cunsiderarse c}ue E^Px mide
ei tamañu del órganu y h`x su forma. Kshirsagar demuestra que estc^s factores de
tamaño y f^^rma no estdn currelaciunadus, y pur tanto se distribuyen independientemente, y expresa la función discriminante de la fórmuia:
( 4. 2.y]
á;
cz ^
*
n x + b`2 h'x
^2
cun
ó*= dif. de medias c1e H^px
í^ *= dif. de medias cft h'x
a; = var(Ei^,x} _ ^r^(1 + ^^p - p)
cs? = var ( h'xf = ^(1 - ^^)
^^ r^
. (^tnb12
^sta expresión facilita la discriminación, yue sólo depende
de dus factures, las
varian^as y!as ciiferencias medias. Si ^ nu es det tipu particular [4.2.7], puede empe-
PANORAMICA ACTUAL DE1_ ANALISIS DISCRlMINANTE
23
zarse por estandarizar cada una de las variables x; para que tengan varianza unitaria, y
sustituir después las p; j, correlaciones entre x; ; xf , por el prumedio p de las correlaciones. Cuando las p;^ nu difieren mucho entre sí, comu c^curre en muchas aplicaciones
biológicas y antropológicas, esta aproximación es económica y con poca pérdida de
efíciencia.
D ESARROL.LO DE C. R. R AO
4. 3.
Designando como anteriormente pur n h las pusibilidades u pric^ri de pertenecer a la
clase ^l h(h = I,.., m) y por C,,1 los costes o pérdidas al identiticar un elemento de clase
h como perteneciente a clase j, se tiene como puntuación discriminante para la clase
j-ésima
Sj = - ^ nhfh (xk^hj
h=1
[4.3.1)
( ji
=
l, 2,
y el elemento se asigna a la clase para la cual es máxima Sj.
Si se introduce el supuesto adicional de nurmalidad, cumo en la secc.^n 4.1, se
obtiene, al prescindir de los c^hj, la puntuación discriminante [4.3.2] yue puede denominarse puntuación cuadrática de discriminación. Comu antes, se asigna el elemento a la
clase que dé mayor valor a esta puntuación.
[4.3.21
^
2
I ^I
s^ _ - 1 lu8 ^^
2
^^ ,
- 1 (X ^ µ ^^^vl(x - Nij ^i - lc^grc.
^
Si además se supone que ^^ es la misma para tudas las clases, la puntuación
discriminantes se reduce a[4.3.3], que vuelve a ser una expresión lineal. Este es el
procedimiento que Lachenbruch (Cacoullos, 1973} denumina de la•func•ión disc•rimfnuntc^
múltiplE^ {MDF):
[4.3.3j
5.
1
-I
Sj = µ^j}E -' x--µtj) + lug n j
2
DISCRIMINACION POR DISTANCIA
En el caso de conocimientu de las publaciones o clases, puede utilizarse cumu
procedimiento toscu y rápido de asignación, la distancia mínirna ai centru de gravedad
de cada clase.
I
24
EST^IDISTIC.^1 ESPAÑC)L/^1
Ei cuadrado de la distancia euclidea del objetu a identi^car a la clase h-ésima viene
dada por:
(x+ - .z;h )2 =
^_^
js.l^
[Íh
- ( -X' t
- X 1 h ^ ^ -^- . . . -F-
{ XP
_ x p,, ) 2
11r
y de de^nición de
Para utras expresiones de distancía como
promedios, se pudrían obtener diferentes asignaciones.
1✓1 1lamadc^ cueficiente de similitud racial (Cuet^icient of racial likeness, CRL),
intrcxlucidu pur ^.arl Pearson en 1926, incluía además ia tiispersión de las clases y
tumaba comc^ distancia entre clases h y j ta expresión [5.2], o bien restandu ^ como
currección.
1/2
[5.2]
n {Xih - Xij^2
1
^ ^ .^ - ^ 2
2
r,
^^ 1 S^h + ^^^
nh
n^
I
AI sustituir una de las clases por el ubjeto u elementu a clasificar, se obtiene la
expresión [5.3j, ya que la ciispersión es cero para el objeto único que se considera.
[5.3]
^, (X; - X;;
S;^in^
La crítica más directa a estus prc}eedimientus se basa en que no tienen en cuenta las
cc^rrelaciunes entre las variables, pero aún así sun de algún uso en el análisis de
cunglumeradc^s.
^stas currelacic^nes se intrcxiucen en ia llamada distancia de Mahalanubis [5.4], que
apareció cc^mc^ expresión del valur máxima de la razón en la sección 4.2.
[ S.4]
bp = (µ {, ^ - ^ ^2,) ^ - 1(µ ^ l, - µ c^>)
D^ - (x^ ^^ - X^2^ )S- ^ (x^^ ^ -- x^2})
.
(^tra expresión que tiene en c uenta la currelación es la de jvanovic [5.5], y existen
utras, que como ésta pueden aplicarse a la distancia de un objetU o elemento a una
clase.
[5.5)
(1 -
^j;. 12,...,j - t )
PANQRAMICA ACTUAL DEL ANAL.ISIS DISCRIMINANTE
2s
C. R. Bose, en Krishnaiah (1977), pone de manifiesto que al definir la distancia de
Mahalanobis por ^2 =-µ' ^- lµ , siendo µ el vecior de diferencias, la correspondiente
1
distancia muestral D; _- m'^ -'m[5.6] no es un estimador insesgado de d^. Para
P
que verifique la igualdad de esperanzas, se toma [5.7], introduciendo la recíproca de la
media arrnónica.
1
02 = -µ' ^ 'µ
P
[5.6]
D; _ ^ m'S -'rn ^
D2 = D2 - ?
[5•?J
^
ñ
en donde:
1
1
1
- _ - +
ñ
2
n,
I
n^
R. C. Bose subraya la estrecha conexión entre la D2 y la T^ de Hotelling, generaliZación de la t de Student, y cómo la razón que max^miza R. A. Fisher es proporcional
a D2.
Otros procedimientos se basan en expresiones como la llamada u,finidud de Matusita
(Cacoullos, 1973) entre dos distribuciones ,f',(x), f2( x) (véase [5.8]). Esta se relaciona
con la [5.9] por la ecuación [5.10], y con la llamada distancia de Bhattacharya:
arc cos
[f^,(x),^^2(x)]'^2dx
Y con la información de Kullback-Leibler:
ltf^, , ,f z
log
^`
^^
,f ^ ^ dx
se tiene ( Golsdtein y Dillon, 19?8):
g
P Ij
P^
I(2: 1) _ ^P ^
2^ log P^
P^^
26
ESTADISTICA ESPAÑ4LA
La expresión
J ( l , 2) = ^ , ( P,^; - P^; ) 1og
F^
mide divergencia, y facilidad de discriminación. Se usan tacnbién:
t s . ^i
P (1r^ ^ .f2 > = ,^ ^ ` .t^, ( x>f2t x> dx
[5.9j
^tf^^ .^2> _ [^(`%.f,tx) -- v'.f2tx> zdx^ ^n
d2 = 2[1 - Pl
PCf,. ..., f„^) - ^ [f^(x), ... , .f,„(x)]
[5.101
^^^^^^ix
1^(x) = sup ( f f,(x}dx + ^ f^z(x)dxz^
J
J. Tiago de (Jliveira (en Cacoullus, 1973} utiliza la distancia de Kolmogorov,
Para el caso de variables discretas dicatómicas o binarias puede tomarse como
distancia entre dos elernentos el cociente del número n de éstos que coinciden en tomar
los valores uno y cero, por el número p de caracteres, La asignación de un elemento a
una clase podria hacerse considerando las sumas de cuadrados de la diferencia de m
valores, 0 ó 1, en cada componente, a la proporción de dicha clase. C.)tras posibles
expresiones para atributos puede verse en Escudero (15^77).
6.
EVALUACION DE RESULTAD()S
La evaluación de los resultados puede basarse en el número o pruporción de errores
cometidos, lo que suptane un previca trabajo de validación o comparación con la situación real.
Estudios como la probabilida+d de clasifcación errónea en I^shirsagar ( í972}, que en
caso de ser conocidos los parámetros de ias atribuciones normales de la clase viene
dada por ^- 1^1p se basarian en el casu de dispuner solamente de muestras en
1
2
^^ --- Dp . Ya se ciijo que D^p es un estimadur sesgadu que sobreestima ^ 2p , y por
1
2
consiguiente ^U ---Dp es una subestimación. Habría que sustituir el estimador inses2
gado mencionado en la sección 5.
Sitgreaves ( en Cacoullos, 1973) prc^pone algunas características c^peratorias (C). C.)
de las funciones discriminantes lineales, que pueden servir para su evaluación.
PANt}RAMICA ACTUAL DEL ANALISIS DISCRIMtNANTE
2?
Goldstein y Dillun (1y78) pruponen algunos métodos para la comparación de procedimientus, cun base a su efectividad relativa. Según la experiencia de estos autores,
sólo aparecen diferencias significativas cuando lus procedimientos son muy diferentes
en su aplicación a un cierto conjunto de datos. Se han efectuada estudios basados en
simulación, o experimentos Monte Carlo de muestreo, pero no se ha llegada a conclusiones de carácter definiti vo y general sobre la superioridad de procedimientos. No
ubstante, es de interés puner de rnanifiesto sus conclusiones:
a) Los modelos lineales suelen dar resultados razonables, sin grandes diferencias
entre lus que correspanden a distintus mudelus, pero la presencia de variables correlacionadas puede perturbar muchu su actuación.
h)
Yara vectures de medias parecidas, lus resultados nu fuerc^n buenUS, ni con los
mudelos de función discriminante lineal, ni cun lus de Bahadur de primer urden.
c^}
Mejures resultadus se ubtienen cun lus mudelus de Martin-Bradley y con el de
Bahadur en segundu urden. También se ubtuvierun buenos resultadvs cun lus procedimientus de distancia basados en lus cuaciradus de divergencia de Matusita.
7.
ALG^ ^NOS ASPECTUS DE INTERES N N LA INVI-^,STIGACIUN
i✓ n lu que se refiere a la situación y perspect^vas del análisis discriminante, pueden
hacerse algunas cunsideraciunes generales. Desde los primeros trabajos clásicos de R.
A. Fisher, en t936, no han cesadU de plantearse multitud de problemas, algunos de los
cuales siguen siendo ubjeto de consideración y est^idic}. Sin embargo, pueden destacarse
pur su mayur interés actual, algunus comu lus siguientes:
a)
fatirnuc^ic^ri clc^ lcjs ^urúrnf^tr^as a insertar («plug-in») en las funcic^nes discriminan-
tes u utras expresiunes que se emplean en 1^^ asignación. Se supunen especificadas las
distribuciunes, y adem^^s de lus prucedimientus clásicus, cumu el cie máxima verusimilit^^d, bayesianus, etc., siguen estudiánduse nuevus prc}cedimientus, así como el efecto de
lus estimadures en lus errures de asignación y sus prubabilidades.
b)
Disc^^iu clc^ !u rr^rrc^stru, determinacicán de su tamañu, etc:., para c}btener dichas
estimaciunes, e intvrmación general dt la situac;ión (^`).
c)
^'stirriuc^ic^rz clc^ lcrs cc^stc-s, absc^lutus y relativc^s, de las asignaciunes incurrectas.
(*) Un pr^^blc^ma que puede ^rt:sentarse es el de la esc^sez («spdrseness») de ubservaciones
ante la abundancia c^ prulif'eración de estadc^s («state prulif'eratiun») u combinacic^nes pusibles de
valc^res u mudalidades de ius ^^ tardctere s.
zK
ESTADISTICA ESPAÑOLA
d) Métvd^as nr^ ^urum^tric^,s. t'uando nc) están especificadas las funciones de
prababilidad, pueden estimarse por métodos coma el de los k puntos o patrones
muestrales más próximos (* ), a par métvdos de funciones potenciales, como el de
Parzen, etc. (véase Esc udero, 1977). Goldstein y Dillon destacan los trabajos de Gupta,
basados en la distancia de Kolmogarov, los de dichos autores, aplicados a problemas
pcsli o multinomiales, y los de Gorden y C^Ishen, que utilizan un algoritmo de particiones
sucesi vas del es pac io m uestral.
e) Los criterios hel^rr^^ ticc^s ( para hallar una salución «buena» aunque no sea óptima), entre los que deben citarse !os que determinan funciones lineales de separación
(como en los del indremento fijo y de gradiente) (**), y los que se basan en distancias;
entre é stas, las de distancia al punto más cercanu (SLC = N• N. = Mi • M. ó Single
Linkage Cluster = Near^est Neight^our = Minimum Method), al más lejana (CLC = F.N. _
= Mx • M. o Complete LC • Furthest N= Max. M.) o pr©medios ( véase Escudero,
1977). A. K. Gupta c^nsidera el cas^ en que se efectúan replicaciones de cada abservación individual, la que constituye una situación típica en el diseño y aná.lisis de
experimentos, especialmente en Bialogía y l^ ^^edicina.
f) Sobre rnétodas sec•uenc^r'ales, basados originalmente en el SPRT de Wald, en
19d7, y más recientemente (196t^) en el métada modificado MSPRT, de Fu (véase
Escuderu, 197?}.
g) Sobre métodos bayesianc^s, además de su fundamentación (Escudero, 1977) y
decisión basadas en el concepto de pérdida media, debe citarse el trabajo de Giesser en
Van Ryzin (1977).
Lachenbruch y Goldstein (1979) examinan algunos de los principales criterios de
asignación, que tratan de establecer «buenas» reglas, como son las siguientes:
1.
Minimizac•ivn del cc^ste dc^ usignacivn de indii^iduvs a poblaciUnes o clases.
Se trata de elegir las regiones de asignación Dj para hallar:
min ^ ^ P(Dj/ Ci;)p;cj,
(D^)
i
j=- 1
esto es, para hacer minimo el coste de asignación.
(*)
Del vofumen de ta hipenesfera Vj =(2n)^^2 Dplr ^ , y siendo D la may©r distancia
2
de patrones al j-ésimo, se escribe h^(^,;) = 1/(Uj/K). (L. Escudero, 1977).
(* *)
En el primero se mod ifica el vector de coeficientes de la función discriminante lineal
después de probar cada patrón, y en el segundo, después de una iteración completa.
NANORAMICA ACTUAL DEL ANALISIS DISCRIMINANTE
Suele admitirse que c•;; = 0, y que c^; se establece por el usuario o su asesor
estadísticó. Muchas veces se toma
c^; _ ! (si i ^ j)
c ;; - 0
Así pues, este criterio minimiza la proporción general de errores («minimum overal!
error rate», «minimum average errur rate»).
Et inconveniente de esie criterio es que las proporciones de error pueden quedar
distorsionadas. Así ocurre cuando se trata de diagnosticar una enfermedad muy poco
frecuente, ya que en este caso, y cualquiera que fuese la observación, la regián
asignaría casi todos los individuos a la clase de los no enfermos.
2.
Minimización de los mcixirnc^s de las prcababilidades de c.•lusi•jic•uc•ivn ^rránea
mi n
(Dj )
3.
max
^
max
^ #'
Y( D^/Il ;)
Fijacicin de !a prvpc^rción de errures ^n (errur rutc^s) c^n [7 , y uc•eptac•ión de la
proporc i©n que cc^rrespc^nde en ^! utrc^ ^rupr^.
Esto supone fijar la sensibilidad o sensitividad y determinar la especificidad, en
términos epidemiológicos. Así se hace cuando la asignación constituye un cribado 0
tamizado de primera línea, como en ius estudios (screening prujects) de tuberculusis.
Una vez establecido el criterio, que puede o no ser alguno de los antes mencionados, la clasificación de métodos se refiere a lus supuestus relativos a la distribución que
corresponde a cada clase o población.
Estos supuestos pueden cruzarse a doble entrada cun lus criterios anteriures, y son
los siguientes:
u) Se cunucen !as distribuciones f,, f'^ de la variable aleaturia en cada clase o
población ( especificación cumpleta).
b) Se cunoce la familia u furma funciunal de las distribuciones, perc> nu el valur de
un parámetru.
c)
No se conocen las distribuciunes.
En el primer casu, la expresión a minimizar es una función de (j^, ,/4, D, , D^):
p, ^ .Í',(x)dx + laz/'.^'2(x}dx
JDz
./D'
ESTADISTICr^1 ESPAÑOLA
y la regla de decisión viene da^cia pur las regic^nes óptimas:
D^ = x: f'lx} >_ ^` , D,^ _
.f^^(X^
9.
:
^^
.^z(X1
.Í^(x)
^
PZ
P^
ALGUN^JS TEMAS DE INTERES ACTUAL .
P. A, Lachenbruch y M. G^lcistein (197y) destacan algunas de las áreas de investigación de mayur interés actual, que se referen a lus temas siguientes:
a)
R^^bustez
De acuerdv cun el significado general de rubustez, se considera que una regla de
asignación es rubusta si apenas resultan afectadas las propc^rciones de errur cuando no
se mantienen los supuestos básicos.
Las investigaciones de Lachenbruch se refieren concretamente a los siguientes
aspectc^s:
- R^^bustc^; f'r^nte u lu c•lusífic^c-rc'iún c^rrcin^u dc^ lus mtcE^strus inic•iules, v d^ ^ntrenamientc^ o u^rendizuj^.
Si 1a proporción de ciasificación errónea de estas muestras fuese la misma para
ambas poblaciones, nc^ tendña efectu en la función discriminante lineal.
- Rvbustez pvr nc^ uleutr^ri^dad de lu c•lasi^rucic^n errcinE^u inieiul.
^uando algunos individuos ^ie la i.lase Il, están mucho más próximos a la f12 que los
demás de I7 ^, hay una notable distorsión en la proporción aparente de error, aunque no
lo haya en la proporcián efectiva.
- Robustez ,fr^nte u clasificuc'tUnPS inic•iul^s E^rrónc^us puru func•ic^n disc•riminunte
cuudreática.
Así comc^ la función discriminante lineal nc.a es sensible a errores de clasi^cación
inicial, la cuadrática sí lu es, y ambas proporcic^nes de clasificación errónea resultan
desfavorablemente afectadas.
- Robustez frent^ u c•lusific•uc•ic^rtes inic•iulc's c'rrc^nc^u.s ^uru ,func•iunE^.s disc•riminantes c•utc^gvric•us .
Cuando lus datos no son cuantitativus (caracteres cualitativos, atributus, variables
cualitativas o categóricas) nu pueden utilizarse funciones discriminantes como las antes
PAN(>RAMIt'A ACTL;A1. Uf-:l_ ANALISIS DISC'RIMINANTE
31
menciunadas, sinu m^^cielus categcíricu^ para la clasificación basada en vectures dicutómicus u pulicutómicuti.
Te^davía nu se dispc^ne de estudius satisfacturiamente amplius subre lu^ efectos de
lus errures en la clasificación inicial para funciunes discriminantes categóricas. Según
Lachenbruch, sería de es perar que lus efectus nu fuesen muy diferentes de l^s que
aparecen en lus estudius de clasificación errónea en tablas de cuntingencia múltiple.
b)
(^hsc^r^'clc•IUrINS urtvmulus
Muy relacic?nadus cun lus aspectus de rubu:^tez están 1us de inclusión de ubserva-
ciunes ^^nómalas u cuntaminación, entre lus cuales pueeíen distinguirse los siguientes:
-- C'c^rtturrrir^clc•ic^rt c^c^ c^sc•ulu
Se da este tipu de cuntaminación cuandu una u ambas clases u publaciones cuntienen una pequeña t^racción cun individuus que pruceden de una distribución con igual
media peru mayur varianza ( uSU de instrumentus de medida cun diferente precisión).
Subre cuntaminación cie escala puede verse el trabajc^ de Ahmed y I.achenbruch, en
Van Ry^in, ed. ( 197K).
- C^c^rtlurrtinuc'icyrt
c^c^ j^c^sic'ltírl
N ste tipu de cuntaminación se dehe a que hay medicias u lecturas sesgadas para una
peyueña fraccic^n de lus individuus de una u ambas clases (usu de instrumentos c1e
medida cun un errur sistemáticu u desviación en la calibración, u«slips ín calíbratiun») (*)•
f:ste tipu de cuntaminación puede pruducir mciyur ef'ectu que la cuntaminación de
c^scala, en particular cuandu la media de la distribución cuntaminante está al lado
upuc^stu de la media de la publacíón nu cuntaminada.
c)
1)i.ti•trihtcc•i^,ric^s c^ijc^rc^ntc^s clc^ lu rtr^rntul
^:ntrt^ Ic^s c^^^t^^ yut han sidu t^^t^Rdia^lus c^stán lus de variables dicutómicas, distribu-
ciunes lugnc^rmale^, y utr^is ciistribuciunc^^ cun v^^lure^;
medius u extremadus de la
asimetría y c^t la c^irtc^sis. Se hallarún en varius casus prubabilidade5 de clasificación
errónea (prupurción de errc^^ re^> ^^cperiures a las óptimas, cunveniencia de usar estima-
(*1 Pi^ede cunvenir el emple^^ cie estimaclures rubustus: recc^rtacic^s, ^ ^^vinsurizadc^s, trieentílieos,
Hudges-Lehman, u bien «hube rs» ,«harnpe ls» , etc ., cumu dicen Lachenbruch y Guldstein (1979).
^2
^STAUtSTICA ESPAÑC)LA
dores robustus (p. ej., medias y cuvarianzas recurtadas) si la distribución es muy
asimétrica.
d)
Desiguulduwr^t en !US dispersrr^nf^s t^ rnutrices c.le ^ ^^riunzas-c^u ^ ^ur^an^us
Es importante estudiar el efeeto en las funciunes discriminantes de la desigualdad en
la dispersión.
Esta situacitín, que ya fue estudiada pur T. W. Anderson y R. R. Bahadur ( 19fi2), y
más adelante pvr Gilbert ( 19ó9) y otr^s, y se trata en obras com^ las de Kshirsagar
(1972), ha sidu ínvestigada por Marks y Dunn (1972) en cuantu a su efecto en el
camportamiento de la función discriminante. Para muestras pequeñas y diferencias
generales, parece resultar más afectada la f. d. cuadrática que la lineal.
e)
Estimucéón d^ !as func^ic^n^s d^ d^nsidud y r^xlus nc^ purum^tric^us
Para los métodos de ciiscriminación basados en la razón de verusimilitud f', /^f'2, se
hace necesario estimar estas funciunes, si nu sun cunocidas cumo suele ucurrir en la
práctica. En tal ^casión es interesante el estudiv de la precisión de esta estimación
(véase, p. ej., Kshirsagar, 1972). Por otra parte, aunque sería preferible estimar directamente la razón de verosimilitud, este tipo de estimación nu está satisfacturiamente
desarrollado.
Sería conveniente extender el uso de estimad^res no paramétricos, estu es, sin
especificación previa de f^(x). Puede verse a este respecto un trabaju de Wegman (1972)
y otro de Wahba (1977) sabre algoritmus yue permiten cibtener, a partir de lus datus,
estimaciones óptimas de ciertos parámetros de compensación o suavización (la uptimización debe entenderse en el sentido de mayur acuracidad, u sea, menur errur mediu
cuadrático, ya que hay que llegar a una transacción entre precisión e insesgamientu} (*}.
Por otra parte están las reglas no paramétricas, que no requieren estimar densidades,
como en los métodos ya citados del «vecinu más próximu» .
Deben mencionarse asimismu lc^s métodus que se basan en las distancias entre
distribuciones, c^mu los de K. Matusita, D. S, Gupta, y más recientemente, Diliun y
Groldstein (1978). En cuantu a métodus nc^ paramétricus deben menciUnarse también lvs
de Gordon y Olshen (1978). Estos autures emplean una clase de regla de decisión
basada en la partición adaptativa de un espaciu euclideu de ubservaciunes. ^.'un ciertas
(*) Sobre estimación de f(x} puede verse Gessaman (1972>, D. Das Gupta en Krishnaiah (1977),
página 462, y Lachenbruch y Golstein (197t3). Son clásicas las estimaciones nucleares (kernel
estimates) y las cornbinaciones lineales de funciones de Hermite.
PANORAMICA ACTUAL DEL ANALISIS DISCRIMINANTE
33
condiciones de suficiencia, la sucesión de reglas de decisión da probabilidades de error
que al aumentar el tamaño de la muestra tienden a las que se obtendrían por métodos
bayesianos.
Otro aspecto interesante, desde el punto de vista teórico y no de aplicación práctica,
es el caso de variables mezcladas, en el sentido de que los datos contengan componentes continuas y discretas.
f}
Selec•ción de caracteres (variables c^ artributc^s)
La selección de caracteres, características o variables es previa a cualquier trabajo
de clasificación, tanto en el sentido de formación de clases (análisis de conglomerados,
taxonomía, etc.} como en el de discriminación. En la extensa literatura disponible
sobre reconocimiento de patrones pueden verse consideraciones sobre este tema.
L. F. Escudero (1977} da numerosos ejemplos prácticos de selección. Suele empezarse el estudio con gran número de caracteres para proceder después a una selección
de los más expresivos, a veces en dos o más etapas, hasta conseguir la efectividad
deseada en la clasificación. Como en otras ocasiones, reaparece el problema de la
transacción entre desiderata: beneficio (información, discriminación, bondad de la clasificación) frente a coste (número de caracteres, su requerimiento de tamaño de muestra,
volumen del trabajo, etc.).
Una comparación detallada de procedimientos de selecciá ^ n puede verse en Goldstein
y Dillon (1978), basados en la jerarquización de variables con diferentes criterios, en el
riesgo de clasifcación errónea y en otras consideraciones.
g)
Discriminación bvrrvsa
Otro campo en que la investigación presenta gran interés, es el de la que puede
llamarse discriminación borrosa. J. C. Bezdek y S. D. Harris ( í978) han establecido
conexiones entre particiones borrosas y relaciones de similitud, ya utilizadas en análisis
de conglomerados. M. Roubens (1978) propone una presentación unificada de los
algoritmos clásicos de conglomeración y taxonomía estadística y matemática, que pueden aplicarse a problemas de clasificación, tanto si son nítidos como si son borrosos.
En esta línea debe recordarse que las reglas de decisión nítida ya han sido extendidas
en diferentes trabajos a situaciones borrosas, lo cual las haría aplicables a problemas de
discriminación. En efecto, se dan muchas situaciones reales en que la población o
clases no tienen una línea de separación marcada, sino más bien zona de separación
indecisa o borrosa.
34
lU.
ESTADISTICA ESPA^^©LA
COMENTARI(JS FINALES
Además de los dos ^abjetivos principales de la clasificación en ,general, mencionados
en la introducción, que son formar clases y asignar a clases, otro sería ei estudio en
profundidad de las diferencias entre clases. Se podría así mejorar la aproximación a los
dos objetivos anteriores. Como ha dicho A. K. Gupta (1974), todo procedimiento de
clasificación debe ponerse al día después de utilizarlo durante cierto tiempo, por las
posibles variaciones en los elementos que constituyen las clases. Lo que esto si,gnifica
es que el estudio de las clases debe hacerse en continuidad además de en profundidad.
Se ha señalado ( véase, p. ej ., S. Geisser, 1977) que el análisis discriminante es una
técnica yue resulta más útil en ias etapas primitivas o laxas de una disciplina, cuando
las nociones son borrosas, las mediciones toscas, y las relaciones vagamente entendidas. Estas consideraciones apoyan la importancia de introducir los conjuntos b©rrosos
en ia técnica de discriminación, como se indica en el apartado g) de la sección anterior.
Por otra parte, C. A. B. Smith ( i977) advierte a los usuarios del análisis discriminante
que al enfrentarse con u n problema debe considerarse si éste constituye un instrumento
más adecuado que otras posibles técnicas de investigación y de acción.
Se pone de manifiesto en todo caso el aspecto mayéutico de estas técnicas, como de
la Estadística en general , también mentora y ministra de las ciencias, y la necesidad de
pensar y pesar antes de decid ir el camino adecuado.
BIBLIOGRAFIA SOBRE ANALISIS DISCRIMINANTE (OBRAS)
ANDERSON, T. W. (1972): An Introducti©n tv 11^lulti^^ariate Statistical Analysis.
ANDERSON, T. W.: (1972). A Bibtir^graphy vf Multivariate Statistic•al Analysis {Oliver and Boyd}
BARTLETT, M. S.: «Multivariate Analysis^, en Theoretical and Mathematical Biology, de Watermen
and Morowitz (1965).
BtsNOP, Y. M. M.; F[ENBERG, S. E., and HoLLAND, S. W. (1975}: Discrete Multivariate Analysis.
Thervy and Practice (M IT Press).
BLACKITH, R. E., and REYMENT, R. A. { 1971): Multivariate Morph^^metrics (Academic Press).
CACOVLLOS, T., ed. (1973): Disc•riminant Analysis and Applic•ati^ns (Academic Press, N. Y.).
Cox, D. R. (1970): ^he Analysis c^f Binary Data (Methuen).
Cox, D. R., and HtNtc.t.EY, D. V. (1974): Theoretical Statistics (Chapman and Hall).
DAVtD, F. N. ed. (196ó): Research Papers in Statistics Festsc•hrift for J. Newman (Wiiey).
ESCUDERO, L. F. (1977): Reconc^cimientu de patrunes (Paraninfo, Madrid).
ESCUDERO, L. F., ed. (1981): Avances en Prc^gramac•ión Matemátic•a (SEIOEI, Centro IBM-UAM).
PANORAMICA ACTUAL DEL ANALISIS D[SCRtMiNANTE
3S
GoLDSTErN, M., and DILLAN, W. R. (1978): I^iscrete Discriminant Analysis ( Wiley}.
GuPTA, A. K. ( I974): Classifrcation by 11^ultiple Observation (Techn. Report. no. 42. The Univ. of
Michigan) .
HoEL, P. G. (1947): Introduction to Mathematical Statistics (Wiley).
KEMPTHOiWE, O., et alia (1954): Statistics and Mathematics in Biology (The lowa State College
Press).
KEI^DALL, M. G. (1946): The Advanced Theory of Statistic•s (Grifiin).
KRISHNAIAH, P. R., ed.: Multivariate Analysis (North Holland).
KRUSKAL, W. H., and TANUR, J. M. (1978): International Encyclopediu of Statistics (Macmillan and
Free Press).
KsHIR,swGAR, A. M. (1972): Multivariate Analysis {Marcel Dekker).
LACHENBRUCH, P. A. (1975): Disc•riminant Analysis (University of Michigan).
RARO, C. R. (1965): Linear Statistic~al Inference and Its Applicutions ( Wiley).
SKARABIS, H. { 19?0): Math. Grundlagen u paktische Apekte des Diskriminatiun und Klassifikatian
(Physica Verlag, Wiirzburg).
SoKwL, R. R., and SNEATH, P. H. A. (19ó3): Principles vf Numerical Tazvnomy (Freeman).
So1.oMON, H., ed. (1961): Studies in Item Analysis and Predic•tion (Stanford Univ. Press).
Vwtv RYZIN, J., ed. (1972): Classifrcation and Clustering (Academic Press).
WATERMAN, T. H., and MoROwiTHZ, H. J., eds.: Theoretical and Mathematical Biolvgy (Blaisdell, P.
C., N. Y.).
BIBLIOGRAFIA SOBRE ANALISIS DISCRIMINANTE (ARTICULOS)
AHMED, S. W., and LACHENeRUCH, P. A. (1977): Discriminant analysis when scale contan:ination is
present in the initial sample (ver Van Ryzin).
ANDERSON, T. W., and BAHwDUR, R. R. (1962): «Classification into two multivariate normal distributions with different covariance matrices» . Ann. Math. Stat. , vol. 33, p. 420.
BAHADUR, R. R. (1961): «A repnesentation of the joint ditrib. of response to dichotomous items» . Ver
H. Solomon, ec.
BERKSON, J. (1955): «Max lik. and min-X2 estimation of the logistic function». JASA, 50, p. 130.
BEZDEK, J. C., and HAttR^s, J. D. (1978): «Fuzzy partitions and relations» (Fuzzy sets and systems,
vol. 1, n.° 2, p. lll).
CHAtv, L. S., and DuNN, D. J.(1972): «The Treatment of Missing Values in D. A.» . JASA, vol. 67,
p. 473.
CHERNOFF, H. { 1980): «The identification of an element of a large population in the presence of
noise» . The Annals of Statist., vol. 8, p. 1179.
CocHRwtv, W. G., and HoPKtNS, C. E. (19b1): «Some classification problems with multivariate
qualitative data» . Biometric s, 17, p. 10.
3ó
ESTADISTICA ESPAÑOLA
CoRNF3ELD, J. (19ó7): «Discriminant Functions». lnt. Stat. Rev., vol. 35, p. 142.
Cox, D. R.: «Some pracedures associated with the logistic qualitative response curve». Ver David,
F. N., ed.
Cox, D. R., and BRwNnwoo^, L. (1954): «On a discriminatory problem connected with the works of
Plata» . J. R. S. S. , B, vol. 2 l, p. 195.
Dws GRU^rA, S. (1973): «Theories and Methods in classification: A riew» . Ver Cacoullos, T.
DILIAN, W. R., and GowsrEnv, M. C. (1978): «On the performance of some multinomial classification rules». JAS.^, vol. 73, p. 305.
FISHER, R. A. (193ó): «The Use of Multiple Measurements in Taxonomic Pt•oblems» . Annals of
Ewgenics, vol. 7, p. 1?9.
GESSwM^^N, M. P., and GESS^tNwN, P. H. (1972): «A comparison of some multivariate discriminant
procedures». JASA, vcat. 67.
GE1ssER, S. (1977): Véase Van Ryzin, J.
GILBERT, E. S. (19ó8): «Un discrimination using qua]itative variables» . JASA, vol. 63, pp. 13-99.
CiILBERT, E. S. (19ó9): «The ef^ect of unequal variance-covariance matrices of Fisher's linear d. f.».
BiornPtrics, vol. 25, p. SOS.
GoRDON, L.; C^LSHEivt, R. A. (1978): «Asymptotically efficient solutions to the clasification problem».
Ann. af Stat., vol. ó, p. S 15.
H1L1s, M. (1967): «Discrimination and allocation wíth discrete data». J.R.S.S.. C, vol. lb.
Horx:ES, J. L„ Jr. (1950): «Discriminaiory Analysis: A survey». Rep. N. l, USAF School of
Aviation Medicine, Randolph Field, Texas.
IswACSON, S. L. (1954): Véase la obra recopilada por Kempthorne, (^. et alia.
JOHN, S. C. (1%1): «Errors in discrimination» . Ann Math. Stat., 32, 4.
KoPEC[NSx[, B.: «Discrimination by means of dendrites». Zastor. Math.> S, 3.
KRZANOWSKI, W. J. (1975): «Discr^nination and classification using both binary and continuous
variables» . JASA, vol. 70, p. 782.
KRZANOWSKI, W. J. (1976): «Canonical representaiion of the location mo ^del for discrimination or
classification» . .IASA, voi. 71, p. 845.
KRZAN4WSK1, W. J. (1977}: «The p^erformance of Fisher's linear d. f. inder non-optimal condition>^ .
Technvrnetrics, 19, p. 191.
KSNIRSAC,wR, A. M., and ARS^vEN, F. (1975): «A note on the Equivalency of two Discrimination
Procedures». The Amer. Statrst., vol. 29, p. 38.
LACHENBRUCM, P. A., and GoLasTEav, M. (1979): «Discriminant Analysis». Biarnetrics, 35, p. 69.
MwHwLwNOels, P. C. (1936): «On the Generalized Distance in Statistics» .
Indias, 2.
Prac . Nat. Inst. Sei. ,
MARxs, S., and DuNN, O. J.{ 1974): «Discriminant functions when covariance matrices and unequal» .
JASA, vol. ó9, p. SSS.
MATUSiTA, K. (19SÓ): «Decision n.lle, based on the distance for the classification
Statist. Math., 8, p. ó7.
p.» . Ann. Inst.
PANORAMICA ACTUAL DEL, ANALISIS DISCRI^+IINANTE
37
MooRE, D. H. (1973): «Evaluation of five discrimination procedures for binary variables». JASA, vol.
ó8, p. 339.
NAIR and Mu^cEwl (1960): «Classification of natural and plantation teak> ^ . Sankhya, 24, 1, 2.
OTTESTAn, P. (1975): «Discrimination Analysis^. Int. Stat. Re^}., vol. 43, p. 3U1 (1975).
PENROSE, L. S. (1947): «Somes notes on discrimination^ ^ . Ann. Eugen., vol. 13, p. 228..
FEttE[RA, B. de B. (197^): «Discrim inating among Separate Models: A Bibliography» . Int. Stat. Re^^. ,
vol. 45, p. 163.
PRO, R. (1976): «Aplicaciones del A. D. en la Banca^. Coloquio lnternacional de Estadística e I. O.,
Madrid .
Rwo, C. R. (1948): «The Utilization of Multiple Measurements in Problems of Biological Classification^». J.R.S.S., B, vol. 10, p. 159.
RoueENS, M, C. (1978): «Pattern classification problems and fuzzy sets» . f^'. S. and Systerns, vol. l,
No. 4, p. 239.
SoRUM, M. J. (1971): «Estimating the Conditional Problem of Missclassification>^ . Technc^mPtrics, vol.
13, p. 333.
SoRUM, M. J. (1972): «Three probabilities of missclassification» . Technometrics, vol. 14, p. 309.
STOLLER, D. S. (1954): «Univariate two-population distribution free discrimination^ . JASA, vol. 49,
p. 770.
VoN M^sES, R. (1945): «On the classification of observation data» . Ann. Math . Stat. ,
16, p. 168.
WAHSw, G. (1977): «Optimal smoothing of density estimates» . Ver J. van Ryzin, ed. ^
WALO, A. (1944): «On a Statistical Pmblem Arising in the Classifrcation of an Indificual into one of
two groups>^ . Ann. Math. Stat.. 15, p. 145.
WEGMAN, E. J. (1972): «Nonparametric probability density estimation I». Technometric•s, 14, No. 3,
p. 353.
WELCH, B. L, (1939}: «Note on Discriminant Functions» . Biometrika, 31, 218.
SUMMARY
This is a survey of the antecedents and principles of discriminant
analysis and its relationship with pattern recognition.
Different approaches, models and techniques of classification and assignment are examined, and some of the main aspects in current research,
such as robustness, contamination, specification, estimation of density
functions and non parametric rules, and fuzzy discrimination.
Key words: Discrimination, assignment, discriminant analysis and functions.
AMS, 1970 Subject Classification: 62H30.
Descargar