convexidad y pérdida de información debida al agrupamiento

Anuncio
ESTADISTICA ESPAÑOLA
Vol. 30, Núm. 1 19, 1989, págs. 435 a 444
Dos fun ciona l es rea l es d e l a m atriz de F ish er:
co nvexida d y pé rd i da de i nformación de b i da
a l agrupa m iento de obse rvaciones
por
AGUSTIN TURRERO NOGUES
Facultad de Matemáticas
Universidad Complutense de Madrid
RESUMEN
Se presentan dos funcionales reales de cualquier matriz de
información y en particular, de la matriz de información de
Fisher. Estudiamos el comportamiento de estas funciones frente
a dos propiedades importantes de las medidas de información:
convexidad y pérdida de información debida al agrupamiento de
observaciones. A la vista de los resultados obtenidos, se proponen ambos funcionales como medidas de información paramétricas reales, en el caso multiparamétrico.
Palabras Clave: M edidas Para m étricas de I nforrn ación, M atriz de
Información de Fisher, Convexidad, Observaciones Agrupadas.
A MS 198^-Subject c/assifica tion: 6 2 B 10, 6 5 F 15, 6 5 F 3 5.
1.
INTRODUCCION
EI contenido de este trabajo se enmarca en el ámbito de 1as medidas de
información paramétricas. Dichas medidas se refieren a familias paramétricas { f(x, f^), ^^ Q} de distribuciones; miden la cantidad de información
que proporcionan los datos acerca del parámetro desconocido ^ y son
funciones de 0. Si 4 es k-variante, la matriz de información de Fisher es la
f ti 1^>f^iti
^^^
r^c ^^ f_Sf'^1tiOL. 1
única medida de información paramétrica disponible. EI carácter matricial
de esta medida no sólo dificulta la interpretación intuitiva de la misma
como medida de información sino que además le resta operatividad a la
hora de comparar experimentos. La idea de resumir en un solo dato los
elementos de esta matriz heredando de la misma las propiedades que
caracterizan las medidas de información parece, pues, un objetivo deseable.
Papaioannou y Kempthorne (1971 ) y Ferentinos y Papaioannou { 1981)
dan una respuesta a esta cuestión praponienda como medidas reales de
información la traza, el determinante y el autovalor i-ésimo de la matriz de
Fisher. Turrero { 1989) presenta un argumento intuitivo basado en el análisis de componentes principales de la matriz de Fisher, que justifica limitar
al conjunto de funciones reales de sus autovalores, estrictamente crecientes y simétricas en cada argumento, las posibles med^das de información
basadas en dicha matriz. Elegir entre estas funciones las más adecuadas
equivale a seleccionar aquellas con mejor comportamiento frente a propiedades básicas en toda medida de información (*). En base al análisis de
dichas propiedades, Turrero { 1 989) propone como medidas de información
la norma euclídea y"una media generalizada" de los autovalores, de la
matriz de Fisher; estos dos funcionales junto con deterrninadas funciones
iineales de dicha matriz, entre ellas la traza, parecen tener una mejor
conducta frente a aquellas propiedades. Este trabajo pretende reforzar el
papel que como medidas de información desempeñan ambos funcionales
examinando su cornportamiento frente a dos propiedades deseables de
dichas medidas: la convexidad y la pérdida de información debida a1 agrupamiento de observaciones. En la sección 2 probamos la convexidad de la
norma euclídea de cualquier matriz de información. Demostramos asímismo la concavidad de los dos funcionales respecto de repeticiones independientes del m ismo experimento. En la sección 3 establecemos la propiedad
de pérdida de información debida al agruparniento de observaciones para
arnbos funcionales. Todos los resultados tienen su particularización para la
matriz de Fisher y completan los presentados por Kale (1 964j y Ferentinos
y Papaioannou (1979, 1 983).
2.
CONVEXIDAD
Denotamos por EX ={(X, S^X, Ay; P,,:f1 E O} al experimento estadístico
que consiste en la observación de una variable aleatoria X definida en el
espacio medible (S^x,A) cuya distribución de probabilidad P„ depende de un
(`) Coma son la no negatividad, información máxima e invariancia bajo transformaciones
suficientes.
437
[)US Fl'N(.^IOtiE^S REALE^S [^E 1_A MATRIf DE FISNE::R:
parámetro desconocido f^. Suponemos que la familia de rnedidas de probabilidad { P^,:fl ^ O} está dominada por una medida finita o rr-finita ,u. Sea
f(x,ll)=dP^,/d/c la densidad correspondiente. Supongamos que © es un
subconjunto abierto del espacio euclídeo k-dimensional lRk. Sea F el conjunto de densidades de probabilidad ( respecto de ,u^ pertenecientes a cualquier familia paramétrica con el mismo espacio paramétrico (^. Obviamente
F es un conjunto convexo. Denotaremos por /x^f ^,), f f, ^ F a cualquier medida de información paramétrica como función de la densidad f^,f(x,^), o
indistintamente /x(f^) cuando no sea preciso especificar dicha densidad. La
medida /x(^^,) es una función convexa sobre el conjunto F si
Ix[ ar„+(1 -a)g„] < alx^f ^,) +(1 -a)/x(g„) para cualesquiera f^,,g^, E F, 0< a< 1
y para todo f^ ^©. Si la medida de información es una matriz, la desigualdad matricial B> C significará que la matriz B-C es definida no negativa.
EI término matriz de información significará una medida de información
paramétrica que para todo f^ E O es una matriz kxk simétrica real definida
no negativa que satisface la propiedad de información máxima que establece que /x(fI) >/T^x^((^) para todo estadístico T(X) y todo a E O con la igualdad
si y sólo si T(X) es suficiente para f^ ( Ferentinos y Papaioannou, 1981). Un
ejemplo típico de matriz de información es la matriz de información de
Fisher /X cuyo elemento (i, j) es:
E^^ [
a
aa;
logf ( X,fi)
a
aa;
IoJ.Í(X^^) ]
Sean
^? , [lx^T ^,) ] > ^ 2 [lx^T ^^) ] ? • • • ? a^k C/xCf^^) l > 0, los a utova lores de la
matriz de información lx(^'^,). Sean Mx^j`^,) _ ^^ lx(f„) ^^ Y D,^ii^1) _ ^ I+lx^Í^^^) ^"k
- 1 donde I es la matriz unidad y ^^ B (^ Y ^ B ^ denotan la norma euclídea y
el determinante de la matriz B respectivamente, es decir:
Mx tf r^ ) ^ { ^ ^ 2 [ /x ( f ^^ ) ] } ^ i2 y px ^r r^ ) _ .I-I { 1 +^^; [ IXC^ r1) ] } ^ ik
^,^
;_^
1
TEOREMA 2.1
Sea lx(f^^,) una matriz de información convexa sobre F. Entonces Mx(f^^,) es
una función convexa sobre F.
DEMOSTRA CION
Por ser lx(f'f^) una matriz convexa, tenemos que:
0 ^ a< 1
/x[ a.Í^ r^+(1 - a19'r^ l < a/x(.1^^^) +(1-a)/X(9'^^)
4^^
ESTA[)ISTIC"4 ESP,Ay(^LA
para cualesquiera .r,,,g„^ F y todo f) E E^. Dado que estamos en las condiciones del teorema 3, p. 1 17 de Bellman ( 1970) se verifica que:
^; { jx[ af Q+(1 ' a)9^^ } < ^., { alx(.f t,) + (1-a) Ix(g^,) }
i=1, . . ., k
Por ser todos los autovalores ^; {/x[af e+(1-a}g^j }> 0 podemos escribir
É^.?{ a/X( f ^)+(1 - a) Ix(9©) }
^^.2{ lx[ a1'o+(1 - a)9e^ }< ,=1
^+ 1
de donde resu Ita que
Mx(a.^rt+(1 -^}9r,) ^ Ei a/x( ^ t^}+(1-a}lx(9^1 ^^
< aMx(_J'^,)+(1-a)Mx(gH)
dándose ia última desigualdad de forma inmediata a partir de dos propiedades conocidas de la norma euclídea. Por {o tanto Mx( f^} es una funcián
convexa sobre F.
TE(^REMA 2.2
Sea lX(f ^,) una matriz de información convexa sobre F. Entonces para
cualesquiera f f,, g^, ^ F, todo f^ E© y a > 0 tenemos
r^^ flX[a.Í e+( 1 -a)g^ ] ^ ^ 1 + alx(.rr^) +( 1 -a)/xt9^^} ^
1/k
_
(ii^ aDX ( f ^} + (1-a) DX (g^) < ^ I + alx(f r^) + (1 -a)lXÍg^,) ( ^^k_ 1
DEM^STRA ClO/v
(i). ^a matriz I+lx[af o+(1-a)g^,] es definida positiva. La propiedad es consecuencia de la convexidad de /x(J'^,) tRao, 1973; problema 9, p. 70).
(ii). Dado que a[ I+/x(f f,} ) Y(1- a} [ I+/x(gf,} ^ son dos matrices definidas positivas, podemos escribir ( Rao, 1973; problema 8, p. 70) que
^ I +a/x(f ©) +(1 -a)lx(ga) ^ r^k > ^ a[ I +lx(f ^,) ] ( »k+ ^ (1-a) [ I+/x(g^) ] ^ ^^k
= a; I+lx ( f ^} ^''k+ (1- a} ^ I +lX ( g^,) ^^ rk
= a[©X (f ^,)+1 ]+(1-a) [DX(g^,)+1 ]
aDX (f ^^)+(1- a) DX (9'^,)+ 1
Dl7S FUNCIONES REALES DE l.A MATRIZ DE FISHER:
439
Sean X,, ..., X,,, n observaciones independientes de la variable X y consecuentemente DX^,.,.,x^ (4) _ ^ I+/x^
xn 1H} ^"k - 1
TEOREMA 2.3
Sea /x(B} una matriz de információn con la propiedad de aditividad para
observaciones independientes de la variable X. Entonces DX^
x^ (8) es una
función creciente cóncava de n.
.
DEMOSTRA C/ON
La aditividad de la matriz /x(8} hace que lx^, .., x^ (^) = nlx(41 con lo que
Ox,, . . ., x„ (©) - Ox,. . . ., x^-^ (B) _ ^ I +n/x(©) ^ ^^k_ i ^+(n-1)/x(©) ^ ^^k > 0
dándose la última desigualdad por ser I+(n-1) /x(t^) una matriz definida
positiva e/x(B) definida no negativa (Rao, 1973; problema 9, p. 70).
Para probar la concavidad de la función DX^
aDX,....,x„ (©)+(1-a)^X,,.
xn (B) estableceremos que
.,x^„ (e) < vX^, ..,x^ (e1
con ^ = an + (1-a)m
a [ I I +n/xl e) ^ ^^k_ 1 ] + ( 1-a} [ ^ I+m/x(^) ^ ^^^_1 ] _
_ ( a [ I+n/x(8) ] ^ ^^^ + ^ l 1-a) [ I+m/x(8) ] ^ ^^k _1 <
< Í a [ I +n/x(^) ] + (1 -a) [ I +m/x(^) ] ^r^k-1
_ ^ I +r/x ( 8) ^' ^k-1
Otra vez hemos utilizado la propiedad ^ B+C ^"k > ^ B^"k + ^ C ^'^k para matrices reales, definidas positivas, de orden k.
^
OBSER VA CIDN
La aditividad de la matriz /x(^} implica como una consecuencía inmedíata
la aditividad de la medida Mx(8), es decir:
Mx,, . . , x„ (^) - ^^ /x,, . . , x„ (e) ^) _ ^^ nlx(©) ^^ = nMX(8)
De esta forma Mx^
xn (Q) es una función lineal y, por tanto, cóncava en n;
y es creciente, debido a la no negatividad de la norma euclídea.
E ST.ADISTI( ^ FSF':^^+Ol_:A
^os resultados anteriores se particularizan fácilmente para la matriz de
información de Fisher lX (f1). Si se satisfacen las condiciones de regularidad
de la medida de información de Fisher {Kagan, Linnik y Rao; 1973f la
matriz de Fisher es una matriz convexa {Stam; 1959) y aditiva para Observaciones independientes de la variable X{Fourgeaud y Fuchs; 1972).
PERDIDA DE INFORMACION DEBIDA AL AGRUPAMIENTO DE
O BS E RVAC I O N ES
Sea S2X=lRm. Un agrupamiento g significará una partición -^< x;a < x;^ <
(- ^ ,x. ],
. . . < x,^, < ^ en cada ur o de los ejes i=1, . . ., m. Sea E^o=
;; ,,- ,x..^
^ ,,
^o E -(x.^
^ Y E^r ,...,jm -- E^^r xE2 ^2X . . . X Eml^, f; = O, 1 , . . ., I7;^- 1 .
Sea G el conjunto de todos 1os agrupamientos g de lRm e/9 la medida de
información basada en lx, para la transformación medible g, es decir, si lX
es la medida de información de Fisher, Q c!R
pa ra j= ^ , . . ., /'^i^
^in^-+7-( ^ in; ^
/--E
x--- r^ [
°O
^ 1 o J .i^ X
( ,D) ]2
a©
entonces
/9-
^
J 1, • • •^ ^/1?
[
a
log P(E,^,
) ^2 P{Ei^.
^ ^
^ donde P(E) _ .^E f dµ
Si la medida de información lX es real y verifica la propiedad de información máxima, en particular se verificará que IX> /9 para toda g E G. La
pregunta que se plantea de forma natural es que si bien todo agrupamiento
conl^eva una pérdida de ínformación ^ podemos hacer arbitrariamente pequeña dicha pérdida con una elección adecuada de g E G? De forma más
precisa, dado ^> 0, zexiste una g E G tal que lX E< l9< lX, o lo que es
equivalente ^ up/9=/x?.
Es esta última propiedad la que se conoce como propiedad de pérdida de
información debida al agrupamiento de observaciones. Si la medida de
información /x es una matriz, esta propiedad se generaliza mediante {a
igualdad 9 u p19-1X elemento a elemento.
Vamos a establecer dicha propiedad para las funciones MX y DX. Para
cualquier g ^ G denotaremos Mg(fl) = ^I lg^^^ I) Y©g^O) = ^ ^+/9 ^'j^`-1
[X)S FUNC'IONES REALES DE [..A MATRII [^E F ISF^ER:
441
TEOREMA 3.1
Sea { g„ } una sucesión de agrupamientos e lX(f^) una matriz de información, verificándose que la sucesión de matrices {/gn(f.^) } converge a la matriz
lX(f1) elemento a elemento. Entonces las funciones MX(f^) y DX(f^) satisfacen
la propiedad de pérdida de información debida al agrupamiento, es decir:
(i) supMg (©)=Mx (fl) para todo © E ®^
gEG
(ii) supD ^ (f^)=DX (f^) para todo ^ E ©
gEG
DEMOSTRA CION
Tanto MX(fl) como OX(f)) son funciones continuas de elementos de la
matriz /x(f^). La hipótesis de convergencia de los elementos de l9n(fl) a los
elementos de /X(f1) conduce a
IimMg n (fI)=MX(f1)
(1)
IimO ^n (f^)=DX(f^)
(2)
n --^ ^
n --^ ^
L.a propiedad de información máxima de ia matriz /xl f^) hace que
lX(fl) >/g(fl) para todo f^ E O y todo agrupamiento g E G. EI teorema 3,
p. 1 1 7 de Bellman ( 1970) y la definición no negativa de /g((^) nos da
^.; { lX( f^) } > ^,; { lg ( o^ } ^ o i-1, . . ., k
que implica inmediatamente
MX(fI) > M9 (f^) para todo fI E O y g E G
(3)
DX(f^) > D9(f>) para todo f^ ^ 4 y g^ G
(4)
(i) Por (3) sabemos que
MX(f^) > Mgn(fl) para todo n
entonces, según (1 )
supM^n(fI)=MX(U)
n
44?
ESTA DIST ICA ESPA ^OLA
Dado que g„ E G para todo n, tenemos que
(5}
sÉpM9 (n} > supM^n (fI)=MX(fl}
9
Otra vez la propiedad ( 3) implica que
Mg (Q} < MX1d) para todo g E^
por consiguiente
l61
supMg(fl> < MX(H)
9
Combinando las relaciones ( 5} y(6} obtenernos el resultado.
(ii^ Por ( 4) sabemos que
DX(H} > D^n(f^) para todo n
entonces, según la propiedad (2) tenemos que
supD9n(fl)=DX(f^)
n
la demostración se concluye con un argumento similar al utilizado en (i)
Los resultados de esta sección son válidos para la matriz de información
de Fisher exigiendo junto a las condiciones de regularidad usuales las dos
adicionales siguientes:
(A)
(B)
l i m Ffx, ^) [
a
I og F(x, f^}
a
I i m [ 1 -F(x, f1) ] { ---X-^+^
aa,
a
Iog F(x, f^} ]= 0
log [ 1 -F(x, f^} ]
a
af^s
log [ ^1 -F(x, 4} ] } = 0
r,s=1,...,k
siendo F(x, d)=P,^(X < x).
Bajo estas condiciones de regularidad, Ferentinos y Papaioannou
(1979) prueban que la sucesión de matrices { l ^ n(f^) } converge a/X (f^)
elemento a elemento, donde { g^ } es una sucesión de agrupamientos
tales que 9„+, es más fino que g^„ para todo n.
DOS Fl.; NCIC:)NES REALES DE LA, MATRII UE FISMER:
443
REFERENCIAS
BELLMAN, R. (1970). /ntroduccíón to Matrix Analysis. McGraw-Hill. New
York.
FERENTINOS, K. y PAPAIOANNOU, T .
(1979). Loss of information due to group i n gs, i n Transactions of the 8th Prague Conference on /nformation Theory,
Statistical Decisíon Functions and Random Processes, 19 7 8, C, 8 7-9 4.
FERENTINOS, K. y PAPAIOANNOU, T. ^ 1 9$1 ). New p8rametric measures of
information. lnforrnation and Contro% 51, 193-208.
FERENTINOS, K. y PAPAIOANNOU, T .
(1983) . Convexity of ineasures of infor-
mation and loss of information due to grouping of observations. Journa/
of Combinatorics, lnformation & System Sciences, Vol. 8, 4, 2$6-294.
FOURGEAUD, C. y FUCHS, A. (1972). Statistique. Dunod.
KALE, K. (1964). A note on the loss of information due to grouping of
observations. Biometrika, 51, 495-497.
KAGAN, A. M., LINNIK, Y. V. y RAO, C. R. (1973). Characterization Problems in
Mathematical Statistics. Wiley. New York.
PAPAIOANNOU, T. y KEMPTHORNE, O .
(1 971 ): On StatistiCa/ /nformatio^n Theory
and Related Measures of /nformatíon. Aerospace Research Laboratories
Report, AR L71-0059, Wright-Patterson A.F.B., Ohio.
R Ao, C. R.(19 7 3). Linear Statis tical /nference and lts A pplications. W i l ey.
New York.
STAM, A. (1959). Some mathematical properties of quantities of information. Ph. D. Thesis. Delft Univ. of Technology, Delft, the Netherlands.
TURRERO, A. (1989): Nuevas medidas de información paramétricas reales
basadas en la matriz de Fisher. Trabajos de Estadística, aparecerá en
Vol. 4, 1.
4^4
F.sT^:^nisric^> E-s^;^^c^i..^
SUMMARY
Tw0 REAL-VALUED FUNCTIONS OF FISHER'S MATRIX:
CONVEXITY AND LOSS OF INFORMATION DUE TO
GROUPING OF OBSERVATIONS
Two real-valued functions of any information matrix and as a
particular case of Fisher's information matrix are presented. We
study the behaviour of these functions with respect to two
important properties of ineasures of information: convexity and
loss of informatian due to grouping of observations. In the light
of the obtained results, both functions are proposed as univariate parametric measures of information in the multiparameter
case.
Key words: Parametric measures of information, Fisher's information matrix, Convexity, Grouped observations.
A MS 1980. Subject classifica tion: 6 2 B 10, 6 5 B 1 5, 6 5 F 3 5.
Descargar