ESTADISTICA ESPAÑOLA Núm. 95, 1982, págs. 103 a 112 Informac ión de Shannon , ganancia de energ ía informac ional y sufici encia » por M.' PILAR GARCIA-CARRASCO APONTE Dpto. de Estadística e Investigacibn (Jperativa Facultad de Matem^ticss Universidad Complutense da Madrid RESUMEN A partir de un experimento concreto, se plantea el comportamiento de la medida de información de Shannan y de la ganancía de energía informacional al agrupar ciertos resultados. E1 primer tearema dernuestra que ambas medidas se comportan de1 modo deseado. Posteriorrnente, se plantea el comporcamiento de estas medidas con variables aleatorias discretas al tomar un estadístico. E1 segundo teorema demuestra que ambas medidas son menores para el estadístico que para la muestra, dándose la igualdad sólo en el caso de suficiencia. Palu6rus cluve: lnformación de Shannon, ganancia de energía informacional, entropía, energía informacional, estadístico suficiente. INTRCJDUCCION Las propiedades que se van a estudiar en este trabajo surgieron al considerar el siguiente experimento: En una bolsa se tienen tres bolas blancas y una negra. Se toman al azar dos de ellas y se intrbducen en una urna. A continuación se extraen de la urna dos bolas con remplazamiento: ^Qué información da sobre la composición de la urna el experimento consistente en sacar las dos bolas`? ^,Cuál es la ganancía de energía lU4 ESTADISTICA ESPAÑULA infurmacional suhre la cc^mpc^sición de la urna pc^r el conc^cimiento de1 experi mentc^ cc^n5istente en ^;acar dos huias`' A1 hacernos esta.5 pregunta.^ se nos plantea el siguiente problema: Sea Y el campo de composicián de la urna de resuldo 3b = B^ y Zh. 1n = B2; ^da igual considerar X, campo del ex^rimento con resultados 2b = A,, 2n = A2, bn = A^ y nb = A4, que X' con resultados 2b = A'^, 2n = A'2, b y n = A',? Parece intuitivo en este caso, que la informacián del orden en el que han salido las b y n no aporta nada nuevo sobre Y, pero, úcámo se comportan estas medidas en gener•al`? Esto nos lleva a plantearnas el teorema l. ti✓ iendo el desarrollo y resultado de este teorema, nos preguntamos si de un modo análogo la desigualdad funcionar^ para estadisticos de una muestra con caracterizació ^ n de igualdad en el caso de suficiencia. Esto nos lleva al teorema 2. DEFINICIONES Y RESULTADOS PREVIOS • Sean X e Y dc^s variables aleaturias discretas que toman val^res x,, ..., xn e y^, ..., ym, respectivamente, con probabilidades conjuntas p(x^, y1), i= 1, ..., n, j= 1, ..., m . Se defi nen : Las entropias de Shannon: H(Y) -- - ,^, p(y^) logz P(y^) ^;=1 H(Y/X) _ -- ^ p(x^) ^ p(y^/x^) log2 P(y;/x,) ^^ La informacián de Shannon: I(X, Y} = H(Y) - H(Y/X). Las energías informalinales E(Y) _ ^ p(y^)2; E(Y/X) _ ^^^ ^ p(x^) ^ p(y /x )2. ^ ^ ,al i^i La ganancia de energia informacional sobre Y por e1 conocimiento de X: G(Y, X) _ = E(Y/X) -- E(Y}. • Se dice que la funcián f: S-# R can S C R" es estrictamente convexa si f{^.x, + (1 - ^,)x2) < ^,.l^( ,) + (l ^- ^).f^( 2) dx , 2 E S tal que x, ^ x2 y b+^., tal que 0< 1^ < 1. lNFURMACI{)N DE SHANNiCIN, GANANCIA DE ENERGIA INI~CJRMAClUNAL Y SUF[C[ENC1A lOS ^ Lema de Gibbs: Dadc^s dc^s sistemas de números p, ...., p" y q^, ..., c^n nc^ negativos y tales que i= i se verifica: ^ log2 pi S -- ^ pi log^ 4; con igualdad si y sólo si p^ = q^; tJ^ = 1, ..., n. ^ Desigua^dad de Jensen: Sea f{x) una función convexa definida en R", y sea X una ^ ^ variable,aleatoria n-dirnensi onal que posee vector de med das EX = µ. Entonces, f( E X) < E f( X). Además, si f es estrictamente convexa y P{X ^ µ }> 0, la desigualdad es _ estricta. ^ ^ Z^ es una función estrictamente convexa. j^ I Lema. f ( Z, , Demostra ción z _ ^z ,f ^C^ Y + ( ^ -- ^, > Z ) = ^ ( ^. Y^ . + (1 -- a^ ) Zl Y^ + + (1 - ^. )2 ^ Z^ + 2a. (1 - ^, ) ^ Y i Z j 1_ -^^ --^^ ^,f(Y) + { 1 -- ^)f (Z} ; ^ Y^ + ( ^ - ^ ) ,^ jaI •^^ •^ ^a / ^1 --•^ ^^ ^f(Y^ + c ^ - ^^f(z^ - f(^.Y + ( ^ - ^^z) _ (^. - ^.2^ Y^ + (^ -- ^, 2 ) -- 2?^ (1 - ^. ) ^ Y Z = ^. (1 - ^. ) ^ ( Y 2 + ZZ - ^Y ^Z ) _ ^ j= 1 ^ ^ ^ j= ! )^(Y^-Zj)z> 0 --^^ --. _._. --^ dY, Z con Y^ Z y t^. con 0^^. ^ ^ 106 EST,ADl5T1CA ESPAÑOLA TEOREMA Sean dos campos X e Y de resultados aleatorios A,, ..., A„ y B,, ..., B,^ respectivarnente. Sea X' e1 nuevo campo de resultados A,, ..., A„_z, A,^_, U A,,. Se verifica: a) H(Y/X} 5 H(Y/X') con igualdad si y sálo si p(B^/A„_,) = p(B^/A,^) bj = l, ..., m. h) E(Yf X) ^ E(Y/X') con iguaidad si y sálo si p(B^/A„_, )= p{B^/ A„) bj- 1,...,m. Demostracián a) di = 1, ..., n por el lema de Gibbs p(B^/Ai) log^ p(B^1 A;) S- p(B^/Ai) lo$ZP(Bf/A^;^ 1= con igualdad si y sólo si p(B^/A^) = p(B^/A'^); dj = 1, ..., m. dvnde A'; - A;; di - l, .,., n-- 2 A^n- ^= A^ = A^- t^..^ An multiplicando los dos miembros de la desigualdad por p(A;) y sumando en i: p(A;)P(B^/A;) log^ p(B^/Ai )^ - L^ p(Ai)p(BilAi) log2 p(B^/A;) i= con igualdad si y sólo si p(B^/A ^) = p(B^/Ar}; bj = 1, ..., m; di = 1, ..., n. E1 primer miembro de la desigualdad es, por la definición, H(Y/X), y el segundo miembro es: p(A^, B^) log2P(B^/A^) -^ p(An_,, B;} logz l'(B;/A„-^ l..) A„} i=1 j= 1 j= P(An, B^) log2p(B^/A»_^ ^ AnÍ = -^^, p(Ai' gi) logz P(Bi/Ai) i = I j= p(A^-^ U A,,, B^) log2 p(B^/An-t U Art) = H(Y/X') INFORMACION DE SHANNON, GANANCIA DE ENERGIA INFORMACIONAL Y SUFICIENC[A lU% Y por la definición de A; se da la iguadad si y sólo si p(B,;/A A-1) - p`B^/AA } - p(BjIAA-^ U AA) d-I = I• Luego H(^/X) S H{YIX') con igualdad si y sólo si dj - 1, ..., m p(B^/AA_,) = p{B^IAA) - p{B fIAA-^ U AA) Observación: esta condició^ es equivalente a p((3.,;- A„_,) = p (Bv /A^ ) bj = 1, ... , m. b) Queremos probar que n n^ A- Z ,r^ o^ o rA ^ ^ p(Bj/Ai)2p(Ai) ^ ^ ^ p(B,j/Ar)^p(A^) -^` ^ p(Bj/Ah-I ^ i=1 j=^ !_^ j^^ j^ ^ An)Zp^An-1 ^.,i dj = 1, con igualdad si y sólo si p(B^/ An_, )= p( B^I A„ ) esto es equivalente a probar ni rr^ (1) ^ [p(B.IAn_^)2P(An-^j + p(B^/An}2p(An}) ? ^ P(Bl/An-1 U Art)^p(An-1 U An) !a^ 1^ J con igualdad si y sólo si p(B^1 An_, )= p (B^/ An) dj = 1, --^ Definimus la v. a. m-dimensional Z del siguiente modo P(Z^ = P(B^/An-^), "Lz = p(B2IAn-^), ..., Zm = p(Bnr/An_^}^ _ P(Z, = p(B,/An p(An-y ^ P(An-^ ) + p(An} p( An) = p{B 2/ A^), ... , Zm = p( Bm/ An}) _ p(An-^} ^` p(An) y detine la función m ,f ( L, , . . . , Z„^ ) _ ^ ^.1 j= I que es estrictamente convexa; aplicanda la desigualdad de Jensen tenemos p (B ^.I A n-1 )2 con probabilidad ---^ p(An-^) p(An_^) + p(A,^) frz^ _ p(B J•/AA)Z con probabilidad p(A"^ p(A ,) + P(A ) A^ ^o^ ESTADISTICA ESPAÑULA o si ambas suma^+ coincidieran tomaría ese únicu valc^r como probabilidad uno; en ambos casos E(f(Z)) = ^ ^ p t8 ^/ A n-^ )2 j=1 ^ E(Z^) = P;B^,I A^-^) p ( A„ a + ^ p^ {B . /A ^ )^ j=I ptA^-^} + p(A^} p{A"-^) p(A^-t) + p(A^) P(A,.-^) P{A^-,) ^` P(^^ ,.) P(A^_^) + PtA^) _ p{B.^, A^-c U AK) = P(Bj/A.^P'(A^- ^ U A,.) ^ f( E(Z)) _ p(A„) + p(B^/A,^} t,,^ A R> dj = 1, p(B,;/A^-, U A,^1, por tanto p(BflAn-^ ^ A^}2P{AM-^ ^ A^>s ^, CP(B^/A„-^)2p(A^-t) + p(Bf/AM)2p(An) .q.d. ^= i -.. Además P(Z ^ cte) > 0^^ la desigualdad es estricta; o lo que es análogo, si se da la ^ igualdad ^ F(Z = cte} = 1. Luego, si se da la igualdad ^ p(B j/ -^) = P(8^/A,^}. dj -- 1, Por otro lado, si p(B^/A^-,) = P(Hj/ A.^) ^ ^ p(B•/A,.-^ lJ A) _ f R p(A^-i l.% A^ ,^, B.i) _ P{A.^-i• Bj) + P(A,,, B^) ^(A^--^} + p(An^ p(An-1) ^` p(A^} _ P(^,;/ A^_, )^(P (A^-^ ) + p(A^}) _ p( B f / AR- i) p(An_^) + p(A,^) y se da la igualdad en (1). En resumen, E( Y/ X) ? E(Y / X' ) con igualdad si y solo si p(B f/ A„-1) - p(B^/A,^) dj = 1, ..., m ^orolario En las hipótesis del teorema l se verifica: a) I(X, Y) z I(X', Y; con igualdad si y sólo si p(B j/A,^_,) = p(B^/A,^} dj -- 1, . . . , m . - 1NFORMACI4N DE SHANNON. GANANCIA DE ENERGIA INFORMACIONAL Y SUFECIENCIA tO9 b) G(Y, X) z G(Y, X') con igualdad si y sálo si p(B^/A^_,} = p(B;/A„ dj = 1,..., m. TEOREMA 2 Sean X e Y dos v.a. discretas q ue toman valores X, ,... ,?^C,^ e Y,, .. ., Y^, respectivamente. Consideramos una m.a.s. X^"^ de tarnaño n de X. Se verifica que para todo estadístico T = T(X^^): a) H(Y/X^"^) S H(Y/T} con igualdad si y sólo si T es suficiente para Y. h) E(Y/X^>) z E(Y/T) eon igualdad si y sólo si T es su^iciente para Y. Demostración Denotamos por t,, ... , t^los posibles valores que toma el estadístico T. T produce una partición en el espacio de X^^ de modo que podemos denotar los r^+ puntos muestrales por , ..., Xkt, ..., XkQk, .... X^ , .. ^ '' Xl91 dande cada X,r,, es un vector n-dimensional cuya imagen por la transformacián T es tk; ade má s _ a) t/k = l, ..., ! y t/^^ = 1, ..., qk, aplicamos e1 lema de Gibbs p(Y1/X^,) logi P(Y^/Xk^) S -- ^ p(Y^/Xkv> log2 p(Y ./tk} ^ ^i a con igualdad si y sólo si p (Y^/Xk,,) = P(Y^/tk) t/j = l, ..., m. multiplicando por p{Xk,,) y sumando en I^ y V: P(Xkv) ' p(Y^/Xk^) log^ p(Y^/Xk^) k.v j ^ -^p(Y^, XkY) logzPEY^/tk) k, v j con igualdad si y sálo si p(YjIXk^) = p(Y^/t,^): dk = l, ..., !, t/v = 1, ..., qk, t/j = 1, lÍ0 ESTADISTICA ESPAÑOLA el pri mer miembro es H( Yf X^"^), el segundo miembro es Qk og2 p(Y^It,^) p(Y^, tk) log2 P(Y^/tk) = H{Y/T) ^ p(Yj. k^i ^^.i ^_^ luega H(YIX^^) S H{Y/T) con igualdad si y sólo si T es suficiente para Y. h) Definimos para cada k= 1, ..., t una v.a. m-dimensianal con qk valares p+osibles, del siguiente rnodo: P^Zk = P(Y,IXk,), Z2 = p{Y2/Xk^), ..., Z^, = p(Y^/Xk,)) X ^ p( k>> p(tk) • • • a • • • • • • • • • • • k P^ Z;` = P( Y, / Xk4._ )• L^ = p{Y2/XkQk , ..., 7^ = p(Ym/XkQk)) p(XkqkÍ p(tk) de^nimos por cada k la función m f ^k) = .f(Z^, . .., Z^) L:. ( Zk}2 f=^ y tenemos que para cada k: _k E(.f(Zk)) = ^ m P(Y 1^ l p ^/X )2 (Xk^^) kv P(tk) v=1 k=1 Qk E{Zk) _ ^ ,,) • p{X k^ ) ' p(Y./X ^ k ^ , p(Y `'' tk) p(tk) p(tk) v^ = p(Y.lt ) .J k ^ E(Zk)^ _ ^ p (Y j tk ^2 ^ =^ ^ aplicando !a desigualdad de Jensen t/k = 1, ..., l, tenemos: Qk m ^Xkt,)^P(Xk ^.) ? p(tk L.^ L. p^Y V= ^ J^ 1 P(Y1/tk)2 la -.-^ y si se da la igualdad ^ P(Zk = cte.) = 1, pc>r lo tanto: P ( Y^/ X^-i ) - . . . - = p (Y^/X kqk ) - µ^k, p PtY.;/Xkv) = P(Y.i/tk), dj = l . . . m dj = 1... m INFORMACIt:)N DE SHANNtJN. GANANCiA DE ENERGIA INF4RMAC1(3NAL Y SUFICIENC'IA 111 en efecto: G trivial Qk ^ p(Y^/tk) _ pcY ^ .tk) ^i ptYj^Xk ^ ,) • pcX^, µ jkpilki p(tk) p{ tk) - p(tk^ = N;k = p( Y1/X Su mando ahora en k: l Qk ^ m 1 m ^ p(rk)P(Yj/tk)^ = E(Y/T} E(Y/X^ ^) _ ^ ^ ^ ptYl/Xk^.)2p(Xkf,l > k^l j^l k=I L^^1 j^l Y si se da la igualdad ^ p (Y;/Xk^,) = p(Y^lt,^), b+j, dk, t^^^ además, si p(Y^/Xkt^) = p(Y;ltk), tlj = 1, ..., rn, dk - 1, ..., 1, tl^^ - 1, es tri vial que se da la iguaidad . Luego E(Y/ X^"^) >_ E(Y / T) cun igualdad si y sólo si p(Y^/Xkti,) = p(Yfltk), ^!j = 1, ..., m, dk = 1, ..., 1, dt^ _ es decir, son igualdad si y sólo si T es suficiente. Cc^rolWrio En las hipótesis del teorema 2 se verifica: a) I(X^" ^, Y} >_ I(T, Y), con igualdad, si y solo si T es suficiente para Y. b) G(Y, X^"^) > G(Y, T) con igualdad, si y scílo si T es suficiente para Y. BI BLIOGRAFI A AsH, R. B.: «Information Theory». Interscience. J. Wiley, 1965. G^L, P.: «Teoría matemática de la información». Ediciones I^E, 19^1. DE GROOT, M. H.: «O^timal statistical decisions». McGraw-Hill, 1970. GulASU, S., y THEODORE9CU, R.: «I^,a théorie mathématiyue de 1'informatiun». Dunod, 19b8. ESTADISTICA ESPAÑULA 112 ONic^sc'v. O.: u Energie inf'ormationelle». C. R. Aca^i. Sci. Parí^. Ser. A., 2b3, Nr41-842, 19b^b. TNEOtx^ttESCU. A.: N Energie informati<^nelle et nc^tions apparentees ^>. Trahajc^s de Estadística y de In ^iesriRacion Operativa . Vol. XX V t[ l, I R3-206. 1977 . SUMMARY Fron a concrete experirt^ent, the behaviour of the Shannon's information measure is herein stated as well as the informational energy gain when certain results are grouped . The first theorem praves that both measures behave as expected. After that, the behaviour of these measures with The second discrete random variables is stated when a statistic is taken. thec^rem proves that both measures are smaller for the statistic than for the sample; the equality appears only in the case of sufficiency. Key wards: Shannon's I nformation, [nformational Energy Gain, Entropy, [nformationa] Energy, Sufficient Statistic. AMS. 1970. Subject classification: b2B 10.