Capítulo 2 PROPIEDADES EXTREMALES DE LAS FUNCIONES DE DISTRIBUCIÓN DEL EQUILIBRIO ESTADÍSTICO 2.1 Información faltante: eventos equiprobables Cuando decimos que las variables del mundo microscópico son aleatorias, estamos admitiendo que tenemos sólo una mínima cantidad de información sobre las mismas. Enfrentados a un cierto número de posibilidades, tener información es la diferencia entre saber y no saber cual puede ocurrir. Consideremos un ejemplo: tenemos n cajas semejantes y en una hay un objeto escondido, pero no sabemos en cual. Hay un conjunto completo de n posibilidades, puesto que sabemos con seguridad que el objeto está en una caja. Al mismo tiempo estas posibilidades son excluyentes, porque el objeto no puede estar en más de una caja a la vez. Además, las n posibilidades son todas ellas igualmente posibles: no tenemos ningún conocimiento previo que permita establecer una preferencia entre las cajas. La imposibilidad de decidir entre estas n opciones se debe a nuestra falta de información. Para cuantificar este concepto, definimos la información faltante, S , que debe ser una función del número de opciones del sistema S = S (n ) ; (2.1) sujeta a esta condición, que parece muy natural, S (m ) > S (n ) ; si m > n ; (2.2) y asimismo S (1 ) = 0 ; (2.3) puesto que entonces sabemos con seguridad de que el objeto está en la única caja del sistema. Un elemento crucial de esta cuantificación de la información reside en la posibilidad de combinar la información de subsistemas. Supongamos que se puede dividir un sistema en subsistemas independientes. Digamos, un sistema de 2 n objetos dividido en dos subsistemas, con n objetos en cada subsistema. La cuestión es ¿Cual es la relación entre la información faltante del sistema total, S (2 n ), con la información faltante acerca del subsistema que contiene el objeto S (2 ) y la información faltante de cada subsistema, S (n )? Veamos un ejemplo con 4 cajas: primero consideramos la información faltante entre dos subconjuntos, es decir, en la elección de uno de ellos y luego examinamos las opciones dentro del subconjunto elegido: S (2 £ 2 ) = S (4 ) = S (2 ) + S (2 ): Información faltante: eventos equiprobables 23 Al escribir esta expresión estamos suponiendo que en cada paso (o elección) tenemos la misma carencia de información. Podemos generalizar este concepto mediante la fórmula S (m £ n ) = S (m ) + S (n ); (2.4) que es compatible con el caso particular S (1 £ n ) = S (1 ) + S (n ). Resumiendo: el concepto de información faltante se caracteriza por las reglas definidas por las Ecs.2.2, 2.3 y 2.4. Es muy conveniente extender la definición de S , desde los enteros positivos a todos los números racionales tales que x ¸ 1 , imponiendo a S (x ) las reglas básicas precedentes S (x ) > S (1 ) = S (x y ) = S (y ) ; si x > y ; 0; S (x ) + S (y ) (2.5) (2.6) (2.7) y pidiendo, además, que S (x ) sea contínua para x ¸ 1 . Estas propiedades determinan unívocamente la función S (x ). La demostración es como sigue. Sea x tal que ln (x ) = mn donde m ;n son enteros positivos, entonces x = ex p ( mn ), o sea, x n = e m . Por lo tanto, podemos escribir S (x n ) ´ S (e m ). Luego notamos que S (x n ) = S (x ) + S (x n ¡1 ) y repitiendo esta operación n veces resulta S (x n ) = n S (x ). Operando del mismo modo, se obtiene S (e m ) = m S (e) y por lo tanto n S (x ) = m S (e). De esta ecuación, finalmente, resulta S (x ) = m S (e) = S (e) ln (x ) ´ e k ln (x ); n (2.8) donde hemos definido e k ´ S (e), un número positivo que determina la unidad de información. Hemos obtenido S (x ) para valores de x tales que x = ex p ( mn ), pero estos valores son densos en los números reales positivos y, por lo tanto, son suficientes para determinar S (x ) en la semirecta x ¸ 1 . Volvamos por un momento al problema de n opciones. Antes de examinar las cajas en las cuales se oculta un objeto, no tenemos información. Por lo tanto, anotaremos I = 0 (I : por información) mientras que la información faltante vale S (n ) = e k ln (n ). Quiere decir que después de observar y encontrar donde estaba el objeto, hemos ganado una cantidad de información: I = e k ln (n ): (2.9) Consideremos otro ejemplo, una página llena de símbolos generados por una impresora con 75 caracteres distintos. Sea N el número de signos impresos que caben en una página. El número de todas las posibles páginas distintas que se pueden imprimir es 7 5 N . La información faltante, antes de examinar la página impresa, es S = N e k ln (7 5 ), de modo que la información, por cada espacio impreso, que se puede obtener mediante la observación, vale I = S =N = e k ln (7 5 ). Esta cantidad se torna más relevante, cuando agregamos otros conocimientos, por ejemplo, la frecuencia con que aparecen las distintas letras en un determinado Eventos con distinta probabilidad 24 idioma. Hasta aquí hemos supuesto que los 75 símbolos tienen la misma posibilidad de ocurrir, como si la impresión fuera al azar. Pero esto no es cierto cuando sabemos que se trata de un texto con significado. Los lectores del Escarabajo de Oro, el célebre cuento de E.A. Poe recordarán que la letra e, en inglés, aparece con la frecuencia del 10.5 %, mientras que la letra k sólo con la frecuencia 0.3%, etc.. En las ciencias de las comunicaciones y de la computación, se emplea la teoría de la información, la cual estudia, entre otros, el problema del modo más eficiente de comunicación. ¿Como se puede poner el máximo de información en los N espacios disponibles en una página? 2.2 Eventos con distinta probabilidad Es necesario, entonces, generalizar la definición de información ya introducida, para incluir situaciones donde las opciones se presentan con probabilidades variables. Consideremos el caso de una elección o de una decisión, que debe ser tomada entre n distintas posibilidades o entre las n posibles configuraciones o estados de un sistema. Las configuraciones se distinguirán por una etiqueta o índice, que varía de 1 hasta n . Supongamos que tenemos la información de que la probabilidad de encontrar el sistema en la configuración i es P i. Naturalmente, por las propiedades de las probaPn P i = 1 . Al realizar una bilidades, P i ¸ 0 , para i = 1 ;:::;n , las cuales suman 1 , i= 1 observación obtenemos una muestra del sistema, o sea, encontramos una de sus n posibles configuraciones. No podemos hacer afirmaciones seguras sobre el resultado de una sóla prueba. Pero podemos construir un ensemble, con N sistemas semejantes, cuyos miembros llevarán otro índice variable de 1 ;:::;N . El ensemble representa el equivalente de N pruebas u observaciones repetidas. Si N es un número muy grande, entonces sabemos con gran precisión, que N i = P iN miembros del ensemble se encontrarán en la configuración i-esima (concepto frecuentístico de la probabilidad). De esta argumentación concluímos que a priori conocemos el conjunto de números Pn Pn N i= N P i = N . Lo que no sabemos (N 1 ;:::;N i;:::;N n ) que suman N , es decir, i= 1 i= 1 cual es la secuencia particular con la cual aparecen los miembros del ensemble (o sea, las posibles configuraciones del sistema) en un conjunto de N observaciones o pruebas repetidas. Veamos un ejemplo sencillo para ilustrar esta cuestión. Tiramos una moneda 6 veces y sabemos que hemos obtenido 3 caras (¡ ) y 3 cruces (+ ). Esto puede suceder de muchas maneras distintas ¡ ¡ ¡ ¡ ¡ + ¡ ¡ + ¡ ¡ + etc:; + ¡ + + + + ¡ + + + + ¡ + ¡ ¡ + ¡ ¡ + ¡ ¡ + ¡ + etc:; ¡ + + + + ¡ + ¡ + + ¡ ¡ Podemos calcular el número de todas las posibles secuencias que aparecen en estas pruebas repetidas, si respondemos a la cuestión más general: sean N objetos que se dividen en n grupos (N 1 en el subgrupo 1 , N 2 en el subgrupo 2 , ...y así siguiendo) de Eventos con distinta probabilidad tal modo que Pn N i 25 = N ¿Cuantos ordenamientos distintos son posibles? Tenemos i= 1 N 1 miembros equivalentes en el subgrupo 1 , si permutamos todos los resultados que dan la configuración 1 en la secuencia elegida, obviamente la secuencia no se modifica. Hay, pues, N 1 ! ordenamientos que son equivalentes. Tenemos que dividir N ! por N 1 !, para contar las secuencias que son distintas y lo mismo dígase para N 2 ;:::;N n . O sea, el número total de secuencias distintas, cuando hay elementos repetidos en los subgrupos, vale N ! M = : (2.10) N 1 !;N 2 !;:::;N n ! En el ejemplo de 6 tiradas a cara o cruz, resulta M = 6 != (3 ! £ 3 !) = 2 0 . Volvamos al problema original. Tenemos un ensemble con N miembros, en el cual cada sistema puede aparecer (en una observación) de n formas distintas (n estados). Sabemos que P i es la probabilidad de obtener la configuración i para cualquier miembro del ensemble. Si realizamos una observación del ensemble, o sea obtenemos una muestra de todos los miembro del mismo, sabemos con buena aproximación que vamos a encontrar N i = N P i para cada configuración i. Lo que ignoramos, es a cual de las M posibles secuencias corresponderá la observación particular realizada. Pero estas secuencias, son todas igualmente probables. Por lo tanto, el resultado de una observación corresponde a una elección entre M resultados posibles, todos igualmente probables, y ahora podemos recurrir a la precedente definición de la información faltante. En virtud de esta argumentación podemos escribir ¶ µ N ! e e S N = k ln (M ) = k ln ; (2.11) N 1 !;N 2 !;:::;N n ! para la información faltante del ensemble completo. En el límite de N información para cada sistema es # " Xn e 1 k S = lim N i! : S N = lim ln (N !) ¡ N !1 N N !1 N i= 1 À 1 la (2.12) Empleando la fórmula de Stirling ln (N !) = N ln (N ) ¡ N ¡ 1 1 ln (2 ¼ N ) + O ( ); 2 N (2.13) y recordando que N i = N P i resulta Xn e S = ¡k P i ln P i (2.14) i= 1 (puesto que ln (N )=N ! 0 , cuando N ! 1 ). Esta fórmula extiende la fórmula de la información Ec. 2.9 al caso de probabilidades distintas para cada configuración. En efecto, cuando las opciones son equiprobables, P i = 1 = n ; i = 1 ;2 ;:::;n , resulta S (n ) = k ln (n ), como debe ser. Cuando, en cambio, sabemos con certeza que el sistema está en la configuración j, entonces Entropía de información 26 P j = 1 , mientras que P i = 0 cuando i 6= j y resulta S = 0 . tante, no hay aleatoriedad en este caso. Veamos un ejemplo de aplicación de estos conceptos. Hay sólo una probabilidad independiente. Evidentemente, S cuando P i = 1 y P j = 0 si i 6= j. ¿Cuando es máxima S ? información faltante? En este caso No hay información falSea n = 2 , P 1 + P 2 = 1 . es mínima, e igual cero, ¿Cuando es máxima la S = ¡e k [P 1 ln (P 1 ) + (1 ¡ P 1 ) ln ((1 ¡ P 1 ))] = S (P 1 ) (2.15) @S P1 = ¡e k ln ( ) = 0: @P1 1¡ P1 (2.16) y para calcular el máximo ponemos la derivada primera igual a cero Obtenemos P 1 = P 2 = 12 , se trata del caso de equiprobabilidad, en el cual la aleatoriedad es completa. Es fácil comprobar que se trata de un máximo ¶ µ 1 @ 2S 1 < 0: (2.17) = ¡e k + @ P 12 P1 1¡ P1 El máximo vale = e k ln (2 ); (2.18) e k ln (2 ) ¸ S ¸ 0 : (2.19) Sm ax y la información faltante está acotada entre Pero, si examinamos las variantes del caso n = 2 , por ejemplo, P 1 = obtenemos 2 k £ 0 :6 3 6 5 < e k ln (2 ) = e k £ 0 :6 9 3 1 ; S = e k (ln (3 ) ¡ ln (2 )) = e 3 1 3 y P2 = 2 , 3 (2.20) es decir, el grado de aleatoriedad es menor que el máximo, e k ln (2 ), hay menos información faltante. 2.3 Entropía de información La entropía de la teoría de la información se parece a la entropía física de la mecánica estadística. En verdad, los conceptos de la mecánica estadística preceden en más de 50 años a los de la teoría de la información y fueron desarrollados principalmente por Boltzmann y por Gibbs. La teoría de la información iniciada por Shannon (ca, 1950) se inspiró en la mecánica estadística y no viceversa. De modo que la noción de origen físico prima sobre el desarrollo matemático posterior. Sea p k una distribución discreta de probabilidad para n eventos o modos de configuración, posibles. Definimos la entropía de información como X p k ln (p k ); (2.21) S = ¡e k k Entropía de información 27 de acuerdo con la noción de información faltante discutida en la sección precedente. Podemos observar que coincide con el resultado derivado para la entropía de la mecánica estadística del capítulo 2, I parte, excepto por una constante multiplicativa. Para mantener una notación uniforme pondremos e k = k (la constante de Boltzmann). Resumiendo lo dicho hasta aquí: (a) S = 0 si cualquiera de los p k = 1 (p i = 0 ;i 6= k ) entonces hay certeza de la configuración o del estado; (b) S ! S m a x , cuando todos los p k = 1 = n son iguales (equiprobabilidad). En este caso tenemos la máxima incerteza o falta de información; (c) S es aditiva cuandoPse agrupan eventos P independientes de tal modo que p ik = u iv k , donde k u k = 1 y k v k = 1 (es decir, u i y v k son probabilidades de eventos independientes) porque entonces X X X p ik ln (p ik ) = ¡ k u i ln (u i) ¡ e k v k ln (v k ) = S u + S v : (2.22) S = ¡k i;k i k Si la distribución de probabilidad es contínua, con variable x y densidad de probabilidad f (x ), tal que Z f (x )d x = 1 ; (2.23) definimos la entropía de la información como Z S = ¡k f (x ) ln (f (x ))d x : (2.24) También aquí se puede probar la aditividad, cuando los eventos u opciones son independientes. Cuando f (x ;y ) = f 1 (x )f 2 (y ); (2.25) entonces ¡ ZZ f ln (f )d x d y = ¡ Z f 1 ln (f 1 )d x ¡ Z f 2 ln (f 2 )d y : (2.26) Dejamos ahora constancia explícita que la entropía de información coincide (salvo por las unidades) con la entropía de Gibbs en espacio de fase Z S = S G = h´ i = ¡ k f ln (f )d ¡ ; (2.27) siendo f = f (p ;q ;t), con la normalización Z f d ¡ = 1; (2.28) donde d ¡ = d p d q =N !h 3 N y la integración es sobre todo el espacio de fase del sistema. Esta normalización, como sabemos, es para sistemas con un número prefijado, N , de partículas. Una desigualdad auxiliar 2.4 28 Una desigualdad auxiliar Cuando se consideran dos funciones de distribución cualesquiera, f (p ;q ;t) y f 0(p ;q ;t), ambas normalizadas sobre el espacio de fase, se puede demostrar una desigualdad muy útil en las aplicaciones de la noción de entropía Z f (2.29) f ln ( 0)d ¡ ¸ 0 ; f la igualdad vale sólo si f = f 0. Naturalmente, esta propiedad vale también cuando se intercambian los roles de f y f 0. Esta desigualdad se obtiene de ln ( f f0 ) ¸ 1 ¡ ; f0 f (2.30) donde el signo igual ocurre sólo si f = f 0. La desigualdad es fácil de comprobar dado que f > 0 y f 0> 0 . En efecto, el lector puede verificar que ' (x ) ´ ln (x ) ¡ 1 + 1 ¸ 0; x (2.31) es siempre positiva y es nula sólo si x = 1 . Una vez confirmada la validez de esta relación, se pone x = f = f 0 y se encuentra la desigualdad propuesta. Finalmente, multiplicando por f e integrando sobre el espacio de fase ¶ Z Z µ f f0 f ln ( 0)d ¡ ¸ f 1¡ d ¡ = 0; (2.32) f f como se quería demostrar. 2.5 Principio variacional de la distribución microcanónica Vamos a demostrar que la distribución microcanónica, entre todas las distribuciones de un sistema aislado con igual número de partículas en el mismo estrato de energía, corresponde al máximo valor de la entropía de Gibbs. La energía de cualquier sistema del ensemble debe ubicarse en el intervalo E 0 · E · E 0 + ¢ E . Sea entonces f la distribución microcanónica y f 0 otra función de distribución cualquiera (es decir, no uniforme) definida en el mismo intervalo de energía y tal que Z Z 0 f d¡ = f d ¡ = 1: (2.33) Sabemos que, en general, vale Z f 0ln ( f0 )d ¡ ¸ 0 : f (2.34) Entonces Z Z Z Z Z 0 0 0 0 ¡ f ln (f )d ¡ · ¡ f ln (f )d ¡ = ¡ ln (f ) f d ¡ = ¡ ln (f ) f d ¡ = f ln (f )d ¡ ; (2.35) Principio variacional de la distribución canónica 29 puesto que f es constante en el estrato de energía. Por lo tanto, la entropía de la distribución microcanónica es mayor que la de cualquier otra función de distribución. Esta propiedad está en concordancia con el postulado básico de la equiprobabilidad de los microestados de un sistema aislado. En la I parte hemos argumentado que la entropía estadística, definida como proporcional al logaritmo del número de estados, tiende a un máximo durante la evolución hacia el equilibrio y ciertamente eso es lo que se necesita para tener concordancia con la termodinámica. La demostración que hemos dado ahora no invoca el principio básico de la equiprobabilidad, pero requiere postular, a priori, una expresión para la entropía. Es posible y así lo prefieren algunos autores, elevar la propiedad variacional recién discutida, a la categoría de principio fundamental de la mecánica estadística. Este enfoque tiene sin duda ventajas, pero hay que aceptar de entrada una definición de entropía, como 2.21 o 2.24 sin conocer su razón de ser. Se puede invocar el auxilio de la teoría de la información para hacer plausible esa definición. Pero, resulta curioso que para establecer los cimientos conceptuales de una teoría física se prefiera recurrir a una formulación matemática, la cual se desarrolló por inspiración de las nociones fundamentales de esa misma teoría física, conquistadas en una etapa muy anterior. El camino que hemos recorrido en estas notas arranca del postulado de la equiprobabilidad de los microestados de un sistema aislado, desarrolla el concepto de entropía esencialmente sobre motivaciones físicas (capítulos 2 y 4, I parte) reconoce luego la relación con el concepto de información faltante como noción complementaria y encuentra, por via independiente, los principios extremales para las distribuciones de equilibrio. Por otra parte, si el lector ya está en posesión, en virtud de estudios previos, del concepto de entropía que la mecánica estadística y la termodinámica nos han legado, entonces partiendo de los principios variacionales puede rápidamente derivar las distribuciones del equilibrio estadístico. Encontrará que su empleo es particularmente cómodo en la estadística cuántica. 2.6 Principio variacional de la distribución canónica La distribución canónica también satisface un principio extremal, bajo condiciones distintas a las del caso microcanónico. El sistema está en contacto con un baño térmico y su energía no está prefijada, pero tiene una energía media que lo caracteriza. Esta es la información adicional que disponemos a priori. La distribución canónica del ensemble es la que maximiza la entropía entre todas las funciones de distribución que poseen la misma energía media Z hH i = H f d¡ ; (2.36) siendo Z f d ¡ = 1: (2.37) Principio variacional de la distribución canónica 30 R Se trata, entonces, de buscar el extremo condicionado de ¡ f ln (f )d ¡ y para ello empleamos los multiplicadores de Lagrange. Sea la funcional de f Z Z Z © (f ) = ¡ f ln (f )d ¡ ¡ ¯ H f d¡ ¡ ¸ f d¡ ; (2.38) para la cual pedimos que Z ¡ ±© = 0; [ln (f ) + ¯ H + ¸ ]± f d ¡ = 0 ; (2.39) para variaciones arbitrarios ± f . Resulta: ln (f ) = ¡ (1 + ¸ ) + ¯ H ; (2.40) f = C ex p (¡ ¯ H ); (2.41) o sea donde C = R 1 : ex p (¡ ¯ H )d ¡ (2.42) Hemos obtenido la distribución de Gibbs 1 f = ex p (¡ ¯ H (p ;q )): Z (¯ ;V ;N ) (2.43) Veamos ahora que se trata de un máximo. Sea otra función de distribución f 0, normalizada, con la misma energía media Z Z 0 f H d¡ = f H d¡ ; (2.44) y por lo demás arbitraria. Invocamos la desigualdad auxiliar Z f0 f 0ln ( )d ¡ ¸ 0 ; f en la forma ¡ Z 0 0 f ln (f )d ¡ · = Z Z f ln (f )d ¡ = ln (Z ) + ¯ f 0H d ¡ ; Z Z ln (Z ) + ¯ f H d¡ = ¡ f ln (f )d ¡ : ¡ 0 (2.45) Esta desigualdad equivale a h´ 0i · h´ i ; (2.46) de modo que la distribución canónica es la que tiene la mayor entropía entre todas las distribuciones con la misma energía media. Esta demostración se puede extender al caso en el cual, además de la energía, hay otras cantidades medias prefijadas. Denotemos todas estas, incluyendo la energía, con P k , k = 0 ;1 ;2 ;:::;n , Z f P kd¡ : (2.47) hP k i = Propiedad variacional de la distribución gran canónica 31 Repitiendo el procedimiento anterior, el lector puede verificar facilmente que la maximización de la entropía conduce a la distribución canónica generalizada (capítulo 1, II parte) à ! Xn 1 ex p ¡ F k P k (p ;q )) ; (2.48) f = Z k= 0 donde F k son coeficientes que provienen de los multiplicadores de Lagrange. Para que f sea una solución de equilibrio que satisface la ecuación de Liouville, las magnitudes P k , como sabemos, deben ser integrales del movimiento. 2.7 Propiedad variacional de la distribución gran canónica Derivemos ahora el principio extremal para la distribución gran canónica. El ensemble está compuesto por sistemas en contacto con un baño térmico y un depósito de partículas. Ahora, como información adicional acerca del sistema, podemos especificar la energía media y el número medio de partículas. La distribución gran canónica es aquella que tiene la mayor entropía entre todas las funciones de distribución que tienen igual energía media e igual número medio de partículas: X Z X Z X Z hH i = hN i = (2.49) H fN d¡ ; N fN d¡ ; fN d ¡ = 1: N N N Notar las peculiares operaciones de normalización y valor medio que caracterizan la distribución gran canónica. Para hallar el extremo formamos la funcional X Z X Z X Z X Z © (f ) = ¡ f N ln (f N )d ¡ ¡ ¯ fN H d¡ ¡ ® fN N d¡ ¡ ¸ fN d¡ ; N N N N (2.50) siendo ¯ ;® ;¸ , multiplicadores de Lagrange. De la condición ± © = 0 , para toda variación ± f , se obtiene sin dificultad (definiendo otro multiplicador ¹ = ¡ ® = ¯ ) el resultado 1 fN = ex p (¡ ¯ (H ¡ ¹ N )); (2.51) Z donde X Z ex p (¡ ¯ (H ¡ ¹ N ))d ¡ : (2.52) Z(¯ ;¹ ;V ) = N Hemos obtenido la distribución gran canónica y se puede probar, de un modo similar al de la sección precedente, que el extremo corresponde a un máximo de la entropía.