Entropía (información) Entropía es un concepto en termodinámica, mecánica estadística y teoría de la información. La entropía se concibe como una "medida del desorden" o la "peculiaridad de ciertas combinaciones". Como la entropía puede ser considerada una medida de la incertidumbre, y la información tiene que ver con cualquier proceso que permite acotar, reducir o eliminar la incertidumbre; resulta que el concepto de información y el de entropía están ampliamente relacionados entre sí, aunque se necesitaron años de desarrollo de la mecánica estadística y de la teoría de la información antes de que esto deviniera aparente. Este artículo versa sobre la entropía, en la formulación que hace de ella la teoría de la información. Esta entropía se llama frecuentemente entropía de Shannon, en honor a Claude E. Shannon. Explicación intuitiva En un proceso sujeto a incertidumbre (resultado de un experimento, ocurrencia de un fenómeno esporádico, ...) es común usar la teoría de la probabilidad para representar dicho proceso. Más específicamente si el resultado de un cierto proceso es un conjunto de posibles resultados, podemos definir una variable aleatoria X que puede tomar como valores posibles en distintas repeticiones (realizaciones del experimento) precisamente los resultados de dichos experimentos. Dichos resultados pueden ser equiprobables o ser unos más frecuentes que otros, y es precisamente la distribución de probabilidad de los valores de X la que describe con qué frecuencia aparecerá cada uno de los posibles resultados del proceso sujeto a incertidumbre. La entropía asociada a la variable X es un número que depende directamente de la distribución de probabilidad de X e indica en qué medida es impredictible el resultado del proceso sujeto a incertidumbre o experimento. Desde un punto de vista matemático cuanto más "plana" sea la distribución de probabilidad más difícil será acertar cuál de las posibilidades se dará en cada instancia. Una distribución es plana (tiene alta entropía) cuando todos los valores de X tienen probabilidades similares, mientras que es poco plana cuando algunos valores de X son mucho más probables que otros (se dice que la función es más puntiguda en los valores más probables). En una distribución de probabilidad plana (con alta entropía) es difícil poder predecir cuál es el próximo valor de X que va a presentarse, ya que todos los valores de X son igualmente probables. Cada valor que puede tomar la variable X es denominada un símbolo. Si a cada posible símbolo se le asigna una cierta combinación de dígitos binarios 0 ó 1 para diferenciarlo de los demás, la cantidad promedio de dígitos binarios que hay que asignarle a los distintos símbolos es siempre mayor o igual que la entropía de la distribución de probabilidad de X. Los valores 0 ó 1 usados suelen llamarse bits. De este modo, es posible transformar un mensaje (una secuencia de símbolos) en una secuencia de bits. Usando este paradigma, diversos tipos de mensajes (audio, video, texto) pueden ser codificados en bits y almacenados/enviados mediante diversos medios físicos. Además, la metodología comúnmente usada para asignar combinaciones de valores 0 ó 1 (secuencias de bits) a los distintos valores posibles de X se conoce con el nombre de codificación Huffman. Esta metodología asigna secuencias cortas de bits (ej: 10) a los símbolos más frecuentes y secuencias largas de bits (ej: 111110) a los símbolos menos frecuentes. De este modo, se obtiene el mínimo tamaño en bits posible para el mensaje. La entropía también puede ser entendida como la cantidad de información promedio que contienen los símbolos usados. Los símbolos con menor probabilidad son los que aportan mayor información; por ejemplo, si se considera como sistema de símbolos a las palabras en un texto, palabras frecuentes como "que", "el", "a" aportan poca información, mientras que palabras menos frecuentes como "corren", "niño", "perro" aportan más información (si de un texto dado borramos un "que", seguramente no afectará a la comprensión y se sobreentenderá, no siendo así si borramos la palabra "niño" del mismo texto original). Cuando todos los símbolos son igualmente probables (distribución de probabilidad plana), todos aportan información relevante y la entropía es máxima. Finalmente, la entropía de la teoría de la información está estrechamente relacionada con la entropía termodinámica. En la termodinámica se estudia un sistema de partículas cuyos estados X (usualmente posición y velocidad) tienen una cierta distribución de probabilidad, pudiendo ocupar varios microestados posibles (equivalentes a los símbolos en la teoría de la información). La entropía termodinámica es igual a la entropía de la teoría de la información de esa distribución (medida usando el logaritmo neperiano) multiplicada por la constante de Boltzmann k, la cual permite pasar de nats (unidad semejante al bit) a J/K. Cuando todos los microestados son igualmente probables, la entropía termodinámica toma la forma k log(N). En un sistema aislado, la interacción entre las partículas tienden a aumentar la dispersión de sus posiciones y velocidades, lo que causa que la entropía de la distribución aumente con el tiempo hasta llegar a un cierto máximo (cuando el mismo sistema es lo más homogéneo y desorganizado posible), lo que es denominado segunda ley de la termodinámica. La diferencia entre la cantidad de entropía que tiene un sistema y el máximo que puede llegar a tener se denomina neguentropía, y representa la cantidad de organización interna que tiene el sistema. A partir de esta última se puede definir la energía libre de Gibbs, la que indica la energía que puede liberar el sistema al aumentar la entropía hasta su máximo y puede ser transformada en trabajo (energía mecánica útil) usando una máquina ideal de Carnot. Cuando un sistema recibe un flujo de calor, las velocidades de las partículas aumentan, lo que dispersa la distribución y hace aumentar la entropía. Así, el flujo de calor produce un flujo de entropía en la misma dirección. Concepto básico Entropía de la información en un ensayo de Bernoulli X (experimento aleatorio en que X puede tomar los valores 0 o 1). La entropía depende de la probabilidad P (X=1) de que X tome el valor 1. Cuando P (X=1)=0.5, todos los resultados posibles son igualmente probables, por lo que el resultado es poco predecible y la entropía es máxima. El concepto básico de entropía en teoría de la información tiene mucho que ver con la incertidumbre que existe en cualquier experimento o señal aleatoria. Es también la cantidad de "ruido" o "desorden" que contiene o libera un sistema. De esta forma, podremos hablar de la cantidad de información que lleva una señal. Como ejemplo, consideremos algún texto escrito en español, codificado como una cadena de letras, espacios y signos de puntuación (nuestra señal será una cadena de caracteres). Ya que, estadísticamente, algunos caracteres no son muy comunes (por ejemplo, 'w'), mientras otros sí lo son (como la 'a'), la cadena de caracteres no será tan "aleatoria" como podría llegar a ser. Obviamente, no podemos predecir con exactitud cuál será el siguiente carácter en la cadena, y eso la haría aparentemente aleatoria. Pero es la entropía la encargada de medir precisamente esa aleatoriedad, y fue presentada por Shannon en su artículo de 1948 A Mathematical Theory of Communication ("Una teoría matemática de la comunicación", en inglés). Shannon ofrece una definición de entropía que satisface las siguientes afirmaciones: La medida de información debe ser proporcional (continua). Es decir, el cambio pequeño en una de las probabilidades de aparición de uno de los elementos de la señal debe cambiar poco la entropía. Si todos los elementos de la señal son equiprobables a la hora de aparecer, entonces la entropía será máxima. Ejemplos de máxima entropía : Suponiendo que estamos a la espera de un texto , por ejemplo un cable con un mensaje .En dicho cable solo se reciben las letras en minúscula de la (a hasta la z) , entonces si el mensaje que nos llega es "qalmnbphijcdgketrsfuvxyzwño" el cual posee una longitud de 27 caracteres , se puede decir que este mensaje llega a nosotros con la máxima entropía (o desorden posible) ya que es poco probable que se pueda pronosticar la entrada de caracteres ya que estos no se repiten y además no están ordenados en una forma predecible. Definición formal La información que aporta un determinado valor (símbolo), variable aleatoria discreta , de una se define como: cuya unidad es el bit cuando se utiliza el logaritmo en base 2 (por ejemplo, cuando se emplea el logaritmo neperiano se habla de nats). A pesar del signo negativo en la última expresión, la información tiene siempre signo positivo (lo cual queda más claro en la primera expresión). La entropía determina el límite máximo al que se puede comprimir un mensaje usando un enfoque símbolo a símbolo sin ninguna pérdida de información (demostrado analíticamente por Shannon), el límite de compresión (en bits) es igual a la entropía multiplicada por el largo del mensaje. También es una medida de la información promedio contenida en cada símbolo del mensaje. Su cálculo se realiza a partir de su distribución de probabilidad p(x) mediante la siguiente fórmula: Algunas técnicas de compresión como LZW o deflación no usan probabilidades de los símbolos aislados, sino usan las probabilidades conjuntas de pequeñas secuencias de símbolos para codificar el mensaje, por lo que pueden lograr un nivel de compresión mayor. Nota: La base del logaritmo, a, dependerá de la variable X con que estemos trabajando, es decir, para una variable binaria usaremos la base 2, para una ternaria la base 3. Propiedades de la entropía 1. 0 < = H < = loga(m) Es decir, la entropía H esta acotada superiormente (cuando es máxima) y no supone perdida de información. 2. Dado un procesos con posibles resultados {A1,..,An} con probabilidades relativas p1, ...,pn, la función es máxima en el caso de que 3. Dado un procesos con posibles resultados {A1,..,An} con probabilidades relativas p1, ...,pn, la función pi = 0 para cualquier i. es nula en el caso de que