X - Luca Martino Home Page

Anuncio
Conceptos básicos de teoría de la información Luca Mar8no Apuntes no revisados Cuidado! Información •  La información asociada a un evento con probabilidad p(x) se define I(x) = −log[ p(x)]
Unidad de medida: bit •  Un evento POCO frecuente 8ene MUCHA información. •  Un evento MUY frecuente 8ene POCA información. €
Entropía (discreta) •  Es el valor medio de la información N
H X = −∑ p(x = i) log[ p(x = i)]
i=1
€
•  ES UN NUMERO (un escalar). Se puede considerar una MEDIDA DE DISPERSIÓN de la densidad p(x). •  A veces se le indica como H(X) donde con X se indica la variable aleatoria con densidad p(x). •  Representa la incer8dumbre sobre el valor que puede tomar la variable aleatoria X. Entropía (discreta) •  La entropía se puede considerar una medida de dispersión porque por ejemplo es máxima cuando la p(x) es uniforme y minima cuando p(x) es una delta. 1
1
N
1
N
1
N…. 1 H X = log 2 N
N
HX = 0
€
€
€
€
€
€
Entropía DISCRETA máxima €
Entropía DISCRETA minima (nula). Se asume que la forma indeterminada 0log
2 0 =
0
sea nula (por razones de con8nuidad). •  La entropía diferencial (caso con8nuo) es máxima en el caso de €
la densidad Gaussiana. Relación con la varianza •  Otra medida de dispersión es, por ejemplo, la varianza. Pero la varianza depende del soporte de la densidad, del orden de las deltas (de donde están posicionada las deltas) En estas 2 densidades: la entropía es igual, pero la varianza no! •  La entropía discreta es “simétrica” respecto a permutaciones de las probabilidades, es invariante bajo traslaciones y escalados. H aX +b = H X
€
€
Entropías conjunta, condicional e información mutua •  Otras entropías y la información mutua L
N
H XY = −∑ ∑ p(x = i, y = j) log[ p(x = i, y = j)]
j =1 i=1
L
N
H X |Y = −∑ ∑ p(x = i, y = j) log[ p(x = i | y = j)]
j =1 i=1
L
N
H X |Y = −∑ ∑ p(x = i, y = j) log[ p(y = j | x = i)]
Recordemos que: p(x, y) = p(y | x) p(x)
p(x, y) = p(x | y) p(y)
j =1 i=1
L
IXY
N
⎡ p(x = i) p(y = j) ⎤
= −∑ ∑ p(x = i, y = j) log ⎢
⎥
€
p(x
=
i,
y
=
j)
⎣
⎦
j =1 i=1
Relaciones entre entropías y información mutua H XY
IXY
H X |Y
€
€
HX
€
€En un canal (con X entrada e Y salida) esta entropía representa la €
perdida de información. €
Rosa: Hx Amarillo: Hy Rosa+Amarillo=Hxy (conjunta) HY |X
HY
€
H XY
€H
X
HY
H X |Y
IXY
HY |X
Relaciones entre entropías y información mutua H XY
HX
HY
€
€
H X |Y
IXY
HY |X
Este diagrama es ú8l para escribir € desigualdades o relaciones entre estas can8dades: H = H X |Y + IXY
IXY = H X − H X |Y
€X
€H XY ≤ H X + HY €
HY = HY |X + IXY
IXY = HY − HY |X
H XY = H X + HY − IXY
H XY = H X |Y + HY |X + IXY
H XY = H X + HY |X
H XY = HY + H X |Y
€
H X ≤ H XY ≤ H X + HY
HY ≤ H XY ≤ H X + HY
IXY = H X + HY − H XY
IXY = IYX
Variables independientes H XY
HX
HY |X
H X |Y
€
H X = H X |Y
HY
€
€
H XY
€
IXY = 0
€
€
HX
HY
€
€
€
HY |X
H X |Y
€
HY = HY |X
H XY = H X + HY
Variables coincidentes X=Y (totalmente dependientes) H XY = H X = HY = IXY
IXY = H X = HY
IXY = H X = HY = H XY
H X |Y = 0
HY |X = 0
€
H XY
€
HX
€
€
€
HY
IXY
€
Relaciones importantes •  Hay que recordar bien que 0 ≤ H X ≤ log 2 M
0 ≤ HY ≤ log 2 L
p(x) delta X=Y (HY =)H X ≤ H XY ≤ H X + HY
€
€
Variables independientes €
0 ≤ IXY ≤ H X (= HY )
X=Y 0 ≤ H X |Y ≤ H X
X=Y €
0 ≤ HY |X ≤ HY
€
p(x) uniforme Variables independientes X=Y Variables independientes Variables independientes €
Canal discreto sin memoria (DMC) •  En una formula se puede escribir Flujo de bits Y (t) = X(t) + E(t)
Y =X+E
t= 8empo Y(t)=variable aleatoria (recepción) al 8empo t X(t)=variable aleatoria (transmisión) al 8empo t E(t)= ruido, variable aleatoria al 8empo t €
•  En estos casos o se da la formula arriba, o la VEROSIMILITUD (en el caso discreto, es una matriz….MATRIZ DE CANAL) p(y t | x t )
p(y | x)
Canal discreto sin memoria (DMC) •  En caso discreto tenemos una matriz M
× L de canal ⎡ p(y = 1 | x = 1) ... .... p(y = L | x = 1) ⎤
⎢
⎥
...
....
...
...
⎥
p(y | x) = ⎢
€
⎢
⎥
...
... ...
...
⎢
⎥
⎣ p(y = 1 | x = M) ....... p(y = L | x = M) ⎦
Las filas 8enen que sumar 1. •  Que se suele representar gráficamente €
1
1
X
€
€
€
M
…… Y
€
€
L
Todas las aristas representan una probabilidad no nula. Las aristas que salen de un nodo de entrada 8ene que sumar 1. €
Canal discreto sin memoria (DMC) •  En los problemas nos suelen dar la matriz de canal y la probabilidad sobre las entradas 1
1
p(x) X
€
M
…… Y
€
p(y €
| x)
L
€
•  Teniendo €
€estas dos densidades, realmente tenemos la densidad conjunta, es decir, toda la información. €
€p(x, y) = p(y | x) p(x)
Canal discreto sin memoria (DMC) •  Podemos calcular todo 1
1
M
p(x) X
M
€
Y
p(y) = ∑ p(x = i, y) = ∑ p(y | x = i) p(x = i)
i=1
€
L
p(x, y) p(y | x) p(x)
p(x | y) =
=
=
p(y)
p(y)
p(x,
€ y) = p(y | x) p(x)
€
€
i=1
€
p(y €
| x)
€
€
…… M
p(y | x) p(x)
M
∑ p(y | x = i) p(x = i)
i=1
€
•  Tenemos los 5 elementos p(y, x)
€
p(y | x) p(x | y) p(x)
p(y)
Canal discreto sin memoria (DMC) •  Nota que esta formula, M
M
p(y = j) = ∑ p(x = i, y = j) = ∑ p(y = j | x = i) p(x = i)
i=1
i=1
•  es fácil de resumir, recordar y entender gráficamente €
€
€
€
p(y = j | x = i)
X =i
X =s
€
€X = k
€
p(y = j | x = s)
p(y = j | x = k)
€
Y=j
Si no hay otras ramas, las demás probabilidades son nulas p(y = j | x) = 0
€ que considerar todas las ramas que Hay entran en el nodo j. Lo que nos gustaría: Canal ideal. €
•  a nosotros nos gustaría claramente que X=Y (caso ideal). •  Es decir obtener la máxima información mutua ( I XY = H
X = H
Y ). •  en otra forma queremos que la perdida de información en el canal sea nula ( H
X |Y = 0 : si conozco Y, conozco perfectamente X, no tengo incer8dumbre, no tengo sorpresas!) € X
Y
…… €
€
CANAL IDEAL Lo peor: X e Y independientes. •  Si X e Y son independientes cualquier información sobre Y no me aporta nada sobre X. •  En este caso I XY = 0 (minima información mutua). •  La perdida de información es máxima ( H
X |Y = H
X : si conozco Y, la incer8dumbre sobre X no disminuye). €
p(x, y) = p(x) p(y)
€
€
€
p(x, y) p(y) p(x)
p(y | x) =
=
= p(y)
p(x)
p(x)
Lo peor: X e Y independientes. •  Cuando un canal genera esta independencia entre X e Y? •  Cuando 1
p(y | x) = constante =
num. ramas que salen de una entrada
X
p(x)
€
€
Y
…… €
PEOR CANAL POSIBLE p(y)
Todas las entradas 8enen el mismo numero de ramas. €
Otros casos interesantes •  Hemos dicho que cuando Y=X tenemos IXY = H X = HY
€
H X |Y = 0
HY |X = 0
•  Puede haber casos donde una entropía condicional sea nula pero la otra no, y Y ≠ X
. Por ejemplo €
€
1
1
€ 2
X
3
€
€ €
€
€
4
Y
€
€
€
2
€
€
HY |X = 0
H X |Y ≠ 0
¿qué incer8dumbre tengo sobre Y si conozco X? Ninguna. Otros casos interesantes •  El caso simétrico seria 1
1
2
Y
3
X
€
€
€
2
€
4
€
Perdida info en el canal H X |Y = 0
¿qué incer8dumbre tengo sobre X si conozco Y? Ninguna. HY |X ≠ 0
€
€
•  Nota que € Y ≠ X , p€
ero también este canal se podría considerar “ideal” (la € perdida de información en el canal es nula). €
Lo que queremos: maximizar IXY
•  Pues queremos maximizar la información mutua. •  Dado que el canal es dado (no se puede cambiar!), lo único que podemos variar son las probabilidades de las entradas. €
•  Es decir buscaremos la p(x)
que maximiza la I XY
. X
p(x)
Y
€
…… p(y€| x)
€
Matriz de canal: está dada. €
€
€
Capacidad de canal •  Realmente aunque encontramos la p(x)
que maximiza I YX no significa que con esta configuración logremos I XY
=
H
X (que es el máximo de la información mutua). •  Hallaremos un valor €
€
€
C = max IXY
p(x )
•  Que es caracterís8co del canal. €
Capacidad de canal •  Para hallar la capacidad de canal se puede trabajar con dos expresiones de información mutua IXY = H X − H X |Y
p(x)
€
p(x | y) =
p(x, y) = p(y | x) p(x)
€
€
M
IXY = H
€ Y − HY |X
M
p(y) = ∑ p(x = i, y) = ∑ p(y | x = i) p(x = i)
i=1
€
p(x, y) p(y | x) p(x)
=
=
p(y)
p(y)
i=1
p(y | x) p(x)
M
∑ p(y | x = i) p(x = i)
i=1
Es más fácil u8lizar esta p(y | x)
Capacidad de canal •  Esta es más fácil de u8lizar en la prac8ca IXY = HY − HY |X
•  Pero esta es más interesante en la teoría €
IXY = H X − H X |Y
Información que atraviesa en canal €
Perdida de Información en el canal Información a la entrada €
Capacidad de canal •  Otra observación muy importante es que 2 c = numero de entradas que puedo utilizar sin cometer errores
•  La can8dad 2 capacidad
puede interpretar como el numero de entradas (simbolos) que se pueden u8lizar al mismo 8empo sin cometer ningún error en comunicación. €
Capacidad de canal •  Ejemplo: 1
2
1
2
3
3
€
€
€
€
4
Seguramente (cualquiera sea la matriz de canal) puedo u8lizar 2 entradas sin equivocarme. €
4
€
1
1
3
2
3
€
€
€
€seguramente €puedo escribir: €
•  Así que 2€c ≥ 2 ⇒ C ≥1
C=1 es en el caso peor. €
4
Capacidad de canal €
€
€
€
1
•  Más en general con M
par: 1
1
2
3
2
€
€
3 €
3
…… …… €
€
M −1
M
M
€
€
€
Seguramente puedo u8lizar M/2 €
€
entradas sin equivocarme. €
€
€
€
•  Así que seguramente puedo escribir: M
M
c
2 ≥
⇒ C ≥ log 2
= log 2 M −1
2
2
1
2
3
4
M −1
M
Capacidad de canal •  Hemos encontrado una cota inferior para la capacidad de este canal 1
1
M
2
C ≥ log 2
2
2
3
3
…… €
€
M
M
€
€
€ •  Pero también por el mismo razonamiento como mucho, en el €
€
caso ideal, podemos u8lizar todas las entradas es decir €
€
M
2C ≤ M
log 2
≤ C ≤ log 2 M
2
C ≤ log 2 M
C ≤ log 2 L
Cuidado: esta formula es siempre verdadera! No solo en este canal. También vale siempre esta desigualdad Capacidad de canal •  Además si la probabilidad de transiciones son equiprobables (1/2 ) 1
2
3
€
€
M
1/2 1/2 1/2 1/2 1/2 1/2 1/2 …… 1/2 €
€
•  Se p€uede demostrar €
M
€
C = log 2
2
€
€
1
2
3
M
Canales en paralelo •  Si tenemos 2 canales en paralelo, podemos encontrar la capacidad equivalente (total) C1 C2 2 c tot = 2 c1 + 2 c 2
c tot = log 2 (2 + 2
c1
€
c2
)
Descargar