Capacidad del canal - Facultad de Ingeniería

Anuncio
Introducción a la Teoría de la Información
Capacidad del canal
Facultad de Ingeniería, UdelaR
24 de mayo de 2016
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
1 / 65
Modelo matemático de sistema de comunicación
yn
xn
w
-
Codif.
-
Canal
ŵ
- Decod.
-
mensaje
Transmisión de un mensaje:
1
fuente de datos genera mensaje w ∈ W,
2
codificador mapea w a una palabra de código xn ∈ X n ,
3
xn se modifica al pasar por canal, resultando en y n ∈ Y n ,
4
decodificador infiere mensaje enviado ŵ a partir de y n .
5
Transmisión exitosa si ŵ = w.
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
2 / 65
Sinopsis
yn
xn
w
-
Codif.
-
Canal
ŵ
- Decod.
-
mensaje
Capacidad del canal
¿A qué tasa, medida en bits por uso de canal, se puede transmitir información a
través de un canal?
Es una propiedad exclusiva del canal
Segundo teorema de Shannon
Es posible transmitir por un canal ruidoso con tasa no nula y probabilidad de error
arbitrariamente pequeña
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
3 / 65
Importancia
Uno de los teoremas con más impacto práctico: la era digital
Internet, celulares, telecomunicaciones, computadoras, etc.!
Antes de Shannon, se consideraba imposible
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
4 / 65
Temas
Definición de capacidad de canal
El segundo teorema de Shannon
Ejemplos de códigos prácticos de corrección de errores
Canales con realimentación
Separabilidad y codificación conjunta fuente-canal
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
5 / 65
Capacidad de canal
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
6 / 65
Canal discreto sin memoria (DMC)
Xn
W
-
Codif.
-
mensaje
Canal
p (Y |X)
Yn
Ŵ
- Decod.
-
Definición (Canal discreto sin memoria (DMC))
Canal: terna (X , p (Y |X) , Y)
Entrada al canal: X ∈ X , |X | < ∞ (alfabeto de entrada: X )
Salida del canal: Y ∈ Y, |Y| < ∞ (alfabeto de salida: Y)
Sin memoria: Yk es independiente de Xj , Yj , j 6= k
∆
Matriz de transición de prob.: Π = {πij = p (Y = j|X = i)}
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
7 / 65
Código de canal (M,n)
Definición (Código de canal (M, n))
Mensajes: w ∈ J, J = {1, 2, . . . , M }
Función de codificación: X n : J → X n .
Función de decodificación: g : Y n → J .
Definición (Codebook)
Se le llama codebook al conjunto imagen de X n , es decir: {X n (1) . . . X n (M )}.
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
8 / 65
Probabilidad de error de un código
Error asociado a mensaje i:
λi
=
=
Pr {g(Y n ) 6= i | W = i}
X
p (y n | xn (i))
y n :g(y n )6=i
Error maximal
λ(n) = máx λi
i∈J
Error promedio:
Pe(n) =
(Facultad de Ingeniería, UdelaR)
M
1 X
λi
M i=1
Teoría de la Información
24 de mayo de 2016
9 / 65
Capacidad (de operación) de un canal
Definición (Tasa R de un código (M, n))
R=
log M
n
Se mide en bits por uso del canal (logaritmo en base 2)
Una tasa
R se dice alcanzable para un canal si existe una secuencia de códigos
2nR , n tal que λ(n) → 0 cuando n → ∞.
Definición (Capacidad (de operación) de un canal)
Es el supremo de las tasas alcanzables,
C 0 = sup{R : R alcanzable}
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
10 / 65
Capacidad (de información) de un canal
Definición (Capacidad (de información) de un canal)
Sea P el conjunto de todas las distribuciones de probabilidad sobre X . Definimos la
capacidad (de información) de un canal como
∆
C = máx I (X; Y ) .
p(X)∈P
Observaciones:
Dado un canal, que define la distribución de probabilidad condicional p(Y |X), I
es una función continua de p(X).
P es un conjunto compacto y por lo tanto I alcanza el máximo.
0 ≤ C,
C ≤ log |X |,
C ≤ log |Y|.
En general, C no tiene forma cerrada, pero se puede calcular numéricamente.
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
11 / 65
Capacidad de un canal sin ruido
Π=
C
=
máx I (X; Y )
=
máx {H (X) − H (X|Y )}
1
0
0
1
p(X)
p(X)
=
1
-1
0
-0
máx {H (X) − 0} = 1
p(X)
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
12 / 65
Capacidad del canal binario simétrico (BSC)
I (X; Y )
=
=
Π=
H (Y ) − H (Y |X)
X
H (Y ) −
p (x) H (Y |X = x)
1−π
π
π
1−π
x
=
H (Y ) −
X
p (x)h(π)
1
Q
x
C
=
H (Y ) − h(π).
=
máx {H(Y ) − h(π)}
Q
Q π
QQ π
1−π Q
0
p(x)
=
1−π
Q
- 1
3
Qs 0
Q
máx{H(Y )} − h(π)
p(x)
=
1 − h(π) .
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
13 / 65
Capacidad del canal con borraduras
Π=
I(X; Y )
=
=
H (X) − H (X|Y )
X
H (X) −
p (y) H (X|Y = y)
y
1−e
0
1Q
e
e
-1
1−α
Q
=
H (X) − p (e) H (X|Y = e)
=
(1 − α) H (X) .
Q
Q
Q
α
Q
s
Q
3e
Máximo C = (1 − α), alcanzado para p (x)
uniforme.
α
0
(Facultad de Ingeniería, UdelaR)
0
1−e
Teoría de la Información
1−α
-0
24 de mayo de 2016
14 / 65
Teorema de codificación del canal
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
15 / 65
Sinopsis
Dos definiciones de capacidad:
De información:
C = máx I (X; Y )
p(X)
De operación:
C 0 = sup{R : R alcanzable}
Esencia del segundo teorema de Shannon:
Ambas coinciden:
C = C0
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
16 / 65
Planteo formal
Xn
W
-
Codif.
mensaje
-
Canal
p (Y |X)
Yn
Ŵ
- Decod.
-
Mensaje W ∈ J, J = {1, 2, . . . , M }
Palabra de código enviada: X n (W ) ∈ X n
Canal DMC
Palabra de código recibida: Y n ∈ Y n
Mensaje decodificado: Ŵ = g (Y n )
Error de transmisión: W 6= Ŵ
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
17 / 65
Teorema de codificación de canal: idea de la prueba
Basado en AEP conjunta.
n grande.
cada entrada típica, xn , induce
aproximadamente 2nH(Y |X) salidas
típicas . . .
Xn
Yn
. . . y hay aproximadamente 2nH(Y )
salidas típicas en total.
xn
2
(((((
(
h(
h(
hhhhhhm
Para que no haya error, hay que
repartir esas 2nH(Y ) en conjuntos
disjuntos de tamaño 2nH(Y |X) .
xn
1
(((((
(
h(
h(
hhhhhhm
J
J
J
Esto da lugar a aproximadamente
2nH(Y ) /2nH(Y |X) = 2nI(X;Y ) palabras
distintas.
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
2nH(Y |X)
24 de mayo de 2016
18 / 65
Paréntesis: AEP conjunta
Xn
Yn
xn
2
((((((m
(h
(h
h
hhhhh
xn
1
((((((m
(h
(h
h
hhhhh
J
J
J
2nH(Y |X)
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
19 / 65
Repaso: conjuntos típicos
∆
Sean X1 . . . Xn variables aleatorias i.i.d., Xi ∼ p (X). Sea H = H(Xi ).
Definición (Conjunto típico)
(n)
El conjunto típico A
con respecto a p (X) es el conjunto de secuencias que cumplen
2−n(H+) ≤ P (x1 . . . xn ) ≤ 2−n(H−) .
Propiedades
(n)
(x1 . . . xn ) ∈ A
(n)
P {A }
>1−
⇔ H − ≤ − n1 log P (x1 . . . xn ) ≤ H + para n suficientemente grande.
(n)
|A | ≤ 2n(H+)
(n)
|A | ≥ (1 − )2n(H−)
(Facultad de Ingeniería, UdelaR)
para n suficientemente grande.
Teoría de la Información
24 de mayo de 2016
20 / 65
Tipicalidad conjunta
Sean {(Xi , Yi )}i=1,...,n variables aleatorias i.i.d., (Xi , Yi ) ∼ p (X, Y ). Sea
∆
H = H(Xi , Yi ).
Definición
(n)
El conjunto A
de secuencias conjuntamente típicas son los pares (xn , y n ) tales que
xn es típica según p (xn ),
1
− log p (xn ) − H (X) ≤ ,
n
y n es típica según p (y n ),
1
− log p (y n ) − H (Y ) ≤ ,
n
(xn , y n ) es típico según p (xn , y n ),
1
− log p (xn , y n ) − H (X, Y ) ≤ .
n
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
21 / 65
AEP conjunta
Teorema
1
n
o
(n)
Pr (X n , Y n ) ∈ A
→ 1 cuando n → ∞
2
|A | ≤ 2n(H(X,Y )+e)
3
(n)
Sean X̃ n , Ỹ n secuencias aleatorias con la misma distribución marginal que
X n , Y n , respectivamente, pero independientes entre sí, es decir,
(X̃ n , Ỹ n ) ∼ p (xn ) p (y n ) .
Entonces se cumple
n
o
Pr (X̃ n , Ỹ n ) ∈ A(n) ≤ 2−n(I(X;Y )+3)
y, para n suficientemente grande,
o
n
Pr (X̃ n , Ỹ n ) ∈ A(n) ≥ (1 − )2−n(I(X;Y )−3) .
Observación: El punto 3 dice que la probabilidad de que dos secuencias independientes, cada
una marginalmente típica, resulten conjuntamente típicas por azar, decrece exponencialmente
con la información mutua entre X, Y .
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
22 / 65
AEP conjunta: prueba de 3
Si X̃ n e Ỹ n son independientes con marginales idénticas a p (xn , y n ) entonces,
desarrollando por cotas superiores,
n
o
X
Pr (X̃ n , Ỹ n ) ∈ A(n)
=
p (xn ) p (y n )
(n)
(xn ,y n )∈A
(Facultad de Ingeniería, UdelaR)
≤
(n) −n(H(X)−) −n(H(Y )−)
2
A 2
≤
2n(H(X,Y )+) 2−n(H(X)−) 2−n(H(Y )−)
=
2n(H(X,Y )+)−n(H(X)−)−n(H(Y )−)
=
2−n(I(X;Y )−3)
Teoría de la Información
24 de mayo de 2016
23 / 65
AEP conjunta: prueba de 3
Haciendo lo mismo pero con las cotas inferiores
n
o
X
Pr (X̃ n , Ỹ n ) ∈ A(n)
=
p (xn ) p (y n )
(n)
(xn ,y n )∈A
≥
(n) −n(H(X)+) −n(H(Y )+)
2
A 2
≥
(1 − )2n(H(X,Y )−) 2−n(H(X)+) 2−n(H(Y )+)
=
(1 − )2n(H(X,Y )−)−n(H(X)+)−n(H(Y )+)
=
(1 − )2−n(I(X;Y )+3)
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
24 / 65
Prueba del Segundo Teorema de Shannon
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
25 / 65
Intuición
Yn
Xn
xn
2
m
xn
1
m
2nH(Y |X)
Para bloques suficientemente largos entra en juego la AEP conjunta.
Por cada secuencia típica de entrada, xn , hay aproximadamente 2nH(Y |X)
secuencias conjuntamente típicas en Y n .
No queremos que dos secuencias de X n produzcan el mismo y n (sino es
imposible decidir!)
I
los subconjuntos inducidos en Y n no se deben solapar!
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
26 / 65
Intuición
Yn
Xn
(n)
(n)
A
xn
2
A
2nH(Y )
m
2nH(Y |X)
((((
(
m
xn
1
Hay aproximadamente 2nH(Y ) secuencias típicas en Y n .
Los subconjuntos inducidos en Y n tienen aproximadamente 2nH(Y |X) secuencias
condicionalmente típicas.
La cantidad máxima de conjuntos disjuntos es aproximadamente
2nH(Y ) /2nH(Y |X) = 2n(H(Y )−H(Y |X)) = 2nI(X;Y )
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
27 / 65
Enunciado
Teorema (Teorema de codificación de canal)
Todas las tasas R bajo la capacidad del canal C son alcanzables.
Específicamente, para cada R < C existe una secuencia de códigos (2nR , n) con
probabilidad de error máxima, λ(n) , que satisface λ(n) → 0.
Recíprocamente, cualquier secuencia de códigos (2nR , n) con λ(n) → 0 implica
R ≤ C.
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
28 / 65
Demostración del directo
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
29 / 65
Demostración: esquema de codificación aleatoria
Consideremos el siguiente experimento:
1
Sorteamos un Codebook,
C = {xn (w)}w=1,...,nR , aleatorio según p (X),
donde p (X) alcanza el máximo de I(X; Y ) en la
definición de capacidad de información del
canal.
Xn
Yn
r
r r
r
r
r
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
30 / 65
Demostración: esquema de codificación aleatoria
Consideremos el siguiente experimento:
1
2
Sorteamos un Codebook,
C = {xn (w)}w=1,...,nR , aleatorio según p (X),
donde p (X) alcanza el máximo de I(X; Y ) en la
definición de capacidad de información del
canal.
Xn
Yn
r
r r
C se da a conocer a transmisor y receptor (el
canal se supone conocido)
r
r
r
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
30 / 65
Demostración: esquema de codificación aleatoria
Consideremos el siguiente experimento:
1
Sorteamos un Codebook,
C = {xn (w)}w=1,...,nR , aleatorio según p (X),
donde p (X) alcanza el máximo de I(X; Y ) en la
definición de capacidad de información del
canal.
2
C se da a conocer a transmisor y receptor (el
canal se supone conocido)
3
Se sortea un mensaje W uniformemente en J,
Pr {W = w} = 2−nR .
Xn
Yn
r
r r
X n (W )
r
sr
r
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
30 / 65
Demostración: esquema de codificación aleatoria
Consideremos el siguiente experimento:
1
Sorteamos un Codebook,
C = {xn (w)}w=1,...,nR , aleatorio según p (X),
donde p (X) alcanza el máximo de I(X; Y ) en la
definición de capacidad de información del
canal.
2
C se da a conocer a transmisor y receptor (el
canal se supone conocido)
3
Se sortea un mensaje W uniformemente en J,
Pr {W = w} = 2−nR .
4
La palabra W -ésima del código, X n (W ), es
enviada por el transmisor.
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
Xn
Yn
r
r r
X n (W )
r
sr
-
r
24 de mayo de 2016
30 / 65
Demostración: esquema de codificación aleatoria
Consideremos el siguiente experimento:
1
Sorteamos un Codebook,
C = {xn (w)}w=1,...,nR , aleatorio según p (X),
donde p (X) alcanza el máximo de I(X; Y ) en la
definición de capacidad de información del
canal.
2
C se da a conocer a transmisor y receptor (el
canal se supone conocido)
3
Se sortea un mensaje W uniformemente en J,
Pr {W = w} = 2−nR .
4
5
La palabra W -ésima del código, X n (W ), es
enviada por el transmisor.
El receptor recibe Y n de acuerdo a:
Pr {y n |xn (W )} =
n
Y
Xn
Yn
r
r r
X n (W )
r
sr
-s
r
p (yi |xi (W ))
i=1
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
30 / 65
Demostración: decodificación por tipicalidad conjunta
6
El receptor decodifica la secuencia recibida, Y n ,
como el mensaje Ŵ definido de la siguiente
manera:
Xn
Yn
r
r r
r
rs
-s
r
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
31 / 65
Demostración: decodificación por tipicalidad conjunta
6
El receptor decodifica la secuencia recibida, Y n ,
como el mensaje Ŵ definido de la siguiente
manera:
I
Xn
Yn
r
Si existe un único mensaje, w, tal que
(X n (w), Y n ) es conjuntamente típico, se define
Ŵ = w.
r r
X n (w)
r
rs
-s
r
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
31 / 65
Demostración: decodificación por tipicalidad conjunta
6
El receptor decodifica la secuencia recibida, Y n ,
como el mensaje Ŵ definido de la siguiente
manera:
I
I
Si existe un único mensaje, w, tal que
(X n (w), Y n ) es conjuntamente típico, se define
Ŵ = w.
En caso contrario se define arbitrariamente
Ŵ = 0.
Xn
Yn
r
r r
:
sr -s
r
s
X n (w)
X n (w0 )
r
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
31 / 65
Demostración: decodificación por tipicalidad conjunta
6
El receptor decodifica la secuencia recibida, Y n ,
como el mensaje Ŵ definido de la siguiente
manera:
I
I
7
Si existe un único mensaje, w, tal que
(X n (w), Y n ) es conjuntamente típico, se define
Ŵ = w.
En caso contrario se define arbitrariamente
Ŵ = 0.
Se da un error de decodificación cuando ocurre
el evento E = {W 6= Ŵ }.
Xn
Yn
r
r r
:
sr -s
r
s
X n (w)
X n (w0 )
r
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
31 / 65
Demostración: decodificación por tipicalidad conjunta
6
El receptor decodifica la secuencia recibida, Y n ,
como el mensaje Ŵ definido de la siguiente
manera:
I
I
Si existe un único mensaje, w, tal que
(X n (w), Y n ) es conjuntamente típico, se define
Ŵ = w.
En caso contrario se define arbitrariamente
Ŵ = 0.
7
Se da un error de decodificación cuando ocurre
el evento E = {W 6= Ŵ }.
8
Notar que existen tres factores aleatorios que
determinan la existencia o no de un error de
decodificación en este experimento
1
2
3
Xn
Yn
r
r r
:
sr -s
r
s
X n (w)
X n (w0 )
r
El sorteo del codebook,
El sorteo del mensaje,
El efecto del canal.
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
31 / 65
Demostración: análisis de la prob. de error
Definimos los eventos
n
o
Ti = (X n (i), Y n ) ∈ A(n) ,
1 ≤ i ≤ 2nR ,
es decir, X n (i) es conjuntamente típica con Y n , y el evento
n
o
T c = (X n (i), Y n ) 6∈ A(n) , ∀i, 1 ≤ i ≤ 2nR ,
es decir, Y n no es conjuntamente típica con ninguna palabra de código.
El evento Ew , {Ŵ 6= w}, w ∈ J, se puede descomponer como
[
Ew ⊆ T c ∪
Ti ,
i∈J\{w}
de donde acotamos
P (E|W = w)
≤
p (T c |W = w) +
X
p (Ti |W = w)
i∈J\{w}
(Facultad de Ingeniería, UdelaR)
≤
+ (2nR − 1)2−n(I(X;Y )−3)
≤
+ 2−n(I(X;Y )−R−3)
=
+ 2−n(C−R−3)
≤
2 ,
si R < C − 3 y n > N0 , para algún N0 .
Teoría de la Información
24 de mayo de 2016
32 / 65
Demostración: análisis de la prob. de error
Concluimos que si R < C, podemos elegir suficientemente chico de modo que
para todo n suficientemente grande se cumple que P (E|W = w) ≤ 2 para todo
w ∈ J.
Por lo tanto, tenemos
X
X
P (W = w) = 2 .
P (E) =
P (E|W = w)P (W = w) ≤ 2
w∈J
w∈J
Por otra parte, también podemos escribir
X
P (E) =
P (C)Pe(n) (C) ,
C
(n)
donde recordamos que Pe (C) es la probabilidad de error que se obtiene con el
código C cuando todos los mensajes son equiprobables.
Observamos que la probabilidad de error promediada sobre todos los códigos es
menor o igual que 2, lo cual implica que al menos uno de ellos, C ∗ , cumple que
(n)
Pe (C ∗ ) ≤ 2.
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
33 / 65
Demostración: refinamiento del código
El código C ∗ satisface
2 ≥
1 X
λi (C ∗ ) .
2nR
Formamos un código C ∗ con las 2nR−1 palabras con menor probabilidad de error
de C ∗ , es decir, descartamos la peor mitad de las palabras de C ∗ .
En C ∗ todas las palabras de código tienen probabilidad de error que satisface
λi ≤ 4 (sino la suma de la mitad descartada daría más que 2).
La tasa de C ∗ es R −
1
,
n
que tiende a R con n → ∞.
Final
Dados R < C y > 0 arbitrarios, demostramos que existe un código con tasa
R0 = R − n1 con probabilidad de error maximal λ(n) ≤ 4. Esto demuestra que
cualquier tasa bajo la capacidad del canal C es alcanzable.
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
34 / 65
Demostración del recíproco
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
35 / 65
Esquema de la prueba
(n)
Empezaremos con el caso más simple Pe
= 0.
A partir de ese caso, y ayudados por la desigualdad de Fano, se demuestra el
recíproco.
Reveremos la desigualdad de Fano en el contexto del teorema.
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
36 / 65
Caso simple: probabilidad de error 0
Probabilidad de error 0
(n)
Probaremos que Pe
= 0 implica R ≤ C.
(n)
Notar que el hecho de que Pe
sea que H(W |Y n ) = 0.
(Facultad de Ingeniería, UdelaR)
= 0 implica que g(Y n ) = W con probabilidad 1, o
Teoría de la Información
24 de mayo de 2016
37 / 65
Probabilidad de error 0: lema
Lema (Cota de info. mutua)
Sea Y n el resultado de transmitir X n a través de un canal DMC de capacidad C.
Entonces, para toda distribución p(xn ) se cumple
n
X
I(X n ; Y n ) ≤
I(Yi ; Xi ) ≤ nC .
i=1
Demostración
I(X n ; Y n )
def.
=
cadena
=
H(Y n ) − H(Y n |X n )
n
X
H(Y n ) −
H(Yi |Y1 , Y2 , . . . , Yi−1 , X n )
i=1
DMC
=
H(Y n ) −
n
X
H(Yi |Xi )
i=1
≤
=
n
X
i=1
n
X
H(Yi ) −
n
X
H(Yi |Xi )
i=1
I(Yi ; Xi ) ≤ nC
i=1
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
38 / 65
Probabilidad de error 0
(n)
Teorema (Recíproco del teorema de codificación de canal cuando Pe
(n)
Toda secuencia de códigos (2nR , n) con Pe
= 0.)
= 0 debe cumplir R ≤ C.
Demostración
Sea W distribuida uniformemente en J. Entonces,
nR = H(W )
=
H(W |Y n ) + I(W ; Y n )
=
I(W ; Y n )
(a)
≤
I(X n ; Y n )
(b)
≤
nC
(a) desigualdad de la información. (b) Lema demostrado en diapositiva anterior.
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
39 / 65
Desigualdad de Fano para codificación de canal
Recordatorio:
Corolario (de la desigualdad de Fano)
Sean X, Y variables aleatorias, sea X̂ una estimación de X tal que X → Y → X̂ y
sea Pe = P {X̂ 6= X}. Entonces
1 + Pe log(|X | − 1) ≥ H(X|X̂) ≥ H(X|Y ) .
En el contexto del problema que estamos estudiando, este resultado lo podemos
expresar de la siguiente manera
Lema (Desigualdad de Fano)
Paraun canal discreto
sin memoria y un mensaje W distribuido uniformemente sobre
J = 1, 2, . . . , 2nR se tiene
H (W |Y n ) ≤ 1 + Pe(n) nR ,
donde Y n es la secuencia observada a la salida del canal cuando se transmite
X n (W ).
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
40 / 65
Recíproco: demostración
Teorema (Recíproco del teorema de codificación de canal.)
(n)
Toda secuencia de códigos (2nR , n) con Pe
→ 0 debe cumplir R ≤ C.
Demostración
nR = H(W )
=
(a)
≤
(b)
≤
(c)
≤
H(W |Y n ) + I(W ; Y n )
H(W |Y n ) + I(X n ; Y n )
1 + Pe(n) nR + I(X n ; Y n )
1 + Pe(n) nR + nC
donde (a) es consecuencia de que W → X n → Y n y la desigualdad de procesamiento
de datos, (b) de la desigualdad de Fano y (c) del lema anterior. Por lo tanto,
R ≤ 1/n + Pe(n) R + C ,
(n)
lo cual prueba que si Pe
→ 0 entonces R ≤ C.
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
41 / 65
Recíproco: conclusiones
Error para tasas superiores a C:
De la última ecuación de la demostración obtenemos
Pe(n) ≥ 1 −
C
1
−
,
R
nR
(n)
que muestra que si R > C existe δ > 0 tal que Pe
grande.
> δ para n suficientemente
El recíproco anterior es denominado el “recíproco débil”,
(n)
Se puede demostrar un “recíproco fuerte”: Pe
tasas por encima de C
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
→ 1 exponencialmente para
24 de mayo de 2016
42 / 65
Códigos prácticos de canal
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
43 / 65
Códigos de canal
Shannon promete códigos buenos, pero no nos dice cómo hallarlos
Además de baja probabilidad de error, los códigos deben admitir
implementaciones eficientes
En esta sección veremos algunos ejemplos de codificación de canal muy sencillos
TCACE
El NTI dicta un curso específico para este tema, “TCACE: Teoría de Códigos
Algebraicos para la Corrección de Errores”
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
44 / 65
Códigos lineales
Notación
Denotamos Fq al cuerpo finito de q elementos.
Ejemplo: F2 es el conjunto {0, 1} con la suma y el producto módulo 2 (XOR y
AND)
Definición
Decimos que un código (M, n), C, es lineal, si es un subespacio de F n sobre F ,
con |C| = M
Si k es la dimensión de C sobre F , entonces es M = q k
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
45 / 65
Códigos lineales
Definición
Decimos que una matriz G es generadora de C sobre F cuando sus filas forman
una base de C (la matriz generadora no es única)
Para codificar una palabra u, simplemente se multiplica por G:
u 7−→ uG
La matriz G tiene dimensiones k × n
Ejemplo (Paridad)
El código de paridad (4, 3) es el generado por la siguiente matriz
1 0 1
G=
0 1 1
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
46 / 65
Códigos lineales
Definición
Decimos que una matriz H es de chequeo de paridad de un código C sobre F
cuando:
c ∈ C =⇒ HcT = 0
El código C es entonces el núcleo de H
Ejemplo (Paridad)
La matriz de chequeo de paridad para el código de paridad (4, 3) es:
H= 1 1 1
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
47 / 65
Códigos lineales
Ejemplo (Código de Hamming)
El código de Hamming es el definido por la siguiente matriz de chequeo de paridad:


0 0 0 1 1 1 1
H= 0 1 1 0 0 1 1 
1 0 1 0 1 0 1
La dimensión de C es k = 4; hay M = 24 palabras:
0000000
0001111
0010110
0011001
(Facultad de Ingeniería, UdelaR)
0100101
0101010
0110011
0111100
1000011
1001100
1010101
1011010
Teoría de la Información
1100110
1101001
1110000
1111111
24 de mayo de 2016
48 / 65
Códigos lineales
Ejemplo (Código de Hamming)
La dimensión de C es k = 4
La cantidad de mensajes es M = 24 = 16
La tasa del código es R =
log M
n
=
k
n
=
4
7
La siguiente matriz genera C:

1
 0
G=
 0
1
(Facultad de Ingeniería, UdelaR)
1
0
1
0
1
0
1
1
1
1
0
0
1
1
0
1
Teoría de la Información
1
1
1
0

1
1 

1 
1
24 de mayo de 2016
49 / 65
Códigos lineales
Ejemplo (¿Cómo decodificamos?)
Supongamos que se envió una palabra c, pero se recibió una palabra c0 que difiere en
un bit con c. Es decir,
c0 = c + ei ,
donde ei tiene un 1 en la posición i y ceros en el resto. Tenemos
Hc0 = H(c + ei ) = Hc + Hei = Hei
que es la i−ésima columna de H. Por lo tanto conocemos i, y podemos recuperar la
palabra enviada c
(¿qué pasa si ocurren 2 errores?)
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
50 / 65
Más códigos
Otros códigos
Utilizando técnicas más sofisticadas se construyen códigos mucho mejores:
Reed-Solomon
BCH (Bose, Ray-Chaudhuri, Hocquenghem)
LDPC (Low Density Parity-Check Codes)
Turbo-Codes
Cursos sobre estos temas
El NTI dicta dos cursos sobre estos temas:
TCACE: Teoría de Códigos Algebraicos para la Corrección de Errores
TCA: Teoría de Códigos Avanzado
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
51 / 65
Aplicaciones
Algunas aplicaciones
LDPC
I
I
IEEE 802.16
DVB-S2 (Digital Video Broadcasting - Satellite - Second Generation)
Turbo-Codes
I
I
I
3G
IEEE 802.16
NASA (Mars Reconnaissance Orbiter)
Reed-Solomon
I
I
I
I
CD
DVD
DSL
NASA (Mars Pathfinder)
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
52 / 65
Canales con realimentación
Xi (W, Y i−1 )
W
-
Codif.
mensaje
?-
Canal
p (y|x)
Yi
q - Decod.
Ŵ
-
6
Cada símbolo recibido es devuelto inmediatamente y sin ruido al transmisor.
¿Puede este esquema mejorar la capacidad?
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
53 / 65
Canales con realimentación
Xi (W, Y i−1 )
W
-
Codif.
mensaje
?-
Canal
p (y|x)
Yi
q - Decod.
Ŵ
-
6
Cada símbolo recibido es devuelto inmediatamente y sin ruido al transmisor.
¿Puede este esquema mejorar la capacidad?
La respuesta es no!
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
53 / 65
Capacidad de CF B
Teorema (Capacidad del canal con realimentación)
CF B = C = máx I(X; Y )
p(X)
Demostración (1):
Como cualquier código de canal sin realimentación se puede usar en un canal
con realimentación (ignorando la información adicional), claramente
CF B ≥ C .
Para probar que CF B ≤ C procedemos de forma parecida a la demostración del
recíproco del segundo teorema de Shannon,
pero no vale el lema demostrado anteriormente para acotar I(X n ; Y n ) ...
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
54 / 65
Capacidad de CF B : Demostración (2)
nR = H(W )
=
F ano
≤
H(W |Y n ) + I(W ; Y n )
1 + Pe(n) nR + I(W ; Y n )
Ahora hay que acotar I(W ; Y n ):
I(W ; Y n )
=
cadena
=
H(Y n ) − H(Y n |W )
n
X
H(Y n ) −
H(Yi |Y1 , . . . , Yi−1 , W )
i=1
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
55 / 65
Capacidad de CF B : demostración (3)
cadena
=
(a)
=
(b)
=
H(Y n ) −
H(Y n ) −
H(Y n ) −
n
X
i=1
n
X
i=1
n
X
H(Yi |Y1 , . . . , Yi−1 , W )
H(Yi |Y1 , . . . , Yi−1 , W, Xi )
H(Yi |Xi )
i=1
(a) X es función de W e Y i−1 .
(b) Yi es condicionalmente independiente de Y i−1 , W dado X.
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
56 / 65
Capacidad de CF B : Demostración (4)
I(W ; Y n ) =
H(Y n ) −
n
X
H(Yi |Xi )
i=1
≤
=
n
X
i=1
n
X
H(Yi ) −
n
X
H(Yi |Xi )
i=1
I(Yi ; Xi )
i=1
≤
nC
Combinando esta cota con la desigualdad de Fano se obtiene:
nR ≤ 1 + Pe(n) nR + nC
Dividiendo por n y con n → ∞ se obtiene R ≤ C, y luego CF B ≤ C. Combinando esto
y CF B ≥ C,
C = CF B
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
57 / 65
Codificación conjunta fuente-canal: uniendo teoremas
Vn
Xn
-
Codif.
fuente
-
Canal
p (y|x)
Yn
V̂ n
- Decod.
-
Vimos que R > H (primer teorema de Shannon)
Tambien vimos que R < C (segundo teorema de Shannon)
¿Será cierto que H < C es condición necesaria y suficiente para transmitir los
datos de una fuente por un canal con capacidad C?
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
58 / 65
Separar o no separar?
Supongamos que queremos transmitir audio por un canal.
Podríamos diseñar un código que mapee directamente las muestras de audio a la
entrada del canal.
También podríamos comprimir el audio al máximo, y luego crear un código
adecuado al canal.
No es obvio que ambos esquemas sean equivalentes
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
59 / 65
Codificación conjunta: formalización del problema
Vn
Xn
-
Codif.
-
fuente
Canal
p (y|x)
Yn
V̂ n
- Decod.
-
Fuente V que cumple AEP (por ejemplo Markov irreducible y aperiódica)
Secuencia a enviar V n = V1 , . . . , Vn , Vi ∈ V
Codifica como X n (V n )
Decodificada como V̂ n = g(Y n )
(n)
Error si V̂ n 6= V n . Denotamos con Pe
(Facultad de Ingeniería, UdelaR)
la probabilidad de error.
Teoría de la Información
24 de mayo de 2016
60 / 65
Teorema (Codificación conjunta fuente-canal)
Sea V1 , V2 , . . . , Vn . . . un proceso estocástico con tasa de entropía H (V) que cumple
la AEP .
(n)
Si H (V) < C, existe una sucesión de códigos de fuente a canal tal que Pe
→ 0.
(n)
Si H (V) > C y el proceso es estacionario, Pe se mantiene apartada de 0 y no
es posible enviar los datos por el canal con probabilidad de error arbitrariamente
pequeña.
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
61 / 65
Codificación conjunta: directo
Se codifican sólo secuencias típicas. Las no típicas producen error.
Esto contribuye a lo sumo al error.
(n)
|A | ≤ 2n(H(V)+) .
(n)
Se enumera A
y se envía el índice de la secuencia usando n(H (V) + ) bits.
Se decodifica con probabilidad de error menor que si H (V) + = R < C.
Formalizando:
Pe(n) = P (V n ∈ (A(n) )c ) + p (g(Y n ) 6= X n ) ≤ + = 2
O sea que para n suficientemente grande, puede reconstruirse la secuencia
original con probabilidad de error arbitrariamente chica si H (V) < C.
Observar que el esquema de codificación usado en la demostración separa las etapas
de codificación de fuente y codificación de canal.
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
62 / 65
Codificación conjunta: recíproco
(n)
Queremos ver que Pe
conjuntos:
→ 0 implica H (V) ≤ C para toda secuencia de códigos
X n (V n ) : V n → X n ,
g(Y n ) : Y n → V n .
Para este código se cumple
(a)
H (V)
≤
=
=
H(V1 , V2 , . . . , Vn )
n
H(V n )
n
1
1
H(V n |V̂ n ) + I(V n ; V̂ n )
n
n
donde (a) surge de la definición de tasa de entropía y de la monotonía del lado
derecho para un proceso estacionario (ver ejercicio 4.6).
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
63 / 65
Codificación conjunta: recíproco (2)
Tenemos que
1
1
H(V n |V̂ n ) + I(V n ; V̂ n ).
n
n
Aplicando la desigualdad de Fano
H (V) ≤
H(V n |V̂ n ) ≤ 1 + Pe(n) log |V n | = 1 + Pe(n) n log |V|
≤
H (V)
V n →X n →Y n →V̂ n
≤
DM C
≤
(n)
Esto implica que si Pe
(Facultad de Ingeniería, UdelaR)
1
n
1
n
1
n
1
1 + Pe(n) n log |V| + I(V n ; V̂ n )
n
1
1 + Pe(n) n log |V| + I(X n ; Y n )
n
+ Pe(n) log |V| + C
→ 0 debemos tener H (V) ≤ C.
Teoría de la Información
24 de mayo de 2016
64 / 65
Codificación conjunta: conclusiones
Se demuestra entonces que puede enviarse la información generada por una
fuente estacionaria y ergódica con probabilidad de error arbitrariamente chica si
su tasa de entropía es menor que la capacidad del canal, y no es posible si su
tasa de entropía es mayor que la capacidad del canal.
Con este resultado se unen los dos teoremas de Shannon.
De la demostración surge que no se pierde nada al separar el proceso de
compresión del de codificación de canal
(Facultad de Ingeniería, UdelaR)
Teoría de la Información
24 de mayo de 2016
65 / 65
Descargar