Introducción a la Teoría de la Información Capacidad del canal Facultad de Ingeniería, UdelaR 24 de mayo de 2016 (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 1 / 65 Modelo matemático de sistema de comunicación yn xn w - Codif. - Canal ŵ - Decod. - mensaje Transmisión de un mensaje: 1 fuente de datos genera mensaje w ∈ W, 2 codificador mapea w a una palabra de código xn ∈ X n , 3 xn se modifica al pasar por canal, resultando en y n ∈ Y n , 4 decodificador infiere mensaje enviado ŵ a partir de y n . 5 Transmisión exitosa si ŵ = w. (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 2 / 65 Sinopsis yn xn w - Codif. - Canal ŵ - Decod. - mensaje Capacidad del canal ¿A qué tasa, medida en bits por uso de canal, se puede transmitir información a través de un canal? Es una propiedad exclusiva del canal Segundo teorema de Shannon Es posible transmitir por un canal ruidoso con tasa no nula y probabilidad de error arbitrariamente pequeña (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 3 / 65 Importancia Uno de los teoremas con más impacto práctico: la era digital Internet, celulares, telecomunicaciones, computadoras, etc.! Antes de Shannon, se consideraba imposible (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 4 / 65 Temas Definición de capacidad de canal El segundo teorema de Shannon Ejemplos de códigos prácticos de corrección de errores Canales con realimentación Separabilidad y codificación conjunta fuente-canal (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 5 / 65 Capacidad de canal (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 6 / 65 Canal discreto sin memoria (DMC) Xn W - Codif. - mensaje Canal p (Y |X) Yn Ŵ - Decod. - Definición (Canal discreto sin memoria (DMC)) Canal: terna (X , p (Y |X) , Y) Entrada al canal: X ∈ X , |X | < ∞ (alfabeto de entrada: X ) Salida del canal: Y ∈ Y, |Y| < ∞ (alfabeto de salida: Y) Sin memoria: Yk es independiente de Xj , Yj , j 6= k ∆ Matriz de transición de prob.: Π = {πij = p (Y = j|X = i)} (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 7 / 65 Código de canal (M,n) Definición (Código de canal (M, n)) Mensajes: w ∈ J, J = {1, 2, . . . , M } Función de codificación: X n : J → X n . Función de decodificación: g : Y n → J . Definición (Codebook) Se le llama codebook al conjunto imagen de X n , es decir: {X n (1) . . . X n (M )}. (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 8 / 65 Probabilidad de error de un código Error asociado a mensaje i: λi = = Pr {g(Y n ) 6= i | W = i} X p (y n | xn (i)) y n :g(y n )6=i Error maximal λ(n) = máx λi i∈J Error promedio: Pe(n) = (Facultad de Ingeniería, UdelaR) M 1 X λi M i=1 Teoría de la Información 24 de mayo de 2016 9 / 65 Capacidad (de operación) de un canal Definición (Tasa R de un código (M, n)) R= log M n Se mide en bits por uso del canal (logaritmo en base 2) Una tasa R se dice alcanzable para un canal si existe una secuencia de códigos 2nR , n tal que λ(n) → 0 cuando n → ∞. Definición (Capacidad (de operación) de un canal) Es el supremo de las tasas alcanzables, C 0 = sup{R : R alcanzable} (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 10 / 65 Capacidad (de información) de un canal Definición (Capacidad (de información) de un canal) Sea P el conjunto de todas las distribuciones de probabilidad sobre X . Definimos la capacidad (de información) de un canal como ∆ C = máx I (X; Y ) . p(X)∈P Observaciones: Dado un canal, que define la distribución de probabilidad condicional p(Y |X), I es una función continua de p(X). P es un conjunto compacto y por lo tanto I alcanza el máximo. 0 ≤ C, C ≤ log |X |, C ≤ log |Y|. En general, C no tiene forma cerrada, pero se puede calcular numéricamente. (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 11 / 65 Capacidad de un canal sin ruido Π= C = máx I (X; Y ) = máx {H (X) − H (X|Y )} 1 0 0 1 p(X) p(X) = 1 -1 0 -0 máx {H (X) − 0} = 1 p(X) (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 12 / 65 Capacidad del canal binario simétrico (BSC) I (X; Y ) = = Π= H (Y ) − H (Y |X) X H (Y ) − p (x) H (Y |X = x) 1−π π π 1−π x = H (Y ) − X p (x)h(π) 1 Q x C = H (Y ) − h(π). = máx {H(Y ) − h(π)} Q Q π QQ π 1−π Q 0 p(x) = 1−π Q - 1 3 Qs 0 Q máx{H(Y )} − h(π) p(x) = 1 − h(π) . (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 13 / 65 Capacidad del canal con borraduras Π= I(X; Y ) = = H (X) − H (X|Y ) X H (X) − p (y) H (X|Y = y) y 1−e 0 1Q e e -1 1−α Q = H (X) − p (e) H (X|Y = e) = (1 − α) H (X) . Q Q Q α Q s Q 3e Máximo C = (1 − α), alcanzado para p (x) uniforme. α 0 (Facultad de Ingeniería, UdelaR) 0 1−e Teoría de la Información 1−α -0 24 de mayo de 2016 14 / 65 Teorema de codificación del canal (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 15 / 65 Sinopsis Dos definiciones de capacidad: De información: C = máx I (X; Y ) p(X) De operación: C 0 = sup{R : R alcanzable} Esencia del segundo teorema de Shannon: Ambas coinciden: C = C0 (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 16 / 65 Planteo formal Xn W - Codif. mensaje - Canal p (Y |X) Yn Ŵ - Decod. - Mensaje W ∈ J, J = {1, 2, . . . , M } Palabra de código enviada: X n (W ) ∈ X n Canal DMC Palabra de código recibida: Y n ∈ Y n Mensaje decodificado: Ŵ = g (Y n ) Error de transmisión: W 6= Ŵ (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 17 / 65 Teorema de codificación de canal: idea de la prueba Basado en AEP conjunta. n grande. cada entrada típica, xn , induce aproximadamente 2nH(Y |X) salidas típicas . . . Xn Yn . . . y hay aproximadamente 2nH(Y ) salidas típicas en total. xn 2 ((((( ( h( h( hhhhhhm Para que no haya error, hay que repartir esas 2nH(Y ) en conjuntos disjuntos de tamaño 2nH(Y |X) . xn 1 ((((( ( h( h( hhhhhhm J J J Esto da lugar a aproximadamente 2nH(Y ) /2nH(Y |X) = 2nI(X;Y ) palabras distintas. (Facultad de Ingeniería, UdelaR) Teoría de la Información 2nH(Y |X) 24 de mayo de 2016 18 / 65 Paréntesis: AEP conjunta Xn Yn xn 2 ((((((m (h (h h hhhhh xn 1 ((((((m (h (h h hhhhh J J J 2nH(Y |X) (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 19 / 65 Repaso: conjuntos típicos ∆ Sean X1 . . . Xn variables aleatorias i.i.d., Xi ∼ p (X). Sea H = H(Xi ). Definición (Conjunto típico) (n) El conjunto típico A con respecto a p (X) es el conjunto de secuencias que cumplen 2−n(H+) ≤ P (x1 . . . xn ) ≤ 2−n(H−) . Propiedades (n) (x1 . . . xn ) ∈ A (n) P {A } >1− ⇔ H − ≤ − n1 log P (x1 . . . xn ) ≤ H + para n suficientemente grande. (n) |A | ≤ 2n(H+) (n) |A | ≥ (1 − )2n(H−) (Facultad de Ingeniería, UdelaR) para n suficientemente grande. Teoría de la Información 24 de mayo de 2016 20 / 65 Tipicalidad conjunta Sean {(Xi , Yi )}i=1,...,n variables aleatorias i.i.d., (Xi , Yi ) ∼ p (X, Y ). Sea ∆ H = H(Xi , Yi ). Definición (n) El conjunto A de secuencias conjuntamente típicas son los pares (xn , y n ) tales que xn es típica según p (xn ), 1 − log p (xn ) − H (X) ≤ , n y n es típica según p (y n ), 1 − log p (y n ) − H (Y ) ≤ , n (xn , y n ) es típico según p (xn , y n ), 1 − log p (xn , y n ) − H (X, Y ) ≤ . n (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 21 / 65 AEP conjunta Teorema 1 n o (n) Pr (X n , Y n ) ∈ A → 1 cuando n → ∞ 2 |A | ≤ 2n(H(X,Y )+e) 3 (n) Sean X̃ n , Ỹ n secuencias aleatorias con la misma distribución marginal que X n , Y n , respectivamente, pero independientes entre sí, es decir, (X̃ n , Ỹ n ) ∼ p (xn ) p (y n ) . Entonces se cumple n o Pr (X̃ n , Ỹ n ) ∈ A(n) ≤ 2−n(I(X;Y )+3) y, para n suficientemente grande, o n Pr (X̃ n , Ỹ n ) ∈ A(n) ≥ (1 − )2−n(I(X;Y )−3) . Observación: El punto 3 dice que la probabilidad de que dos secuencias independientes, cada una marginalmente típica, resulten conjuntamente típicas por azar, decrece exponencialmente con la información mutua entre X, Y . (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 22 / 65 AEP conjunta: prueba de 3 Si X̃ n e Ỹ n son independientes con marginales idénticas a p (xn , y n ) entonces, desarrollando por cotas superiores, n o X Pr (X̃ n , Ỹ n ) ∈ A(n) = p (xn ) p (y n ) (n) (xn ,y n )∈A (Facultad de Ingeniería, UdelaR) ≤ (n) −n(H(X)−) −n(H(Y )−) 2 A 2 ≤ 2n(H(X,Y )+) 2−n(H(X)−) 2−n(H(Y )−) = 2n(H(X,Y )+)−n(H(X)−)−n(H(Y )−) = 2−n(I(X;Y )−3) Teoría de la Información 24 de mayo de 2016 23 / 65 AEP conjunta: prueba de 3 Haciendo lo mismo pero con las cotas inferiores n o X Pr (X̃ n , Ỹ n ) ∈ A(n) = p (xn ) p (y n ) (n) (xn ,y n )∈A ≥ (n) −n(H(X)+) −n(H(Y )+) 2 A 2 ≥ (1 − )2n(H(X,Y )−) 2−n(H(X)+) 2−n(H(Y )+) = (1 − )2n(H(X,Y )−)−n(H(X)+)−n(H(Y )+) = (1 − )2−n(I(X;Y )+3) (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 24 / 65 Prueba del Segundo Teorema de Shannon (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 25 / 65 Intuición Yn Xn xn 2 m xn 1 m 2nH(Y |X) Para bloques suficientemente largos entra en juego la AEP conjunta. Por cada secuencia típica de entrada, xn , hay aproximadamente 2nH(Y |X) secuencias conjuntamente típicas en Y n . No queremos que dos secuencias de X n produzcan el mismo y n (sino es imposible decidir!) I los subconjuntos inducidos en Y n no se deben solapar! (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 26 / 65 Intuición Yn Xn (n) (n) A xn 2 A 2nH(Y ) m 2nH(Y |X) (((( ( m xn 1 Hay aproximadamente 2nH(Y ) secuencias típicas en Y n . Los subconjuntos inducidos en Y n tienen aproximadamente 2nH(Y |X) secuencias condicionalmente típicas. La cantidad máxima de conjuntos disjuntos es aproximadamente 2nH(Y ) /2nH(Y |X) = 2n(H(Y )−H(Y |X)) = 2nI(X;Y ) (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 27 / 65 Enunciado Teorema (Teorema de codificación de canal) Todas las tasas R bajo la capacidad del canal C son alcanzables. Específicamente, para cada R < C existe una secuencia de códigos (2nR , n) con probabilidad de error máxima, λ(n) , que satisface λ(n) → 0. Recíprocamente, cualquier secuencia de códigos (2nR , n) con λ(n) → 0 implica R ≤ C. (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 28 / 65 Demostración del directo (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 29 / 65 Demostración: esquema de codificación aleatoria Consideremos el siguiente experimento: 1 Sorteamos un Codebook, C = {xn (w)}w=1,...,nR , aleatorio según p (X), donde p (X) alcanza el máximo de I(X; Y ) en la definición de capacidad de información del canal. Xn Yn r r r r r r (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 30 / 65 Demostración: esquema de codificación aleatoria Consideremos el siguiente experimento: 1 2 Sorteamos un Codebook, C = {xn (w)}w=1,...,nR , aleatorio según p (X), donde p (X) alcanza el máximo de I(X; Y ) en la definición de capacidad de información del canal. Xn Yn r r r C se da a conocer a transmisor y receptor (el canal se supone conocido) r r r (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 30 / 65 Demostración: esquema de codificación aleatoria Consideremos el siguiente experimento: 1 Sorteamos un Codebook, C = {xn (w)}w=1,...,nR , aleatorio según p (X), donde p (X) alcanza el máximo de I(X; Y ) en la definición de capacidad de información del canal. 2 C se da a conocer a transmisor y receptor (el canal se supone conocido) 3 Se sortea un mensaje W uniformemente en J, Pr {W = w} = 2−nR . Xn Yn r r r X n (W ) r sr r (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 30 / 65 Demostración: esquema de codificación aleatoria Consideremos el siguiente experimento: 1 Sorteamos un Codebook, C = {xn (w)}w=1,...,nR , aleatorio según p (X), donde p (X) alcanza el máximo de I(X; Y ) en la definición de capacidad de información del canal. 2 C se da a conocer a transmisor y receptor (el canal se supone conocido) 3 Se sortea un mensaje W uniformemente en J, Pr {W = w} = 2−nR . 4 La palabra W -ésima del código, X n (W ), es enviada por el transmisor. (Facultad de Ingeniería, UdelaR) Teoría de la Información Xn Yn r r r X n (W ) r sr - r 24 de mayo de 2016 30 / 65 Demostración: esquema de codificación aleatoria Consideremos el siguiente experimento: 1 Sorteamos un Codebook, C = {xn (w)}w=1,...,nR , aleatorio según p (X), donde p (X) alcanza el máximo de I(X; Y ) en la definición de capacidad de información del canal. 2 C se da a conocer a transmisor y receptor (el canal se supone conocido) 3 Se sortea un mensaje W uniformemente en J, Pr {W = w} = 2−nR . 4 5 La palabra W -ésima del código, X n (W ), es enviada por el transmisor. El receptor recibe Y n de acuerdo a: Pr {y n |xn (W )} = n Y Xn Yn r r r X n (W ) r sr -s r p (yi |xi (W )) i=1 (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 30 / 65 Demostración: decodificación por tipicalidad conjunta 6 El receptor decodifica la secuencia recibida, Y n , como el mensaje Ŵ definido de la siguiente manera: Xn Yn r r r r rs -s r (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 31 / 65 Demostración: decodificación por tipicalidad conjunta 6 El receptor decodifica la secuencia recibida, Y n , como el mensaje Ŵ definido de la siguiente manera: I Xn Yn r Si existe un único mensaje, w, tal que (X n (w), Y n ) es conjuntamente típico, se define Ŵ = w. r r X n (w) r rs -s r (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 31 / 65 Demostración: decodificación por tipicalidad conjunta 6 El receptor decodifica la secuencia recibida, Y n , como el mensaje Ŵ definido de la siguiente manera: I I Si existe un único mensaje, w, tal que (X n (w), Y n ) es conjuntamente típico, se define Ŵ = w. En caso contrario se define arbitrariamente Ŵ = 0. Xn Yn r r r : sr -s r s X n (w) X n (w0 ) r (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 31 / 65 Demostración: decodificación por tipicalidad conjunta 6 El receptor decodifica la secuencia recibida, Y n , como el mensaje Ŵ definido de la siguiente manera: I I 7 Si existe un único mensaje, w, tal que (X n (w), Y n ) es conjuntamente típico, se define Ŵ = w. En caso contrario se define arbitrariamente Ŵ = 0. Se da un error de decodificación cuando ocurre el evento E = {W 6= Ŵ }. Xn Yn r r r : sr -s r s X n (w) X n (w0 ) r (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 31 / 65 Demostración: decodificación por tipicalidad conjunta 6 El receptor decodifica la secuencia recibida, Y n , como el mensaje Ŵ definido de la siguiente manera: I I Si existe un único mensaje, w, tal que (X n (w), Y n ) es conjuntamente típico, se define Ŵ = w. En caso contrario se define arbitrariamente Ŵ = 0. 7 Se da un error de decodificación cuando ocurre el evento E = {W 6= Ŵ }. 8 Notar que existen tres factores aleatorios que determinan la existencia o no de un error de decodificación en este experimento 1 2 3 Xn Yn r r r : sr -s r s X n (w) X n (w0 ) r El sorteo del codebook, El sorteo del mensaje, El efecto del canal. (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 31 / 65 Demostración: análisis de la prob. de error Definimos los eventos n o Ti = (X n (i), Y n ) ∈ A(n) , 1 ≤ i ≤ 2nR , es decir, X n (i) es conjuntamente típica con Y n , y el evento n o T c = (X n (i), Y n ) 6∈ A(n) , ∀i, 1 ≤ i ≤ 2nR , es decir, Y n no es conjuntamente típica con ninguna palabra de código. El evento Ew , {Ŵ 6= w}, w ∈ J, se puede descomponer como [ Ew ⊆ T c ∪ Ti , i∈J\{w} de donde acotamos P (E|W = w) ≤ p (T c |W = w) + X p (Ti |W = w) i∈J\{w} (Facultad de Ingeniería, UdelaR) ≤ + (2nR − 1)2−n(I(X;Y )−3) ≤ + 2−n(I(X;Y )−R−3) = + 2−n(C−R−3) ≤ 2 , si R < C − 3 y n > N0 , para algún N0 . Teoría de la Información 24 de mayo de 2016 32 / 65 Demostración: análisis de la prob. de error Concluimos que si R < C, podemos elegir suficientemente chico de modo que para todo n suficientemente grande se cumple que P (E|W = w) ≤ 2 para todo w ∈ J. Por lo tanto, tenemos X X P (W = w) = 2 . P (E) = P (E|W = w)P (W = w) ≤ 2 w∈J w∈J Por otra parte, también podemos escribir X P (E) = P (C)Pe(n) (C) , C (n) donde recordamos que Pe (C) es la probabilidad de error que se obtiene con el código C cuando todos los mensajes son equiprobables. Observamos que la probabilidad de error promediada sobre todos los códigos es menor o igual que 2, lo cual implica que al menos uno de ellos, C ∗ , cumple que (n) Pe (C ∗ ) ≤ 2. (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 33 / 65 Demostración: refinamiento del código El código C ∗ satisface 2 ≥ 1 X λi (C ∗ ) . 2nR Formamos un código C ∗ con las 2nR−1 palabras con menor probabilidad de error de C ∗ , es decir, descartamos la peor mitad de las palabras de C ∗ . En C ∗ todas las palabras de código tienen probabilidad de error que satisface λi ≤ 4 (sino la suma de la mitad descartada daría más que 2). La tasa de C ∗ es R − 1 , n que tiende a R con n → ∞. Final Dados R < C y > 0 arbitrarios, demostramos que existe un código con tasa R0 = R − n1 con probabilidad de error maximal λ(n) ≤ 4. Esto demuestra que cualquier tasa bajo la capacidad del canal C es alcanzable. (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 34 / 65 Demostración del recíproco (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 35 / 65 Esquema de la prueba (n) Empezaremos con el caso más simple Pe = 0. A partir de ese caso, y ayudados por la desigualdad de Fano, se demuestra el recíproco. Reveremos la desigualdad de Fano en el contexto del teorema. (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 36 / 65 Caso simple: probabilidad de error 0 Probabilidad de error 0 (n) Probaremos que Pe = 0 implica R ≤ C. (n) Notar que el hecho de que Pe sea que H(W |Y n ) = 0. (Facultad de Ingeniería, UdelaR) = 0 implica que g(Y n ) = W con probabilidad 1, o Teoría de la Información 24 de mayo de 2016 37 / 65 Probabilidad de error 0: lema Lema (Cota de info. mutua) Sea Y n el resultado de transmitir X n a través de un canal DMC de capacidad C. Entonces, para toda distribución p(xn ) se cumple n X I(X n ; Y n ) ≤ I(Yi ; Xi ) ≤ nC . i=1 Demostración I(X n ; Y n ) def. = cadena = H(Y n ) − H(Y n |X n ) n X H(Y n ) − H(Yi |Y1 , Y2 , . . . , Yi−1 , X n ) i=1 DMC = H(Y n ) − n X H(Yi |Xi ) i=1 ≤ = n X i=1 n X H(Yi ) − n X H(Yi |Xi ) i=1 I(Yi ; Xi ) ≤ nC i=1 (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 38 / 65 Probabilidad de error 0 (n) Teorema (Recíproco del teorema de codificación de canal cuando Pe (n) Toda secuencia de códigos (2nR , n) con Pe = 0.) = 0 debe cumplir R ≤ C. Demostración Sea W distribuida uniformemente en J. Entonces, nR = H(W ) = H(W |Y n ) + I(W ; Y n ) = I(W ; Y n ) (a) ≤ I(X n ; Y n ) (b) ≤ nC (a) desigualdad de la información. (b) Lema demostrado en diapositiva anterior. (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 39 / 65 Desigualdad de Fano para codificación de canal Recordatorio: Corolario (de la desigualdad de Fano) Sean X, Y variables aleatorias, sea X̂ una estimación de X tal que X → Y → X̂ y sea Pe = P {X̂ 6= X}. Entonces 1 + Pe log(|X | − 1) ≥ H(X|X̂) ≥ H(X|Y ) . En el contexto del problema que estamos estudiando, este resultado lo podemos expresar de la siguiente manera Lema (Desigualdad de Fano) Paraun canal discreto sin memoria y un mensaje W distribuido uniformemente sobre J = 1, 2, . . . , 2nR se tiene H (W |Y n ) ≤ 1 + Pe(n) nR , donde Y n es la secuencia observada a la salida del canal cuando se transmite X n (W ). (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 40 / 65 Recíproco: demostración Teorema (Recíproco del teorema de codificación de canal.) (n) Toda secuencia de códigos (2nR , n) con Pe → 0 debe cumplir R ≤ C. Demostración nR = H(W ) = (a) ≤ (b) ≤ (c) ≤ H(W |Y n ) + I(W ; Y n ) H(W |Y n ) + I(X n ; Y n ) 1 + Pe(n) nR + I(X n ; Y n ) 1 + Pe(n) nR + nC donde (a) es consecuencia de que W → X n → Y n y la desigualdad de procesamiento de datos, (b) de la desigualdad de Fano y (c) del lema anterior. Por lo tanto, R ≤ 1/n + Pe(n) R + C , (n) lo cual prueba que si Pe → 0 entonces R ≤ C. (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 41 / 65 Recíproco: conclusiones Error para tasas superiores a C: De la última ecuación de la demostración obtenemos Pe(n) ≥ 1 − C 1 − , R nR (n) que muestra que si R > C existe δ > 0 tal que Pe grande. > δ para n suficientemente El recíproco anterior es denominado el “recíproco débil”, (n) Se puede demostrar un “recíproco fuerte”: Pe tasas por encima de C (Facultad de Ingeniería, UdelaR) Teoría de la Información → 1 exponencialmente para 24 de mayo de 2016 42 / 65 Códigos prácticos de canal (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 43 / 65 Códigos de canal Shannon promete códigos buenos, pero no nos dice cómo hallarlos Además de baja probabilidad de error, los códigos deben admitir implementaciones eficientes En esta sección veremos algunos ejemplos de codificación de canal muy sencillos TCACE El NTI dicta un curso específico para este tema, “TCACE: Teoría de Códigos Algebraicos para la Corrección de Errores” (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 44 / 65 Códigos lineales Notación Denotamos Fq al cuerpo finito de q elementos. Ejemplo: F2 es el conjunto {0, 1} con la suma y el producto módulo 2 (XOR y AND) Definición Decimos que un código (M, n), C, es lineal, si es un subespacio de F n sobre F , con |C| = M Si k es la dimensión de C sobre F , entonces es M = q k (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 45 / 65 Códigos lineales Definición Decimos que una matriz G es generadora de C sobre F cuando sus filas forman una base de C (la matriz generadora no es única) Para codificar una palabra u, simplemente se multiplica por G: u 7−→ uG La matriz G tiene dimensiones k × n Ejemplo (Paridad) El código de paridad (4, 3) es el generado por la siguiente matriz 1 0 1 G= 0 1 1 (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 46 / 65 Códigos lineales Definición Decimos que una matriz H es de chequeo de paridad de un código C sobre F cuando: c ∈ C =⇒ HcT = 0 El código C es entonces el núcleo de H Ejemplo (Paridad) La matriz de chequeo de paridad para el código de paridad (4, 3) es: H= 1 1 1 (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 47 / 65 Códigos lineales Ejemplo (Código de Hamming) El código de Hamming es el definido por la siguiente matriz de chequeo de paridad: 0 0 0 1 1 1 1 H= 0 1 1 0 0 1 1 1 0 1 0 1 0 1 La dimensión de C es k = 4; hay M = 24 palabras: 0000000 0001111 0010110 0011001 (Facultad de Ingeniería, UdelaR) 0100101 0101010 0110011 0111100 1000011 1001100 1010101 1011010 Teoría de la Información 1100110 1101001 1110000 1111111 24 de mayo de 2016 48 / 65 Códigos lineales Ejemplo (Código de Hamming) La dimensión de C es k = 4 La cantidad de mensajes es M = 24 = 16 La tasa del código es R = log M n = k n = 4 7 La siguiente matriz genera C: 1 0 G= 0 1 (Facultad de Ingeniería, UdelaR) 1 0 1 0 1 0 1 1 1 1 0 0 1 1 0 1 Teoría de la Información 1 1 1 0 1 1 1 1 24 de mayo de 2016 49 / 65 Códigos lineales Ejemplo (¿Cómo decodificamos?) Supongamos que se envió una palabra c, pero se recibió una palabra c0 que difiere en un bit con c. Es decir, c0 = c + ei , donde ei tiene un 1 en la posición i y ceros en el resto. Tenemos Hc0 = H(c + ei ) = Hc + Hei = Hei que es la i−ésima columna de H. Por lo tanto conocemos i, y podemos recuperar la palabra enviada c (¿qué pasa si ocurren 2 errores?) (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 50 / 65 Más códigos Otros códigos Utilizando técnicas más sofisticadas se construyen códigos mucho mejores: Reed-Solomon BCH (Bose, Ray-Chaudhuri, Hocquenghem) LDPC (Low Density Parity-Check Codes) Turbo-Codes Cursos sobre estos temas El NTI dicta dos cursos sobre estos temas: TCACE: Teoría de Códigos Algebraicos para la Corrección de Errores TCA: Teoría de Códigos Avanzado (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 51 / 65 Aplicaciones Algunas aplicaciones LDPC I I IEEE 802.16 DVB-S2 (Digital Video Broadcasting - Satellite - Second Generation) Turbo-Codes I I I 3G IEEE 802.16 NASA (Mars Reconnaissance Orbiter) Reed-Solomon I I I I CD DVD DSL NASA (Mars Pathfinder) (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 52 / 65 Canales con realimentación Xi (W, Y i−1 ) W - Codif. mensaje ?- Canal p (y|x) Yi q - Decod. Ŵ - 6 Cada símbolo recibido es devuelto inmediatamente y sin ruido al transmisor. ¿Puede este esquema mejorar la capacidad? (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 53 / 65 Canales con realimentación Xi (W, Y i−1 ) W - Codif. mensaje ?- Canal p (y|x) Yi q - Decod. Ŵ - 6 Cada símbolo recibido es devuelto inmediatamente y sin ruido al transmisor. ¿Puede este esquema mejorar la capacidad? La respuesta es no! (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 53 / 65 Capacidad de CF B Teorema (Capacidad del canal con realimentación) CF B = C = máx I(X; Y ) p(X) Demostración (1): Como cualquier código de canal sin realimentación se puede usar en un canal con realimentación (ignorando la información adicional), claramente CF B ≥ C . Para probar que CF B ≤ C procedemos de forma parecida a la demostración del recíproco del segundo teorema de Shannon, pero no vale el lema demostrado anteriormente para acotar I(X n ; Y n ) ... (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 54 / 65 Capacidad de CF B : Demostración (2) nR = H(W ) = F ano ≤ H(W |Y n ) + I(W ; Y n ) 1 + Pe(n) nR + I(W ; Y n ) Ahora hay que acotar I(W ; Y n ): I(W ; Y n ) = cadena = H(Y n ) − H(Y n |W ) n X H(Y n ) − H(Yi |Y1 , . . . , Yi−1 , W ) i=1 (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 55 / 65 Capacidad de CF B : demostración (3) cadena = (a) = (b) = H(Y n ) − H(Y n ) − H(Y n ) − n X i=1 n X i=1 n X H(Yi |Y1 , . . . , Yi−1 , W ) H(Yi |Y1 , . . . , Yi−1 , W, Xi ) H(Yi |Xi ) i=1 (a) X es función de W e Y i−1 . (b) Yi es condicionalmente independiente de Y i−1 , W dado X. (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 56 / 65 Capacidad de CF B : Demostración (4) I(W ; Y n ) = H(Y n ) − n X H(Yi |Xi ) i=1 ≤ = n X i=1 n X H(Yi ) − n X H(Yi |Xi ) i=1 I(Yi ; Xi ) i=1 ≤ nC Combinando esta cota con la desigualdad de Fano se obtiene: nR ≤ 1 + Pe(n) nR + nC Dividiendo por n y con n → ∞ se obtiene R ≤ C, y luego CF B ≤ C. Combinando esto y CF B ≥ C, C = CF B (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 57 / 65 Codificación conjunta fuente-canal: uniendo teoremas Vn Xn - Codif. fuente - Canal p (y|x) Yn V̂ n - Decod. - Vimos que R > H (primer teorema de Shannon) Tambien vimos que R < C (segundo teorema de Shannon) ¿Será cierto que H < C es condición necesaria y suficiente para transmitir los datos de una fuente por un canal con capacidad C? (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 58 / 65 Separar o no separar? Supongamos que queremos transmitir audio por un canal. Podríamos diseñar un código que mapee directamente las muestras de audio a la entrada del canal. También podríamos comprimir el audio al máximo, y luego crear un código adecuado al canal. No es obvio que ambos esquemas sean equivalentes (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 59 / 65 Codificación conjunta: formalización del problema Vn Xn - Codif. - fuente Canal p (y|x) Yn V̂ n - Decod. - Fuente V que cumple AEP (por ejemplo Markov irreducible y aperiódica) Secuencia a enviar V n = V1 , . . . , Vn , Vi ∈ V Codifica como X n (V n ) Decodificada como V̂ n = g(Y n ) (n) Error si V̂ n 6= V n . Denotamos con Pe (Facultad de Ingeniería, UdelaR) la probabilidad de error. Teoría de la Información 24 de mayo de 2016 60 / 65 Teorema (Codificación conjunta fuente-canal) Sea V1 , V2 , . . . , Vn . . . un proceso estocástico con tasa de entropía H (V) que cumple la AEP . (n) Si H (V) < C, existe una sucesión de códigos de fuente a canal tal que Pe → 0. (n) Si H (V) > C y el proceso es estacionario, Pe se mantiene apartada de 0 y no es posible enviar los datos por el canal con probabilidad de error arbitrariamente pequeña. (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 61 / 65 Codificación conjunta: directo Se codifican sólo secuencias típicas. Las no típicas producen error. Esto contribuye a lo sumo al error. (n) |A | ≤ 2n(H(V)+) . (n) Se enumera A y se envía el índice de la secuencia usando n(H (V) + ) bits. Se decodifica con probabilidad de error menor que si H (V) + = R < C. Formalizando: Pe(n) = P (V n ∈ (A(n) )c ) + p (g(Y n ) 6= X n ) ≤ + = 2 O sea que para n suficientemente grande, puede reconstruirse la secuencia original con probabilidad de error arbitrariamente chica si H (V) < C. Observar que el esquema de codificación usado en la demostración separa las etapas de codificación de fuente y codificación de canal. (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 62 / 65 Codificación conjunta: recíproco (n) Queremos ver que Pe conjuntos: → 0 implica H (V) ≤ C para toda secuencia de códigos X n (V n ) : V n → X n , g(Y n ) : Y n → V n . Para este código se cumple (a) H (V) ≤ = = H(V1 , V2 , . . . , Vn ) n H(V n ) n 1 1 H(V n |V̂ n ) + I(V n ; V̂ n ) n n donde (a) surge de la definición de tasa de entropía y de la monotonía del lado derecho para un proceso estacionario (ver ejercicio 4.6). (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 63 / 65 Codificación conjunta: recíproco (2) Tenemos que 1 1 H(V n |V̂ n ) + I(V n ; V̂ n ). n n Aplicando la desigualdad de Fano H (V) ≤ H(V n |V̂ n ) ≤ 1 + Pe(n) log |V n | = 1 + Pe(n) n log |V| ≤ H (V) V n →X n →Y n →V̂ n ≤ DM C ≤ (n) Esto implica que si Pe (Facultad de Ingeniería, UdelaR) 1 n 1 n 1 n 1 1 + Pe(n) n log |V| + I(V n ; V̂ n ) n 1 1 + Pe(n) n log |V| + I(X n ; Y n ) n + Pe(n) log |V| + C → 0 debemos tener H (V) ≤ C. Teoría de la Información 24 de mayo de 2016 64 / 65 Codificación conjunta: conclusiones Se demuestra entonces que puede enviarse la información generada por una fuente estacionaria y ergódica con probabilidad de error arbitrariamente chica si su tasa de entropía es menor que la capacidad del canal, y no es posible si su tasa de entropía es mayor que la capacidad del canal. Con este resultado se unen los dos teoremas de Shannon. De la demostración surge que no se pierde nada al separar el proceso de compresión del de codificación de canal (Facultad de Ingeniería, UdelaR) Teoría de la Información 24 de mayo de 2016 65 / 65