TEORIA DE LA INFORMACION INDICE NOCIONES DE PROBABILIDADES • PROBABILIDAD DE MAS DE UN EVENTO • DISTRIBUCION DE PROBABILIDADES INFORMACION • SIMBOLOS Y DATOS • ENTROPIA • TASA DE INFORMACION • CAPACIDAD DEL CANAL • TEOREMA DE NYQUIST • TEOREMA DE SHANNON - HARTLEY 1 TEORIA DE LA INFORMACION NOCIONES DE PROBABILIDADES La Teoría de la Probabilidad es el estudio matemático de fenómenos aleatorios (es decir al azar). Por lo tanto estos fenómenos no responden a una ley determinista definida. En muchos fenómenos físicos, se puede conocer de antemano el resultado final si se conoce toda la información relativa al suceso. Llamamos Experimento Aleatorio a aquel en el cual el resultado varía de prueba a prueba y es desconocido de antemano. Un ejemplo simple de experimento aleatorio es arrojar un dado (o una moneda). A cada uno de los resultados del experimento se lo llama evento (algunos autores lo llaman suceso). En este ejemplo los eventos son sacar un uno, sacar un dos, sacar un tres, etc. (en el caso de la moneda sería que caiga cara o seca) La Estadística va de la observación a la cuantificación matemática del hecho, mientras que la Teoría de las Probabilidades va desde el modelo matemático a predecir los resultados del experimento. Siguiendo con el ejemplo del dado, repetiremos el experimento n veces (es decir arrojar el dado) y anotaremos los diferentes eventos (resultados) que vayan ocurriendo. Si los eventos posibles son A, B, C....(un uno, un dos, un tres....) anotaremos nA, nB, nC..., es decir el número de veces que ocurre A, el número de veces que ocurre B, etc. Se define como: ƒra = ça/ç ƒrb = çb/ç frecuencia relativa del evento a , frecuencia relativa del evento b, etc. supongamos que se arroja el dado 60 veces y se obtienen los siguientes resultados: EVENTO 1 2 3 4 5 6 SUMA= Número de veces que ocurre el evento 12 10 14 8 7 9 60 Frecuencia relativa 0.20 0.16 0.23 0.133 0.116 0.15 1 Ahora bien, en un dado (que no este cargado, por lo tanto que el fenómeno sea totalmente impredecible) sabemos que no hay preferencia para que salga un número determinado u otro. Decimos que cada número tiene igual posibilidad de salir o dicho de otra forma igual probabilidad de salir. Como cada dado tiene seis caras, cada una de ellas tendrá un sexto (1/6 = 0,16) de probabilidades de salir. 2 En función de esto, podemos definir: Números de eventos que nos interesan Probabilidad = Número total de eventos posibles Ahora bien, vemos, de acuerdo a la tabla que hemos realizado con nuestro experimento, que no todos los números han salido la sexta parte como la probabilidad indica. Algunos han salido más veces (como el 3), otros menos (como el 5). Esto también parece lógico, ya que de otra forma el juego (todos los juegos de azar) no tendría sentido. Estamos aquí ante lo que parece un contrasentido por lo que debemos compatibilizar ambas ideas. La solución reside en lo que llamamos Ley empírica de los grandes números que dice que cuando el número de experimentos se hace muy grande la frecuencia relativa de cada evento se hace igual a la probabilidad de ocurrencia de ese evento. P(a) = n lim(ça/ç) Para n que tiende a infinito Lógicamente el sentido de esto no es corroborar las expresiones anteriores, sino que generalmente no resulta simple conocer a priori las probabilidades de ocurrencia de cada evento como en el caso de los dados. Es necesario entonces repetir el experimento un número suficientemente grande de veces y elaborar la estadística de los resultados (eventos) que se van obteniendo, entonces sí consideramos a la frecuencia relativa como la probabilidad de ocurrencia de los mismos. PROBABILIDAD DE MAS DE UN EVENTO Vamos a considerar aquí dos casos: 1. La probabilidad de que ocurra un evento ó que ocurra otro 2. La probabilidad de que ocurra un evento y ocurra otro En el primer caso la situación se presenta como la más simple, dado que en este caso los eventos son mutuamente excluyentes. Esto es que la ocurrencia de un evento impide que ocurra otro en forma simultánea . Siguiendo nuestro ejemplo anterior, si al arrojar el dado obtenemos un 3 no existe ninguna posibilidad de que simultaneamente salga un 6. Ahora bien si lo que nos interesa es conocer la probabilidad de que por ejemplo el resultado del evento sea el 3 ó el 6 (es decir cualquiera de los dos), como de acuerdo a lo que vimos anteriormente cada uno de ellos tiene la probabilidad de salir de la sexta parte de las veces, el 3 y el 6 saldrán las dos sextas partes de las veces. Nº de eventos que interesan P= = 2/6 = 1/3 = 1/6 + 1/6 Nº total de eventos En otras palabras las probabilidades de ocurrencia se han sumado. P(A ó B) = P(A) + P(B) 3 Consideremos ahora la probabilidad de que ocurra un evento y que ocurra otro. En este segundo caso vamos a analizar también la situación más simple que se da cuando los resultados son independientes entre sí. Es decir que la ocurrencia de un evento nada tiene que ver con otro evento que ocurre en forma simultánea. Por ejemplo: si arrojamos dos dados en forma simultánea el resultado (el número que salga) en cada uno de ellos no tienen ninguna relación entre sí. Analicemos ahora, a modo de ejemplo qué probabilidad existe de que al arrojar dos dados salgan un 1 y un 3. El número total de eventos posibles estará dado en función de las combinaciones que puedan darse ya que pueden salir: 1 y 1,1 y 2, ...,1 y 6 2 y1, 2 y 2,....,2 y 6 3 y1, 3 y 2,....,3 y 6 ----------------------6 y1, 6 y 2,...,6 y 6 Es decir 6 x 6 = 36 posibilidades, considerando que el número de resultados que nos interesa es solamente uno (1 y 3), la probabilidad es 1/36. Vemos ahora que las probabilidades se han multiplicado. Nº de eventos que nos interesan = 1/36 = 1/6 x 1/6 Nº total e eventos posibles P(A y B) = P (A) x P(B) En el caso que estamos considerando (los dados) los eventos son equiprobables, (que tienen igual probabilidad de ocurrencia) pero las relaciones fundamentales que hemos establecido: P(A ó B) = P(A) + P(B) P(A y B) = P(A) x P(B) se cumplen aún en esquemas no equiprobables. Como corolario de este análisis podemos establecer para las probabilidades que varían entre cero y uno, las siguientes definiciones: • Al evento con probabilidad cero lo definimos como: evento imposible • Al evento con probabilidad uno lo definimos como: evento cierto DISTRIBUCIONES DE PROBABILIDAD Continuando con el ejemplo inicial del dado, vamos ahora a realizar el siguiente experimento: arrojamos dos dados y anotamos la suma de lo que sale en ambos. Ya sabíamos que al arrojar los dados el número de eventos posibles era 36. En el cuadro vamos a poder establecer en forma gráfica cual es la suma más probable: 4 DADO 1 DADO 2 1 2 3 4 5 6 1 2 3 4 5 6 2 3 4 5 6 7 3 4 5 6 7 8 4 5 6 7 8 9 5 6 7 8 9 10 6 7 8 9 10 11 7 8 9 10 11 12 Vemos que es el siete, que se repite en seis oportunidades (la diagonal del cuadro). Por lo tanto, la probabilidad del siete será: P(7) = 6/36 = 1/6 En el otro extremo de la tabla están el 2 y el 12 que obedecen a un solo resultado posible (dos seis o dos unos) Otra representación posible sería graficar en un sistema de ejes coordenados, colocando la Probabilidad en el eje de ordenadas y la suma (lo que sería la variable aleatoria) en el eje de absisas: PROBABILIDAD 0,2 0,167 0,139 0,139 0,15 0,111 0,111 0,083 0,083 0,1 0,056 0,056 0,05 0,028 0,028 0,000 0,000 0 SUMA DE DOS DATOS Si bien la representación está "armada" como barras, lo correcto son solo los puntos topes de barras con los valores que toma la serie de probabilidades en ese punto (p.ej. para el siete la probabilidad es 1/6 = 0.167) En este caso el gráfico corresponde a la distribución de probabilidades de la suma de dos dados. Existen muchos ejemplos de variables aleatorias. Algunas toman valores fijos, determinados de antemano y las llamamos variables discretas, un ejemplo es el caso que hemos considerado, el de los dados, pero también son variables discretas las señales digitales (en un tren de pulsos rectangulares los bits toman valores de 0 y 1 ó, en términos de tensión 0 volt ó +5 volt). En el caso particular de una información digital, esta se puede representar como una función discreta de una variable discreta. (También puede representarse matemáticamente una función continua de una variable discreta, por. ej. una información muestreada) 5 Una distribución de probabilidades puede ser representada por un gráfico, como en el ejemplo que hemos visto, o por la formula matemática que describa dicho gráfico. Existen sin embargo, una serie de parámetros que permiten caracterizar a una distribución en forma breve, y se llaman Parámetros Estadísticos. Los más usuales son: • • La media, promedio o esperanza (Entropía) El desvío Estándar La media es el promedio de todos los valores. Por lo tanto, la variable tiene un 50% de probabilidades de tomar un valor mayor que la media y un 50% un valor menor (es el centro de la campana de distribución gausiana). El desvío estándar da una idea clara de cuan dispersos están los resultados obtenidos de la media o el promedio. (La campana más ó menos abierta) Si bien no es objeto de nuestro estudio, estos conceptos serán tratados cuando analicemos la Teoría de la Información con mayor profundidad y orientados al manejo de la información. INFORMACION Tomemos la definición que expresa el Ing. N. Cura en su libro Comunicación de Datos y Redes de Información: "Definimos como información a todas aquellas representaciones simbólicas que por el significado que le asigna quien la recibe e interpreta, contribuyen a disminuir la incertidumbre de forma que pueda decidir un curso de acción entre varios posibles" Vamos a analizar esta definición partiendo de un ejemplo: Simultáneamente se producen dos secuestros. Al secuestrado A se le permite enviar un solo mensaje que diga "estoy bien", o sino, ningún mensaje. El secuestrado B puede enviar "estoy muy bien, estoy bien, estoy mal" o sino, ningún mensaje. Ahora bien, analicemos cuidadosamente los mensajes recibidos: Si se recibe "estoy bien" del secuestrado A lo único que podemos asegurar que el secuestrado está vivo. Si se recibe "estoy bien" del secuestrado B, sabemos que la persona no está muy bien, pero tampoco está mal. Conclusión 1: un mismo mensaje puede suministrar diferente información bajo determinadas circunstancias. Si el secuestrado B envía ahora (que antes había enviado "estoy bien") "estoy muy bien" o "estoy muy mal" como ya sabemos lo más importante -que está vivo- este mensaje suministra menos información que el primero. Si vuelve a enviar "estoy bien" no aporta nada nuevo, por lo tanto, no suministra información Conclusión 2: cuando menos se conoce de un hecho, una noticia de este proporciona mayor información. 6 Analicemos ahora los mensajes en función de las probabilidades. Como el secuestrado A tiene dos mensajes posibles: 1. Estoy bien 2. Ningún mensaje (que también es una posibilidad) Cada mensaje de a tiene una probabilidad = 1/2 Según este mismo razonamiento, cada mensaje de B tiene una probabilidad = 1/4 Vimos al comienzo que los mensajes de B suministran mayor información ya que dan más detalles de la situación del secuestrado. Arribamos así a la Conclusión 3: Cuanto menos probable es un hecho, la noticia de este suministra mayor información. Nota: algunos autores definen a esta última conclusión como "Medida de la Información" De acuerdo a esta última conclusión podemos decir que la información que suministra un evento es función de la inversa de probabilidad de ocurrencia del mismo. I = ƒ(1/P) Ahora bien, ¿cuál es esa función?. Supongamos que ocurren simultáneamente: a y b, que nos aportan información. La información total recibida será la suma de las informaciones mutuas: dos eventos I = Ia + Ib = ƒ(1/Pa) + ƒ(1/Pb) (1) Por otra parte, la información deberá ser esa misma función de a y b simultáneamente, es decir: I = ƒ(1/Pa y b) Suponiendo que los eventos sean independientes, habíamos visto que la probabilidad de que ocurran simultáneamente era: P(a y b) = P(a)*P(b) (2) De (1) y (2) vemos que las informaciones se suman, mientras que las probabilidades se multiplican. La función que nos permite realizar esto es evidentemente una función logarítmica, o sea: I = log(1/P) La unidad de información depende de la base de logaritmos que se utilice. Como en el resto de nuestro estudio nos abocaremos a las señales digitales y estas están conformadas por dos estados posibles (cero - uno, alto - bajo, todo - nada) lógicamente la base de logaritmos será 2 y la unidad de información será el bit. No obstante, si la 7 base fuera 10, la unidad se denomina Hartley y si fuera el número e = 2,71828 la unidad se denomina nats. En comunicaciones digitales dijimos que se usan señales con solo dos estados posibles, y como normalmente para la transmisión de esas señales utilizamos medios eléctricos ó electromagnéticos, diferenciamos las señales (0 y 1) con dos niveles de tensión distintos. Se trata de señales binarias, por lo que al cero y al uno se les llama dígitos binarios. Si suponemos que cada dígito es equiprobable tendrán igual posibilidad de ocurrencia, es decir: P(0) = P(1) = 1/2, por lo que la información suministrada por cada dígito binario será: I = log(1/½) = log2 = 1 [bit] Dígito binario se dice en ingles binary digit, por contracción de esas dos palabras formamos bit. O sea un bit es la información que transporta un dígito binario. Ahora bien, sobre este punto corresponde hacer una salvedad muy importante: No siempre un dígito binario transporta un bit de información. Veamos: Si los dígitos binarios son conocidos de antemano, por ejemplo una sucesión 01010101... éstos no nos suministran información (Lo obvio no informa) Si los ceros y los unos no son equiprobables sus probabilidades son distintas a 1/2 y por lo tanto un cero (ó un uno) pueden tener más o menos de un bit de información. Es importante destacar aquí que se establece una diferencia en la forma de llamar a un dígito binario (se lo llama binit) y el bit que es la unidad de información. Pero la costumbre y el uso generalizado hace que se llame indistintamente bit a la unidad de información y al dígito binario. SIMBOLOS Y DATOS A medida que nos adentramos en el estudio de la Teoría de la Información (o de las señales) la información -como definición literal- deja de tener sentido para ser más importante la simbología que en definitiva representa información. Podemos definir como símbolo a todo aquello que por una convención predeterminada hace alusión a algo que no necesariamente debe estar presente. El mejor ejemplo de esto es la palabra escrita. Su significado está presente de acuerdo a nuestro entendimiento No existe una relación natural o intrínseca entre el símbolo y su significado, hay que remitirse a la convención que establece la relación que los liga. Una misma palabra escrita en dos idiomas diferentes puede tener significados distintos de acuerdo a la convención que cada idioma establece. Por otra parte, no solo la palabra escrita son símbolos (o la palabra hablada, que también nos remite a algo que no necesariamente está presente), sino que el hombre por su naturaleza (hombre = ser gestual-simbólico) puede referirse -mediante símbolos- a hechos, cosas o sucesos que no están de por si en la relación establecida entre comunicador y comunicado. 8 Las propiedades o cualidades de los sucesos al representarse simbólicamente constituyen lo que se denomina atributos de los mismos (pueden representarse en forma oral o escrita). Cuando asignamos cantidad o calidad un atributo se dice que se le está asignando un valor. Generalmente, los atributos conocidos como entes o sucesos, son datos que sirven de referencia para un accionar concreto, presente o futuro. Por lo tanto, puede decirse que los datos son representaciones simbólicas de propiedades o cualidades de entes o sucesos que pueden ser utilizados en algún momento para decidir (en función de esos datos) un tipo de acción en particular. Los datos tienen la propiedad de que pueden ser almacenados, transformados y/o transmitidos. ENTROPIA Vimos anteriormente que no todos los binits pueden traer un bit de información, ya que esta es función de la probabilidad. También vimos que la información mutua dependía de los mensajes individuales o símbolos que una fuente puede producir. Estas definiciones no resultan útiles en lo que se refiere a los sistemas ya que el diseño de estos es para el caso general (todo tipo de mensajes) y no el caso particular de un mensaje. Por lo tanto, lo correcto es definir a la fuente en términos de la información promedio o entropía de la fuente. Analicemos que información promedio por dígito trae una señal cuyos dígitos no son equiprobable. El dígito menos probable traerá más información pero aparecerá menos veces y lo contrario con el dígito más probable. Podemos calcular la entropía o información promedio de la siguiente forma: Supongamos una sucesión de un millón de dígitos binarios. De estos, 700.000 son ceros y 300.000 son unos. Dada la gran cantidad de dígitos que se toman en cuanta se puede inferir que: P(0) = 7/10 P(1) = 3/10 Luego, la información que trae cada dígito será: I(0) = log 1/(7/10) I(1) = log 1/(3/10) Y la que trae el millón de dígitos: I total = 700.000*I(0) + 300.000*I(1) 9 En promedio, cada dígito traerá una información: H (información promedio ó entropía) = I total = 700.000*I(0) + 300.000*I(1) 1.000.000 1.000.000 1.000.000 1.000.000 que se puede poner: H = 7/10 I(0) + 3/10 I(1) siendo 7/10 y 3/10 las probabilidades de los ceros y los unos respectivamente. Por lo tanto: H = P(0)*I(0) + P(1)*I(1) = P(0) log 1/P(0) + P(1) log 1/P(1) Si consideramos: P(0) = P (1) (2) P(1) = 1-P De (1 ) y (2) tenemos: H = p log 1/P + (1-P) log 1/(1-P) Graficando tendremos: Grafico de Entropía H 1,2 0,97 1 0,97 0,88 0,88 H=[bit/digito] 1 0,72 0,8 0,6 0,72 0,47 0,47 0,4 0,2 0 0 0 P (0) = P(1) Se observa que la mayor información promedio se tiene cuando los dígitos son equiprobables. La importancia de esto reside en que un mensaje suministra la mayor cantidad de información cuando todos los elementos del mensaje son equiprobables. Por lo tanto la entropía máxima se puede definir como: H = Hmax = log m Siendo m el número de símbolos diferentes con probabilidades P = 1/m También, como puede verse en el gráfico: 0 H log m 10 TASA DE INFORMACION La descripción de una fuente no queda definida solo por su entropía sino también por su velocidad para transferir información. Esto es particularmente importante en sistemas de datos porque la mayor velocidad de una fuente con respecto a otra (aún con la misma entropía) hace que sea necesario destinar mayores recursos del sistema para atender la mayor velocidad de entrada de datos (buffer más potentes, mayor capacidad de memoria o almacenamiento, etc.) es por lo tanto necesario conocer la tasa de información media en bit/seg. Se define velocidad o tasa de información a: R = r*H Donde r es la tasa de dígitos o binits, esto es la cantidad de dígitos por segundo que es transmitida y se mide en [binits/seg.] Habíamos visto también que H era la información promedio, o sea los bits que transportaba en promedio cada binits, y se medía en [bits/binits], por lo tanto, la unidad de R será: R = [binits/seg.]*[bits/binits] = [bits/seg.] La práctica lleva a utilizar habitualmente a r como velocidad de información y se mide en bit/seg., ya que de acuerdo a la salvedad que hiciéramos anteriormente, se llama bits directamente a los dígitos. Por otra parte, se define como velocidad de señalización a la inversa del periodo más corto de los pulsos que contenga el mensaje. 1 0 1 0 1 Ômin. S = 1/ Ômin.[seg.] Y la unidad de s es el baudio. Podemos decir entonces que el Baudio mide la velocidad de señalización indicando por lo tanto, la velocidad de los símbolos. Consideremos un ejemplo de todo esto. Veamos la emisión de un sistema de teleprocesamiento de datos que transmite a una baja tasa una serie de datos codificados en forma de pulsos bipolares a una estación central. La baja tasa de velocidad es a los fines de que el sistema sea altamente confiable para transmitir sobre líneas telefónicas. De todos modos no hay una gran densidad de datos ya que solo se censan y envían datos de estado de equipos en forma regular. Se transmite con ceros y unos bipolares (+/-12 volt) siete binits cada 150 mseg según el gráfico siguiente: 11 Señalización típica del teleprocesador 20 20 20 20 20 20 30 150 mseg. Como ya dijimos la amplitud de la señal varía entre más y menos 12 voltios. Vemos también que hay pulsos de 20 mseg. (los de códigos de datos) y de 30 mseg.(los de fin o parada). El pulso más corto es: Ômin . = 20 mseg. por lo que: S = 1/ Ômin. = 1/20 mseg = 50 baudios Calculemos ahora la información transmitida: Tenemos siete binits cada 150 mseg. o sea: 7 binits = r = 46 binits/seg. 150 mseg pero podemos considerar que el bit de parada no suministra información ya que es esperado y su probabilidad de ocurrencia es 1 (log 1/1 = 0) por otra parte los bits de datos son equiprobables y cada uno de ellos transporta un bit de información, por lo que tenemos ahora 6 bits de información cada 150 mseg , esto es: 6 binits = R = 40 bits/seg. 150 mseg con estos datos podemos calcular la entropía o información promedio que entrega el sistema del ejemplo ya que: R = H*r, será H = R/r = 40 bit/seg = 0,869 bit/binits 46 binits/seg con lo que la información promedio es 0.869 bits por cada símbolo que entrega la fuente. Conclusión: los baudios son la cantidad de pulsos por segundo que habría si todos los pulsos duraran lo que dura el tau mínimo. Por eso en el ejemplo dado teníamos 50 baudios y solo 46 pulsos por segundo. La "culpa" la tiene el pulso de parada que dura 30 mseg. Si todos los pulsos, incluyendo el de parada, duraran 20 mseg. evidentemente habría 50 pulsos por seg. 12 CAPACIDAD DEL CANAL Puede definirse al canal ideal de comunicación como aquel que teniendo a la entrada un conjunto m de símbolos, a su salida reproduce exactamente los mismos símbolos. (En el canal ideal no se consideran ruido ni distorsión) Definimos como Capacidad de un Canal a la capacidad de transportar información y se la mide en bits/seg. Para que una tasa de información pueda enviarse por un canal deberá ser, en todos los casos: R C Supongamos un mensaje de duración T compuesto de pulsos de igual duración t (aquí se cumple que s = r y por lo tanto la cantidad de pulsos por segundo transmitida es la máxima para una cierta s ) Los pulsos pueden tener n niveles distintos y la señal puede ser por ej.: n 2 1 seg.. t T La longitud del mensaje (la cantidad de pulsos que tiene éste) será: T/t y la cantidad de símbolos distintos estará dada por la cantidad de niveles distintos, o sea n: La cantidad de mensajes distintos que se pueden formar (en un periódo T) será: T/t M(T) = n Si todos los mensajes son equiprobables (es decir que tenemos la máxima cantidad de información) la probabilidad de que aparezca un cierto mensaje en un tiempo T será: PM = 1/M(T) con lo que la información de cada mensaje es: I = log 1/(1/M(T)) = log M(T) Por lo que, dividiendo a información: (1) por (1) T obtenemos los bit/seg. O sea la velocidad de T/t R = I/T = 1/T log M(T) = 1/T log n 13 Tomando el último miembro de la igualdad, y por propiedad del logaritmo de la potencia, podemos expresar: R = 1/T * (T/t)log n = 1/t log n Como la velocidad de señalización S es igual a 1/t resulta: R = S log n Lo cual significa simplemente que un canal que quiera transportar esa cantidad de información (en bits/seg.) deberá tener una capacidad: C = S log n (3) Si el sistema en el que trabajamos es binario, como hemos dicho que son todas las aplicaciones de los Sistemas de Datos, tendremos que n = 2 (por lo tanto el log. De 2 es igual a 1) con lo que: C = [bits/seg.] = [baudios] Por lo tanto podemos decir que la capacidad del canal ideal nos refiere a las características del canal con relación a la capacidad de la información que puede transportar. La expresión (3) es la mayor información por unidad de tiempo que puede transportar el canal. TEOREMA DE NYQUIST Por otra parte, la velocidad de señalización esta relacionada con el ancho de banda del canal. El teorema de Nyquist establece que: S 2B Siendo B el ancho de banda del canal. Esta expresión general de Nyquist expresa la máxima velocidad de datos posibles en un canal sin ruido y con un ancho de banda infinito. Veamos un ejemplo. El ancho de banda del canal telefónico (cable UTP -par trenzado telefónico) que nos permite el uso del sistema telefónico conectado a la RTC (red telefónica conmutada) tiene una repuesta en frecuencia muy buena hasta los 3.400 Hz. Por encima de esa valor los filtros, bobinas de pupinzación (ecualización) y otros condicionantes eléctricos hacen que el corte de la repuesta esté limitado a ese valor. Importante es destacar que en el caso de los equipos de audio de alta fidelidad el ancho de banda alcanza los 20.000 Hz y aún más arriba -aunque el "ancho de banda" del oído humano (los distinto niveles de frecuencia que podemos oir) no puede reconocer esas frecuencias. Volviendo al canal telefónico, y de acuerdo a lo que ya hemos visto, podemos decir a priori que no será posible transmitir señales binarias a más de 6.800 bits/seg. 14 Esto, lógicamente considerando un canal telefónico ideal, sin ruido ni distorsión, cosa que en la practica real es imposible de lograr para este tipo de sistemas Es verdad también que, hoy contamos con importantes herramientas que nos permiten aumentar la capacidad de los canales en función, por ejemplo de los distintos tipos de modulación que se utilizan. Si codificamos los bits de a pares (codificación en dibits) obtendríamos un código de cuatro niveles. El intervalo del pulso aumenta el doble con lo que la velocidad se reduce a la mitad. Se están enviando así dos bits por baudio, de la misma manera se puede agrupar en tribits (8 niveles) con lo que se envían 3 bits por seg. por baudio. De esta forma es posible enviar por un canal telefónico real (con ruido y distorsión podemos alcanzar los 2.400 baudios) por ej. 9.600 bit/seg. agrupando en cuatribits (16 niveles) TEOREMA DE SHANNON - HARTLEY Hagamos un poco de historia. En que años, en que épocas, se desarrollan las relaciones que se han planteando? Pues bien, ya en el año 1929 Nyquist establece la relación entre el ancho de banda y el número de pulsos independientes. Un año antes, en 1928, Hartley establecía la relación entre las constantes del canal y la información por unidad de tiempo. Plantea la "capacidad del canal" En 1948 Winer desarrolla la teoría de los filtros óptimos para recuperar la S/N. En 1948, Shannon inicia el estudio matemático de la Teoría de la Información, trabajando en sistemas de comunicaciones por Radio enlaces donde su evolución en la post guerra fue vertiginosa y de gran crecimiento. Por ende aumentaban también los requerimientos. Por ser contemporáneo con nosotros (falleció en 1999) y seguir trabajando hasta su muerte, quizás sea el más reconocido. No obstante a Shannon le suceden una gran cantidad de científicos trabajando en todo el mundo ya que esta disciplina técnica - científica es una de las más recientes en el campo del conocimiento y las telecomunicaciones han experimentado un crecimiento arrollador, uniendo a todo el planeta y llevando información a cualquier rincón del mundo en el mismo instante en que esta se esta produciendo. A modo de ejemplo gráfico, una persona de la edad media recibía en toda su vida tanta información como cualquiera de nosotros ¡en un solo día! Hartley, y después Shannon, han demostrado que la capacidad de un canal de transportar información en presencia de ruido vale: C = B log (1 + S/N) [bits/seg.] (4) Donde: B = ancho de banda del canal S = potencia media de la señal N = potencia media del ruido Es decir que S/N es la relación señal a ruido expresada en número de veces (no en dB). Comparando esta expresión con la (3) (capacidad de un canal sin ruido) vemos lo siguiente: Si consideramos el ancho de banda mínimo previsto por el Teorema de Nyquist B= S/2, tenemos que: C = S log n = 2 B log n = B log n² 15 Ahora bien, comparando con (4) vemos que: n² = 1 + S/N n= 1 + S/N = S+N N si consideramos que trabajos sobre resistencias de 1 S+N N podemos asimilar que: es el valor eficaz de la señal más el ruido es el valor eficaz del ruido Por otra parte, se puede determinar el número máximo de niveles de la señal como el valor pico de la señal dividido por la separación mínima entre niveles para que el ruido superpuesto en cada nivel no interfiera con el siguiente (o sea, sería el valor pico del ruido si este lo poseyera). Este mismo concepto está contenido en la formula de Shannon Hartley, pero acá el cociente se hace sobre valores eficaces: n= S+N N = Valor eficaz de la señal con ruido superpuesto Valor eficaz del ruido sigamos con el ejemplo del canal telefónico: habíamos dicho que el ancho de banda era de 3.400 hz. Supongamos ahora que la relación señal a ruido es de 20 dB ó 100 veces (para una señal a -15 dBm y un ruido a -35 dBm) entonces: C = 3.400 log (1 + 100) = 22.624 [bits/seg.] Ing. Juan Carlos Clark [email protected] Cátedra de Comunicaciones Universidad Tecnológica Nacional Facultad Regional Córdoba 16