La Probabilidad Archivo

Anuncio
TEORIA DE LA INFORMACION
INDICE
NOCIONES DE PROBABILIDADES
•
PROBABILIDAD DE MAS DE UN EVENTO
•
DISTRIBUCION DE PROBABILIDADES
INFORMACION
•
SIMBOLOS Y DATOS
•
ENTROPIA
•
TASA DE INFORMACION
•
CAPACIDAD DEL CANAL
•
TEOREMA DE NYQUIST
•
TEOREMA DE SHANNON - HARTLEY
1
TEORIA DE LA INFORMACION
NOCIONES DE PROBABILIDADES
La Teoría de la Probabilidad es el estudio matemático de fenómenos aleatorios (es
decir al azar). Por lo tanto estos fenómenos no responden a una ley determinista
definida.
En muchos fenómenos físicos, se puede conocer de antemano el resultado final si se
conoce toda la información relativa al suceso.
Llamamos Experimento Aleatorio a aquel en el cual el resultado varía de prueba a
prueba y es desconocido de antemano.
Un ejemplo simple de experimento aleatorio es arrojar un dado (o una moneda). A cada
uno de los resultados del experimento se lo llama evento (algunos autores lo llaman
suceso). En este ejemplo los eventos son sacar un uno, sacar un dos, sacar un tres, etc.
(en el caso de la moneda sería que caiga cara o seca)
La Estadística va de la observación a la cuantificación matemática del hecho, mientras
que la Teoría de las Probabilidades va desde el modelo matemático a predecir los
resultados del experimento.
Siguiendo con el ejemplo del dado, repetiremos el experimento n veces (es decir arrojar
el dado) y anotaremos los diferentes eventos (resultados) que vayan ocurriendo. Si los
eventos posibles son A, B, C....(un uno, un dos, un tres....) anotaremos nA, nB, nC..., es
decir el número de veces que ocurre A, el número de veces que ocurre B, etc. Se define
como:
ƒra = ça/ç
ƒrb = çb/ç
frecuencia relativa del evento a , frecuencia relativa del evento b, etc.
supongamos que se arroja el dado 60 veces y se obtienen los siguientes resultados:
EVENTO
1
2
3
4
5
6
SUMA=
Número de veces que ocurre el
evento
12
10
14
8
7
9
60
Frecuencia
relativa
0.20
0.16
0.23
0.133
0.116
0.15
1
Ahora bien, en un dado (que no este cargado, por lo tanto que el fenómeno sea
totalmente impredecible) sabemos que no hay preferencia para que salga un número
determinado u otro. Decimos que cada número tiene igual posibilidad de salir o dicho
de otra forma igual probabilidad de salir. Como cada dado tiene seis caras, cada una de
ellas tendrá un sexto (1/6 = 0,16) de probabilidades de salir.
2
En función de esto, podemos definir:
Números de eventos que nos interesan
Probabilidad =
Número total de eventos posibles
Ahora bien, vemos, de acuerdo a la tabla que hemos realizado con nuestro experimento,
que no todos los números han salido la sexta parte como la probabilidad indica. Algunos
han salido más veces (como el 3), otros menos (como el 5). Esto también parece lógico,
ya que de otra forma el juego (todos los juegos de azar) no tendría sentido.
Estamos aquí ante lo que parece un contrasentido por lo que debemos compatibilizar
ambas ideas. La solución reside en lo que llamamos Ley empírica de los grandes
números que dice que cuando el número de experimentos se hace muy grande la
frecuencia relativa de cada evento se hace igual a la probabilidad de ocurrencia de ese
evento.
P(a) = n lim(ça/ç)
Para n que tiende a infinito
Lógicamente el sentido de esto no es corroborar las expresiones anteriores, sino que
generalmente no resulta simple conocer a priori las probabilidades de ocurrencia de
cada evento como en el caso de los dados. Es necesario entonces repetir el experimento
un número suficientemente grande de veces y elaborar la estadística de los resultados
(eventos) que se van obteniendo, entonces sí consideramos a la frecuencia relativa
como la probabilidad de ocurrencia de los mismos.
PROBABILIDAD DE MAS DE UN EVENTO
Vamos a considerar aquí dos casos:
1. La probabilidad de que ocurra un evento ó que ocurra otro
2. La probabilidad de que ocurra un evento y ocurra otro
En el primer caso la situación se presenta como la más simple, dado que en este caso los
eventos son mutuamente excluyentes. Esto es que la ocurrencia de un evento impide
que ocurra otro en forma simultánea . Siguiendo nuestro ejemplo anterior, si al arrojar el
dado obtenemos un 3 no existe ninguna posibilidad de que simultaneamente salga un 6.
Ahora bien si lo que nos interesa es conocer la probabilidad de que por ejemplo el
resultado del evento sea el 3 ó el 6 (es decir cualquiera de los dos), como de acuerdo a
lo que vimos anteriormente cada uno de ellos tiene la probabilidad de salir de la sexta
parte de las veces, el 3 y el 6 saldrán las dos sextas partes de las veces.
Nº de eventos que interesan
P=
= 2/6 = 1/3 = 1/6 + 1/6
Nº total de eventos
En otras palabras las probabilidades de ocurrencia se han sumado.
P(A ó B) = P(A) + P(B)
3
Consideremos ahora la probabilidad de que ocurra un evento y que ocurra otro. En este
segundo caso vamos a analizar también la situación más simple que se da cuando los
resultados son independientes entre sí. Es decir que la ocurrencia de un evento nada
tiene que ver con otro evento que ocurre en forma simultánea. Por ejemplo: si arrojamos
dos dados en forma simultánea el resultado (el número que salga) en cada uno de ellos
no tienen ninguna relación entre sí.
Analicemos ahora, a modo de ejemplo qué probabilidad existe de que al arrojar dos
dados salgan un 1 y un 3.
El número total de eventos posibles estará dado en función de las combinaciones que
puedan darse ya que pueden salir:
1 y 1,1 y 2, ...,1 y 6
2 y1, 2 y 2,....,2 y 6
3 y1, 3 y 2,....,3 y 6
----------------------6 y1, 6 y 2,...,6 y 6
Es decir 6 x 6 = 36 posibilidades, considerando que el número de resultados que nos
interesa es solamente uno (1 y 3), la probabilidad es 1/36. Vemos ahora que las
probabilidades se han multiplicado.
Nº de eventos que nos interesan
= 1/36 = 1/6 x 1/6
Nº total e eventos posibles
P(A y B) = P (A) x P(B)
En el caso que estamos considerando (los dados) los eventos son equiprobables, (que
tienen igual probabilidad de ocurrencia) pero las relaciones fundamentales que hemos
establecido:
P(A ó B) = P(A) + P(B)
P(A y B) = P(A) x P(B)
se cumplen aún en esquemas no equiprobables.
Como corolario de este análisis podemos establecer para las probabilidades que varían
entre cero y uno, las siguientes definiciones:
•
Al evento con probabilidad cero lo definimos como: evento imposible
• Al evento con probabilidad uno lo definimos como: evento cierto
DISTRIBUCIONES DE PROBABILIDAD
Continuando con el ejemplo inicial del dado, vamos ahora a realizar el siguiente
experimento: arrojamos dos dados y anotamos la suma de lo que sale en ambos.
Ya sabíamos que al arrojar los dados el número de eventos posibles era 36.
En el cuadro vamos a poder establecer en forma gráfica cual es la suma más probable:
4
DADO 1
DADO 2
1
2
3
4
5
6
1
2
3
4
5
6
2
3
4
5
6
7
3
4
5
6
7
8
4
5
6
7
8
9
5
6
7
8
9
10
6
7
8
9
10
11
7
8
9
10
11
12
Vemos que es el siete, que se repite en seis oportunidades (la diagonal del cuadro).
Por lo tanto, la probabilidad del siete será:
P(7) = 6/36 = 1/6
En el otro extremo de la tabla están el 2 y el 12 que obedecen a un solo resultado
posible (dos seis o dos unos)
Otra representación posible sería graficar en un sistema de ejes coordenados, colocando
la Probabilidad en el eje de ordenadas y la suma (lo que sería la variable aleatoria) en el
eje de absisas:
PROBABILIDAD
0,2
0,167
0,139
0,139
0,15
0,111
0,111
0,083
0,083
0,1
0,056
0,056
0,05
0,028
0,028
0,000
0,000
0
SUMA DE DOS DATOS
Si bien la representación está "armada" como barras, lo correcto son solo los puntos
topes de barras con los valores que toma la serie de probabilidades en ese punto (p.ej.
para el siete la probabilidad es 1/6 = 0.167)
En este caso el gráfico corresponde a la distribución de probabilidades de la suma de
dos dados.
Existen muchos ejemplos de variables aleatorias. Algunas toman valores fijos,
determinados de antemano y las llamamos variables discretas, un ejemplo es el caso
que hemos considerado, el de los dados, pero también son variables discretas las señales
digitales (en un tren de pulsos rectangulares los bits toman valores de 0 y 1 ó, en
términos de tensión 0 volt ó +5 volt).
En el caso particular de una información digital, esta se puede representar como una
función discreta de una variable discreta.
(También puede representarse matemáticamente una función continua de una variable
discreta, por. ej. una información muestreada)
5
Una distribución de probabilidades puede ser representada por un gráfico, como en el
ejemplo que hemos visto, o por la formula matemática que describa dicho gráfico.
Existen sin embargo, una serie de parámetros que permiten caracterizar a una
distribución en forma breve, y se llaman Parámetros Estadísticos.
Los más usuales son:
•
•
La media, promedio o esperanza (Entropía)
El desvío Estándar
La media es el promedio de todos los valores. Por lo tanto, la variable tiene un 50% de
probabilidades de tomar un valor mayor que la media y un 50% un valor menor (es el
centro de la campana de distribución gausiana).
El desvío estándar da una idea clara de cuan dispersos están los resultados obtenidos de
la media o el promedio. (La campana más ó menos abierta)
Si bien no es objeto de nuestro estudio, estos conceptos serán tratados cuando
analicemos la Teoría de la Información con mayor profundidad y orientados al manejo
de la información.
INFORMACION
Tomemos la definición que expresa el Ing. N. Cura en su libro Comunicación de Datos
y Redes de Información:
"Definimos como información a todas aquellas representaciones simbólicas que por
el significado que le asigna quien la recibe e interpreta, contribuyen a disminuir la
incertidumbre de forma que pueda decidir un curso de acción entre varios posibles"
Vamos a analizar esta definición partiendo de un ejemplo:
Simultáneamente se producen dos secuestros. Al secuestrado A se le permite enviar un
solo mensaje que diga "estoy bien", o sino, ningún mensaje. El secuestrado B puede
enviar "estoy muy bien, estoy bien, estoy mal" o sino, ningún mensaje.
Ahora bien, analicemos cuidadosamente los mensajes recibidos:
Si se recibe "estoy bien" del secuestrado A lo único que podemos asegurar que el
secuestrado está vivo.
Si se recibe "estoy bien" del secuestrado B, sabemos que la persona no está muy bien,
pero tampoco está mal.
Conclusión 1: un mismo mensaje puede suministrar diferente información bajo
determinadas circunstancias.
Si el secuestrado B envía ahora (que antes había enviado "estoy bien") "estoy muy bien"
o "estoy muy mal" como ya sabemos lo más importante -que está vivo- este mensaje
suministra menos información que el primero. Si vuelve a enviar "estoy bien" no aporta
nada nuevo, por lo tanto, no suministra información
Conclusión
2: cuando menos se conoce de un hecho, una noticia de este
proporciona mayor información.
6
Analicemos ahora los mensajes en función de las probabilidades. Como el secuestrado
A tiene dos mensajes posibles:
1. Estoy bien
2. Ningún mensaje (que también es una posibilidad)
Cada mensaje de a tiene una probabilidad = 1/2
Según este mismo razonamiento, cada mensaje de B tiene una probabilidad = 1/4
Vimos al comienzo que los mensajes de B suministran mayor información ya que dan
más detalles de la situación del secuestrado. Arribamos así a la
Conclusión 3: Cuanto menos probable es un hecho, la noticia de este suministra
mayor información.
Nota: algunos autores definen a esta última conclusión como "Medida de la
Información"
De acuerdo a esta última conclusión podemos decir que la información que suministra
un evento es función de la inversa de probabilidad de ocurrencia del mismo.
I = ƒ(1/P)
Ahora bien, ¿cuál es esa función?. Supongamos que ocurren
simultáneamente: a y b, que nos aportan información.
La información total recibida será la suma de las informaciones mutuas:
dos
eventos
I = Ia + Ib = ƒ(1/Pa) + ƒ(1/Pb) (1)
Por otra parte, la información deberá ser esa misma función de a y b simultáneamente,
es decir:
I = ƒ(1/Pa y b)
Suponiendo que los eventos sean independientes, habíamos visto que la probabilidad de
que ocurran simultáneamente era:
P(a y b) = P(a)*P(b) (2)
De (1) y (2) vemos que las informaciones se suman, mientras que las probabilidades
se multiplican.
La función que nos permite realizar esto es evidentemente una función logarítmica, o
sea:
I = log(1/P)
La unidad de información depende de la base de logaritmos que se utilice. Como en el
resto de nuestro estudio nos abocaremos a las señales digitales y estas están
conformadas por dos estados posibles (cero - uno, alto - bajo, todo - nada) lógicamente
la base de logaritmos será 2 y la unidad de información será el bit. No obstante, si la
7
base fuera 10, la unidad se denomina Hartley y si fuera el número e = 2,71828 la
unidad se denomina nats.
En comunicaciones digitales dijimos que se usan señales con solo dos estados posibles,
y como normalmente para la transmisión de esas señales utilizamos medios eléctricos ó
electromagnéticos, diferenciamos las señales (0 y 1) con dos niveles de tensión
distintos. Se trata de señales binarias, por lo que al cero y al uno se les llama dígitos
binarios. Si suponemos que cada dígito es equiprobable tendrán igual posibilidad de
ocurrencia, es decir:
P(0) = P(1) = 1/2,
por lo que la información suministrada por cada dígito binario
será:
I = log(1/½) = log2 = 1 [bit]
Dígito binario se dice en ingles binary digit, por contracción de esas dos palabras
formamos bit. O sea un bit es la información que transporta un dígito binario. Ahora
bien, sobre este punto corresponde hacer una salvedad muy importante:
No siempre un dígito binario transporta un bit de información. Veamos:
Si los dígitos binarios son conocidos de antemano, por ejemplo una sucesión
01010101... éstos no nos suministran información (Lo obvio no informa)
Si los ceros y los unos no son equiprobables sus probabilidades son distintas a 1/2 y
por lo tanto un cero (ó un uno) pueden tener más o menos de un bit de información.
Es importante destacar aquí que se establece una diferencia en la forma de llamar a un
dígito binario (se lo llama binit) y el bit que es la unidad de información. Pero la
costumbre y el uso generalizado hace que se llame indistintamente bit a la unidad de
información y al dígito binario.
SIMBOLOS Y DATOS
A medida que nos adentramos en el estudio de la Teoría de la Información (o de las
señales) la información -como definición literal- deja de tener sentido para ser más
importante la simbología que en definitiva representa información. Podemos definir
como símbolo a todo aquello que por una convención predeterminada hace alusión a
algo que no necesariamente debe estar presente. El mejor ejemplo de esto es la palabra
escrita. Su significado está presente de acuerdo a nuestro entendimiento
No existe una relación natural o intrínseca entre el símbolo y su significado, hay que
remitirse a la convención que establece la relación que los liga. Una misma palabra
escrita en dos idiomas diferentes puede tener significados distintos de acuerdo a la
convención que cada idioma establece.
Por otra parte, no solo la palabra escrita son símbolos (o la palabra hablada, que
también nos remite a algo que no necesariamente está presente), sino que el hombre por
su naturaleza (hombre = ser gestual-simbólico) puede referirse -mediante símbolos- a
hechos, cosas o sucesos que no están de por si en la relación establecida entre
comunicador y comunicado.
8
Las propiedades o cualidades de los sucesos al representarse simbólicamente
constituyen lo que se denomina atributos de los mismos (pueden representarse en forma
oral o escrita).
Cuando asignamos cantidad o calidad un atributo se dice que se le está asignando un
valor. Generalmente, los atributos conocidos como entes o sucesos, son datos que sirven
de referencia para un accionar concreto, presente o futuro.
Por lo tanto, puede decirse que los datos son representaciones simbólicas de
propiedades o cualidades de entes o sucesos que pueden ser utilizados en algún
momento para decidir (en función de esos datos) un tipo de acción en particular.
Los datos tienen la propiedad de que pueden ser almacenados, transformados y/o
transmitidos.
ENTROPIA
Vimos anteriormente que no todos los binits pueden traer un bit de información, ya que
esta es función de la probabilidad. También vimos que la información mutua dependía
de los mensajes individuales o símbolos que una fuente puede producir. Estas
definiciones no resultan útiles en lo que se refiere a los sistemas ya que el diseño de
estos es para el caso general (todo tipo de mensajes) y no el caso particular de un
mensaje.
Por lo tanto, lo correcto es definir a la fuente en términos de la información promedio
o entropía de la fuente.
Analicemos que información promedio por dígito trae una señal cuyos dígitos no son
equiprobable.
El dígito menos probable traerá más información pero aparecerá menos veces y lo
contrario con el dígito más probable. Podemos calcular la entropía o información
promedio de la siguiente forma:
Supongamos una sucesión de un millón de dígitos binarios. De estos, 700.000 son ceros
y 300.000 son unos. Dada la gran cantidad de dígitos que se toman en cuanta se puede
inferir que:
P(0) = 7/10
P(1) = 3/10
Luego, la información que trae cada dígito será:
I(0) = log 1/(7/10)
I(1) = log 1/(3/10)
Y la que trae el millón de dígitos:
I total = 700.000*I(0) + 300.000*I(1)
9
En promedio, cada dígito traerá una información:
H (información promedio ó entropía) = I total = 700.000*I(0) + 300.000*I(1)
1.000.000
1.000.000
1.000.000
1.000.000
que se puede poner: H = 7/10 I(0) + 3/10 I(1) siendo 7/10 y 3/10 las probabilidades de
los ceros y los unos respectivamente. Por lo tanto:
H = P(0)*I(0) + P(1)*I(1) = P(0) log 1/P(0) + P(1) log 1/P(1)
Si consideramos: P(0) = P
(1)
(2)
P(1) = 1-P
De (1 ) y (2) tenemos: H = p log 1/P + (1-P) log 1/(1-P)
Graficando tendremos:
Grafico de Entropía H
1,2
0,97 1 0,97
0,88
0,88
H=[bit/digito]
1
0,72
0,8
0,6
0,72
0,47
0,47
0,4
0,2
0
0
0
P (0) = P(1)
Se observa que la mayor información promedio se tiene cuando los dígitos son
equiprobables. La importancia de esto reside en que un mensaje suministra la mayor
cantidad de información cuando todos los elementos del mensaje son equiprobables.
Por lo tanto la entropía máxima se puede definir como:
H = Hmax = log m
Siendo m el número de símbolos diferentes con probabilidades P = 1/m
También, como puede verse en el gráfico:
0
H
log m
10
TASA DE INFORMACION
La descripción de una fuente no queda definida solo por su entropía sino también por su
velocidad para transferir información. Esto es particularmente importante en sistemas de
datos porque la mayor velocidad de una fuente con respecto a otra (aún con la misma
entropía) hace que sea necesario destinar mayores recursos del sistema para atender la
mayor velocidad de entrada de datos (buffer más potentes, mayor capacidad de memoria
o almacenamiento, etc.) es por lo tanto necesario conocer la tasa de información media
en bit/seg.
Se define velocidad o tasa de información a:
R = r*H
Donde r es la tasa de dígitos o binits, esto es la cantidad de dígitos por segundo que es
transmitida y se mide en [binits/seg.]
Habíamos visto también que H era la información promedio, o sea los bits que
transportaba en promedio cada binits, y se medía en [bits/binits], por lo tanto, la unidad
de R será:
R = [binits/seg.]*[bits/binits] = [bits/seg.]
La práctica lleva a utilizar habitualmente a r como velocidad de información y se mide
en bit/seg., ya que de acuerdo a la salvedad que hiciéramos anteriormente, se llama bits
directamente a los dígitos.
Por otra parte, se define como velocidad de señalización a la inversa del periodo más
corto de los pulsos que contenga el mensaje.
1
0
1
0
1
Ômin.
S = 1/ Ômin.[seg.]
Y la unidad de s es el baudio.
Podemos decir entonces que el Baudio mide la velocidad de señalización indicando por
lo tanto, la velocidad de los símbolos.
Consideremos un ejemplo de todo esto. Veamos la emisión de un sistema de
teleprocesamiento de datos que transmite a una baja tasa una serie de datos codificados
en forma de pulsos bipolares a una estación central. La baja tasa de velocidad es a los
fines de que el sistema sea altamente confiable para transmitir sobre líneas telefónicas.
De todos modos no hay una gran densidad de datos ya que solo se censan y envían datos
de estado de equipos en forma regular.
Se transmite con ceros y unos bipolares (+/-12 volt) siete binits cada 150 mseg según el
gráfico siguiente:
11
Señalización típica del teleprocesador
20
20
20
20
20
20
30
150 mseg.
Como ya dijimos la amplitud de la señal varía entre más y menos 12 voltios. Vemos
también que hay pulsos de 20 mseg. (los de códigos de datos) y de 30 mseg.(los de fin o
parada). El pulso más corto es:
Ômin . = 20 mseg. por lo que: S = 1/ Ômin. = 1/20 mseg = 50 baudios
Calculemos ahora la información transmitida:
Tenemos siete binits cada 150 mseg. o sea:
7 binits = r = 46 binits/seg.
150 mseg
pero podemos considerar que el bit de parada no suministra información ya que es
esperado y su probabilidad de ocurrencia es 1 (log 1/1 = 0) por otra parte los bits de
datos son equiprobables y cada uno de ellos transporta un bit de información, por lo
que tenemos ahora 6 bits de información cada 150 mseg , esto es:
6 binits = R = 40 bits/seg.
150 mseg
con estos datos podemos calcular la entropía o información promedio que entrega el
sistema del ejemplo ya que:
R = H*r, será H = R/r = 40 bit/seg = 0,869 bit/binits
46 binits/seg
con lo que la información promedio es 0.869 bits por cada símbolo que entrega la
fuente.
Conclusión: los baudios son la cantidad de pulsos por segundo que habría si todos los
pulsos duraran lo que dura el tau mínimo. Por eso en el ejemplo dado teníamos 50
baudios y solo 46 pulsos por segundo. La "culpa" la tiene el pulso de parada que dura 30
mseg. Si todos los pulsos, incluyendo el de parada, duraran 20 mseg. evidentemente
habría 50 pulsos por seg.
12
CAPACIDAD DEL CANAL
Puede definirse al canal ideal de comunicación como aquel que teniendo a la entrada
un conjunto m de símbolos, a su salida reproduce exactamente los mismos símbolos.
(En el canal ideal no se consideran ruido ni distorsión)
Definimos como Capacidad de un Canal a la capacidad de transportar información y
se la mide en bits/seg. Para que una tasa de información pueda enviarse por un canal
deberá ser, en todos los casos:
R
C
Supongamos un mensaje de duración T compuesto de pulsos de igual duración t (aquí
se cumple que s = r y por lo tanto la cantidad de pulsos por segundo transmitida es la
máxima para una cierta s )
Los pulsos pueden tener n niveles distintos y la señal puede ser por ej.:
n
2
1
seg..
t
T
La longitud del mensaje (la cantidad de pulsos que tiene éste) será: T/t y la cantidad de
símbolos distintos estará dada por la cantidad de niveles distintos, o sea n: La cantidad
de mensajes distintos que se pueden formar (en un periódo T) será:
T/t
M(T) = n
Si todos los mensajes son equiprobables (es decir que tenemos la máxima cantidad de
información) la probabilidad de que aparezca un cierto mensaje en un tiempo T será:
PM = 1/M(T)
con lo que la información de cada mensaje es:
I = log 1/(1/M(T)) = log M(T)
Por lo que, dividiendo a
información:
(1) por
(1)
T obtenemos los bit/seg. O sea la velocidad de
T/t
R = I/T = 1/T log M(T) = 1/T log n
13
Tomando el último miembro de la igualdad, y por propiedad del logaritmo de la
potencia, podemos expresar:
R = 1/T * (T/t)log n = 1/t log n
Como la velocidad de señalización S es igual a 1/t resulta:
R = S log n
Lo cual significa simplemente que un canal que quiera transportar esa cantidad de
información (en bits/seg.) deberá tener una capacidad:
C = S log n
(3)
Si el sistema en el que trabajamos es binario, como hemos dicho que son todas las
aplicaciones de los Sistemas de Datos, tendremos que n = 2 (por lo tanto el log. De 2
es igual a 1) con lo que:
C = [bits/seg.] = [baudios]
Por lo tanto podemos decir que la capacidad del canal ideal nos refiere a las
características del canal con relación a la capacidad de la información que puede
transportar. La expresión (3) es la mayor información por unidad de tiempo que puede
transportar el canal.
TEOREMA DE NYQUIST
Por otra parte, la velocidad de señalización esta relacionada con el ancho de banda del
canal. El teorema de Nyquist establece que:
S
2B
Siendo B el ancho de banda del canal. Esta expresión general de Nyquist expresa la
máxima velocidad de datos posibles en un canal sin ruido y con un ancho de banda
infinito.
Veamos un ejemplo. El ancho de banda del canal telefónico (cable UTP -par trenzado
telefónico) que nos permite el uso del sistema telefónico conectado a la RTC (red
telefónica conmutada) tiene una repuesta en frecuencia muy buena hasta los 3.400 Hz.
Por encima de esa valor los filtros, bobinas de pupinzación (ecualización) y otros
condicionantes eléctricos hacen que el corte de la repuesta esté limitado a ese valor.
Importante es destacar que en el caso de los equipos de audio de alta fidelidad el ancho
de banda alcanza los 20.000 Hz y aún más arriba -aunque el "ancho de banda" del oído
humano (los distinto niveles de frecuencia que podemos oir) no puede reconocer esas
frecuencias. Volviendo al canal telefónico, y de acuerdo a lo que ya hemos visto,
podemos decir a priori que no será posible transmitir señales binarias a más de 6.800
bits/seg.
14
Esto, lógicamente considerando un canal telefónico ideal, sin ruido ni distorsión, cosa
que en la practica real es imposible de lograr para este tipo de sistemas
Es verdad también que, hoy contamos con importantes herramientas que nos permiten
aumentar la capacidad de los canales en función, por ejemplo de los distintos tipos de
modulación que se utilizan. Si codificamos los bits de a pares (codificación en dibits)
obtendríamos un código de cuatro niveles. El intervalo del pulso aumenta el doble con
lo que la velocidad se reduce a la mitad. Se están enviando así dos bits por baudio, de la
misma manera se puede agrupar en tribits (8 niveles) con lo que se envían 3 bits por
seg. por baudio. De esta forma es posible enviar por un canal telefónico real (con ruido
y distorsión podemos alcanzar los 2.400 baudios) por ej. 9.600 bit/seg. agrupando en
cuatribits (16 niveles)
TEOREMA DE SHANNON - HARTLEY
Hagamos un poco de historia. En que años, en que épocas, se desarrollan las relaciones
que se han planteando? Pues bien, ya en el año 1929 Nyquist establece la relación entre
el ancho de banda y el número de pulsos independientes. Un año antes, en 1928, Hartley
establecía la relación entre las constantes del canal y la información por unidad de
tiempo. Plantea la "capacidad del canal" En 1948 Winer desarrolla la teoría de los filtros
óptimos para recuperar la S/N.
En 1948, Shannon inicia el estudio matemático de la Teoría de la Información,
trabajando en sistemas de comunicaciones por Radio enlaces donde su evolución en la
post guerra fue vertiginosa y de gran crecimiento. Por ende aumentaban también los
requerimientos. Por ser contemporáneo con nosotros (falleció en 1999) y seguir
trabajando hasta su muerte, quizás sea el más reconocido. No obstante a Shannon le
suceden una gran cantidad de científicos trabajando en todo el mundo ya que esta
disciplina técnica - científica es una de las más recientes en el campo del conocimiento
y las telecomunicaciones han experimentado un crecimiento arrollador, uniendo a todo
el planeta y llevando información a cualquier rincón del mundo en el mismo instante en
que esta se esta produciendo. A modo de ejemplo gráfico, una persona de la edad media
recibía en toda su vida tanta información como cualquiera de nosotros ¡en un solo día!
Hartley, y después Shannon, han demostrado que la capacidad de un canal de
transportar información en presencia de ruido vale:
C = B log (1 + S/N)
[bits/seg.]
(4)
Donde: B = ancho de banda del canal
S = potencia media de la señal
N = potencia media del ruido
Es decir que S/N es la relación señal a ruido expresada en número de veces (no en dB).
Comparando esta expresión con la (3) (capacidad de un canal sin ruido) vemos lo siguiente:
Si consideramos el ancho de banda mínimo previsto por el Teorema de Nyquist
B= S/2, tenemos que:
C = S log n = 2 B log n = B log n²
15
Ahora bien, comparando con (4) vemos que:
n² = 1 + S/N
n=
1 + S/N =
S+N
N
si consideramos que trabajos sobre resistencias de 1
S+N
N
podemos asimilar que:
es el valor eficaz de la señal más el ruido
es el valor eficaz del ruido
Por otra parte, se puede determinar el número máximo de niveles de la señal como el
valor pico de la señal dividido por la separación mínima entre niveles para que el ruido
superpuesto en cada nivel no interfiera con el siguiente (o sea, sería el valor pico del
ruido si este lo poseyera).
Este mismo concepto está contenido en la formula de Shannon Hartley, pero acá el
cociente se hace sobre valores eficaces:
n=
S+N
N
= Valor eficaz de la señal con ruido superpuesto
Valor eficaz del ruido
sigamos con el ejemplo del canal telefónico: habíamos dicho que el ancho de banda era
de 3.400 hz. Supongamos ahora que la relación señal a ruido es de 20 dB ó 100 veces
(para una señal a -15 dBm y un ruido a -35 dBm) entonces:
C = 3.400 log (1 + 100) = 22.624 [bits/seg.]
Ing. Juan Carlos Clark
[email protected]
Cátedra de Comunicaciones
Universidad Tecnológica Nacional
Facultad Regional Córdoba
16
Descargar