BOLILLA 1 Concepto y ubicación de esta ciencia. Información: concepto y unidades

Anuncio
BOLILLA 1
Concepto y ubicación de esta ciencia.
Información: concepto y unidades
Entropía: concepto y unidades
Teorema de equiprobabilidad de los estados: propiedades
Fuentes de información
Concepto de fuente
Fuente binaria
Clases de fuentes
Memoria nula: concepto
Fuente de Markov
Estados equiprobables
BOLILLA 2
Códigos: definición
Código bloque
Código singular
Código unívoco o unívocamente decodificable
Código instantáneo: prefijos
Código compacto
Inecuación de Kraft
Propiedades de los códigos
1º teorema de Shannon
Códigos compactos
Métodos de Huffman
Rendimeinto y redundancia de los códigos
1
Códigos de control
BOLILLA 3
Canales
Alfabetos
Factores de calidad
Probabilidades de paso
Ruido
Información mutua
Capacidad de un canal
Reglas de medición
Incertidumbre
Entropía afín
Canales binarios simétricos: propiedades
Entropía del emisor
Entropía del receptor
Ambigüedad
Canales en serie
2º teorema de Shannon
Distancia de Hamming
BOLILLA 4
Codificación para control de errores
Paridades
Redundancias verticales
Módulo de combinación lineal para codificación de códigos de control
Ecuaciones
Síndrome de errores
2
Modelos matemáticos para determinación de paridades
BOLILLA 5
Transmición de información
Teoría de la modulación: ecuaciones
Modulación y ruido: conceptos
Modulación de señales
Tipos de ruido: propiedades
Relaciones señal−ruido
Sistemas de protección
Atenuación
Distorción
Filtros
Modelo de Furier para el cálculo de armónicas
18/3/97
Dinamismo: las estructuras sufren cambios a lo largo del tiempo, las variables que forman parte de la
estructura son dinámicas, van provocando cambios, y los cambios que provoca genera cambios relacionales,
por lo tanto si generan cambios relacionales empiezan a incidir en forma diferente respecto de métodos que
están en el contexto que tienen relación con el futuro, empiezan a darse situaciones que son cambiantes y que
en algún momento hace que los objetivos de la estructura cambien. Por qué? Por cambios propios que la
estructura tiene, por un lado, o por situaciones del contexto que obligan a un cambio en los elementos para
que el conjunto esté de acuerdo al contexto a donde esté sumergido; los elementos no están aislados, no todos
forman parte de un todo.
Ese es el grado de relación en sistemas: no importan los elementos sino las relaciones, todo eso conlleva al
concepto de eficiencia y eficacia que tanto tiene que ver con sistemas; por eso a ustedes les pintan el sistema
como si fuese una caja negra, y lo que interesa es el resultado de la caja negra, o las variables de ingreso a la
caja negra; cómo funciona no importa. Si ustedes han hecho alguna vez análisis en serio a nivel de sistemas lo
peor que un analista puede hacer es ir al detalle, ustedes tienen que hacer el análisis desde el punto de vista de
lo macro. Un muy buen programador a veces es un mal analista y un buen analista no puede ser nunca un
programador
una persona que no tiene visión macro no puede hacer análisis, pero puede ser buen programador. El
ingeniero se supone está vinculando ambos mundos: el mundo de la tecnología y el mundo de la macrovisión
del analista de sistemas.
Dato e informacion, sistemas, conceptos relacionales, conceptos de estructura, dinamismo, concepto de
contexto
3
Cuando ves un cierto orden, y lo entendiste, entonces decís que es un sistema.
Desde el punto de vista de lo real nada existe; lo único que existe es lo tangible, y lo tangible son las
estructuras. Si ves orden, determinás objetivos, entonces acá vamos al famoso tema de los objetivos no
operativos y los objetivos operativos. Suponete que algo no funciona según tu criterio con el orden que
debiera funcionar, vos sabés que si eso estuviese ordenado de acuerdo también a tu criterio funcionaría mejor;
si funciona mejor tenés más beneficios; vos decís acá se necesita un sistema, que ordenace el desorden,
entonces el objetivo no operativo representa en ese caso la necesidad de existencia de un sistema. Es el
puntapié inicial que lleva a la creación de un sistema, eso se llama objetivo no operativo. Una vez que el
sistema se diseñó, se construyó, como yo llamo se adaptó orgánicamente (se le dio forma de estructura),
entonces ahora ese objetivo va a ser operativo, esto significa el sistema se tiene que comportar de acuerdo a
como yo lo diseñé y lo pensé. Entonces eso calza perfectamente al concepto dato−instrucción: reproduce el
ejemplo anterior, los datos representarían elementos con objetivos no operativos; ahora bien, si los datos
estuvieran bien ensamblados, fueran datos seguros, etc. se necesita un objetivo, y a partir del objetivo crea un
sistema, y el sistema que yo cree tiene que responder al objetivo que fue origen del nacimiento del sistema. O
sea: primero está el objetivo, después abría el sistema; una vez que llegó al sistema tengo que chequear si el
objetivo tal cual fue creado es cumplido por el objetivo operativo.
De qué forma se deberá la existencia real a un dato o un conjunto de datos elaborados?
Cuál es el sentido de la información?
Cuál es el objetivo último de la información? Aprender.
Si vos hablás de aprender estas viendo el concepto de la informacion desde el punto de vista del que la recibe,
el que la recibe aprende; pero el que origina qué hace? Transmite conocimientos.
Objetivo primario de la información: contar con un medio que permita que el conocimiento se pueda
transmitir a lo largo del tiempo, si no se pierde asegura permanencia.
Desventajas de la computación: no entender.
El tema de la información se sustenta en dos principios: correcta transmición y el perfecto entendimiento; no
estamos hablando del uso ni de la aplicación, estamos hablando de los principios fundamentales.
Si hablamos de estos dos conceptos vamos a requerir de un punto medio que me permita cumplir por lo menos
con la primer función, que es la transmición, lo otro no lo puedo garantizar de ninguna forma, que el receptor
me entienda; pero sí tengo la garantía de que si tengo el medio el conocimiento lo puedo transferir, por lo
tanto esos medios tienen que ver con situaciones de adaptación orgánica de la forma en que ese conocimiento
pueda transferirse en modo eficiente, lo que se busca habitualmente es transferir ese conocimiento al menor
costo y con el minimo grado de error. En toda la ciencia de la teoría de la información hacen el análisis de
medios y ustedes vieron que la Bolilla nº 2 habla de códigos, que de alguna forma el código representa el
medio de representación del conocimiento. Cuándo es que se hace más eficiente el concepto de la
transferencia y tratamiento del conocimiento?: en los ultimos años con la aparición de la computadora. La
computadora de alguna forma no solamente resuelve a mayor velocidad y con mayor precisión situaciones de
elaboración, sino que permite en funcion de cómo está conformada garantizar el problema del costo; dentro de
todas las formas que existen de codificación de información, tendríamos una que es sumamente elemental
pero que correctamente combinada me pueda llevar a administrar conocimientos que son muy complejos.
La computadora es un sistema? Cuál es el objetivo? Facilitar la ejecución de tareas.
Qué necesita una computadora para funcionar? Energía.
4
Cómo funciona internamente una computadora?
Cómo es la corriente que circula? Señales por pulsos, señales discretas, señales digitales.
Vamos al concepto que origina la materia.
Cuáles son a su criterio las condiciones que deben existir para que un mensaje aporte información? pero ojo,
yo pregunto por las condiciones elementales.
En esto que yo les estoy tratando de inducir juegan dos conceptos; uno que es físico y otro que es lógico.
El medio qué debe permtir? Que el dato llegue.
Qué es lo que tenés que hacer en el medio para que vos interpretes que hay información que se está
manejando o hay algo que se está manejando?
Qué es lo que hacen los tipos que estudian vida en otros planetas? No tenés capacidad para verlo: oyendo.
Qué es lo que ois? señales. Y cómo sabés que es inteligente o no? Qué es lo que analizás de la señal?. La
perioricidad de la señal. La señal es la alteración de un medio que está provocada por un elemento; ahora, ese
elemento puede alterar el medio; ahora, si yo a la alteración del medio le sumo el concepto de perioricidad
empiezo a pensar que alguien de exprofeso está alterando el medio con cierta perioricidad con el objetivo de
comunicarse con alguien. Entonces el elemento nº 1 para que un mensaje aporte información desde el punto
de vista orgánico es la variación de señales en el tiempo respetando el principio de perioricidad.
NOTA: desde el punto de vista orgánico: que tiene existencia real.. Si acá no hubiese una atmósfera yo podría
estar gesticulando y ustedes no me escucharían, porque yo no puedo alterar el vacío. Por eso dicen que los
únicos elementos sin variantes en el universo son dos: espacio y tiempo.
Eso es lo físico, por eso les hablé de lo orgánico.
Cuál es la variable lógica?
No podías predecir la existencia de ese conocimiento, ese conocimiento para vos era imprevisible, no sabías
que existía.
Elemento nº 2: impredecibilidad.
Cuánto vale un diario? Un peso. Pero hoy qué día es? Martes. Vos pagás un peso por un diario del lunes?. No.
Por que? Porque ya lo pagaste el lunes y lo leiste el lunes, por lo tanto no lo vas a volver a leer otra vez. El
diario del lunes el dia martes no te muestra ningun tipo de información. Los contenidos principales ya los
conocés. Ahi empiza a jugar el concepto de valor de la información: hay información que puede ser muy
valiosa para algunos y poco valiosa para otros. Por qué? Porque no saben para qué usarla.
El no suministrar información tiene un alto valor agregado para muchos, ser el tenedor de información
confidencial. Son cosas que no se dicen pero se sospechan.
Ahora la teoría de la información se va abriendo en ramas: una rama que es fisica y otra rama que es lógica, y
que teóricamente a través del desarrollo matemático muestra lo mismo.
Vamos al desarrollo del primer concepto, la parte orgánica: dijimos que vamos a analizar el concepto físico de
la información desde el punto de vista del tratamiento de señales digitales internamente numeradas, que es la
5
computadora; dijimos que es el insumo lo que necesita el computador para cumplir su función,
independientemente de otras cosas, pero lo que necesita es el insumo.
Circuito de la variación en el tiempo
Vamos a representar una señal digital desde el punto de vista teórico, un diagrama de tensión−tiempo, una
señal cuadrada que tiene elementos que le son característicos.
Entonces el primer elemento que identifica una señal digital es su ancho de pulso, ancho de señal, se
representa con la letra griega Tau, y de alguna forma me significa a mi el tiempo durante el cual la señal se
encuentra viva y reconocible.
2º variable : altura del pulso, que representa el o los puntos para los cuales se considera que la señal funciona.
3º variable: la valencia, que representa los distintos estados posibles que una señal puede alcanzar y para los
cuales se ha previsto niveles de interpretación lógica
4º variable: estado característico: constituye algún valor de valencia observado en un instante dado.
5º variable: mensaje, donde el mensaje constituye una secuencia fija de señales combinadas a valencias dadas,
cuya duración deberá ser múltiplo del tiempo Tau y donde el mensaje se identifica a través de la letra
mayúscula T.
v
T
Tau
t
Todos estos elementos de alguna forma resumen el concepto de variación de señales en el tiempo, pero estoy
marcando una condición: el concepto de multiplicidad, esto significa que la variación tiene que ser siempre la
misma y tiene que durar siempre lo mismo, y que cualquier combinatoria que yo defina tiene que respetar el
concepto de multiplicidad de la señal que constituye el mensaje.
Si yo empiezo a enviar señales de velocidad distinta no puedo jamás constituir información porque resulta
imposible entender qué es lo que estoy mandando al otro lado, entonces el concepto de inteligencia se pierde.
Por eso se dice que si uno habla muy rápido resulta inentiligible, no le doy tiempo a ustedes a tratar de
entender lo que yo digo. Dónde esta el problema? En la variación, el tiempo que yo preciso para entender: los
tiempos tienen que ser iguales, sobre todo cuando trabajás en transmiciones; porque ojo, yo no les estoy
diciendo que vos no podrías construir un receptor; pero cuál es el problema desde el punto de vista de lo que
es la constitución del circuito? El nivel de complejidad. Yo puedo trabajar con 3 estados, con 4, con 5, con n,
pero a medida que voy evolucionando en los niveles complico la lógica, se supone que lo que tengo que tratar
de hacer es simplificarla lo máximo posible, para lograr qué cosa?: desde el punto de vista económico una
reducción del costo.
Diagrama de espejo
Tiempo de respuesta del componente que está originando la señal.
Areas que se marcan entre puntos por debajo de la curva. Qué tipo de función matemática es ésta? Es un
6
polinomio de grado 3, con raíces negativas.
A
B
C
BA
Punto de funcionamiento de la señal. Debe estar de acuerdo a la valencia definida.
Punto de ganancia de unidad: marca el comienzo o final de un cambio de estado y donde el área entre puntos
constituye la región de transición de la señal.
Punto de incertidumbre de la señal.
El punto de inflexión me esta marcando un cambio de estado; ahora cuál es el problema? Cuando llego a C no
puedo asignarle ningún tipo de valor lógico a la señal que estamos usando. No sabés hacia dónde va el punto
de funcionamiento.
Por default no puedo asumir puntos mientras me encuentre dentro de la región de transición, pero no puedo
asignarle nunca un valor lógico cuando llegue acá. No sabés hacia donde va el punto de funcionamiento. Por
eso esta el diagrama de espejo, porque no sabés lo que esta pasando, lo podés ver digamos de la misma forma:
o venís entrando por acá y vas hacia allá o venís entrando por acá y vas hacia acá, y cuando llegaste hasta acá,
no sabés el camino por el que lo hiciste, es lo que se llama el rice stand−up de una señal en el tiempo, el
tiempo que le lleva a la señal alcanzar el punto de funcionamiento, cuando vos realmente entendés cómo la
señal funciona; si querés podés trabajar con la lógica positiva o la lógica negativa, a nivel de lo que es la
asignación a valores físicos o valores lógicos.
Repaso:
Las variables: el ancho: la duración
la altura: el funcionamiento
Estos dos valores representan la valencia y la señal funciona con estos dos valores.
La teoría de la información va a tratar de demostrar que si yo analizo todo lo que es el sentido lógico de la
información, a partir de la teoría de la impredecibilidad se supone que debo delegar al mismo concepto desde
el punto de vista del modelo, eso es lo que hace que la teoría de la información esté fortalecida.
1/4/97
Vamos a manejarnos a nivel de análisis en la teoría de la información desde el punto de vista de señales
discretas acotadas en su valor: esto significa vamos a manejar muy pocas cantidad de variables de información
distintivas y donde a partir de ciertas combinaciones vamos a movernos hacia información de > o <
complejidad.
Habíamos distinguido elementos característicos tales como ser: su valencia, que es la cantidad de señales
diferentes que el sistema estaba en condiciones de administrar. El número de señales discretas distintas tiene
que ser muy acotado debido a que eso está relacionado a la complejidad o sencillez del circuito que se
7
pretenda armar. Es decir que a mayor cantidad de señales diferentes asociados a niveles de tensión con valores
lógicos asociados a esos niveles, evidentemente requeriría de mayor complejidad de los circuitos y entraría en
situaciones de incertidumbre, en situaciones no deseadas, respecto al reconocimiento de esa señal; eso se los
había mostrado en algún momento cuando yo hago una amplificación de la señal discreta y les muestro que
esa señal discreta tiene puntos de funcionamiento y existe algún punto dentro de esa señal donde yo no sé
realmente de qué tipo de señal se trata. En la medida en que nosotros vayamos evolucionando el conocimiento
respecto de la teoría de la información vamos a ver como que esta explicación (que ahora parecería entenderse
con mucha facilidad) se complica un poco y tiene mucho que ver con situaciones de entendimiento entre dos
sistemas que están tratando de comunicarse; no es solamente el análisis hecho desde el punto de vista de un
sistema individualizado y trabajando sobre sí mismo, sino que tiene mucho que ver con la situación en que se
encuentran sistemas que pretendan generar diálogos.
v
T
Tau
t
Elementos que jugaban a nivel de análisis de la señal que integraban el sistema: valencia, ancho del pulso,
altura del pulso, estado característico y la duración del mensaje.
De alguna manera hay que recordar que este sistema debería juntar a manejar información de mucho mayor
nivel de complejidad; por lo tanto, como estoy trabajando yo, con un nivel muy acotado de variables que
representan la información, debería empezar a tratar de combinar yo esas variables para lograr ese nivel de
complejidad que yo pretendo alcanzar.
Si yo les preguntase repecto de este sistema (un computador), qué capacidad tiene desde el punto de vista
físico y desde el punto de vista lógico? Desde el punto de visto físico es si me detengo exclusivamente en la
señal física; desde el punto de vista lógico si analizo la variedad de señales con las cuales yo trabajo, es decir
tengo una respuesta diferente para la misma pregunta, o sea, quiero analizar la capacidad de mi máquina desde
el punto de vista físico y desde el punto de vista lógico. Cuál sería la respuesta?
La capacidad física de qué dependería? La cantidad de electrones por unidad de tiempo, eso es la tensión, la
fuerza de la electricidad. Cuál de las variables es más representativa del término capacidad? El tiempo. Si yo
tuviese que medir la capacidad física de mi sistema, de este sistema que estoy planteando acá, estaría
analizando mi variable tiempo. Por qué? Porque la combinación acá está planteada, entonces lo que a mi me
interesa es saber cuántas combinaciones puedo generar yo por unidad de tiempo. A medida que yo pueda
generar mayor cantidad de combinaciones por unidad de tiempo mi sistema es más capaz desde el punto de
vista físico, lo cual no quita que lo sea desde el punto de vista lógico; por eso la pregunta tiene dos repuestas
distintas, es decir que mi sistema tendrá una única capacidad lógica una vez que está planteado el modelo,
pero lo puedo variar en su capacidad física, si hago qué cosa? La duración de la señal; en la medida que yo
haga durar esa señal menos tiempo puedo decir que mi sistema es más capaz físicamente.
Por qué la capacidad lógica es invariante una vez que el modelo está planteado?
Cuál es la valencia del modelo? 2
Cuál es la capacidad lógica del modelo? El tren de mensajes, o sea la palabra, es de 3 estados.
Esto representa una combinatoria: 2 representa N estados, o sea la valencia, y 3 representa el cociente de T
8
sobre Tau, donde T siempre tiende a ser n veces Tau, tiene que ser múltiplo de Tau, es una condición; en
ninguna máquina las señales pueden durar diferentes lapsos, los lapsos de duración tienen que ser los mismos.
Esta fórmula lo que nos está explicando a nosotros es cuál es la capacidad lógica que el sistema tiene, y el
sistema tiene una capacidad logica de 8, es decir puedo representar 8 combinaciones diferentes.
Se acuerdan que cuando empezamos el curso dijimos: cuáles son las condiciones para que un mensaje aporte
información? Son 2: una señal varía en el tiempo, y que no haya predicibilidad. Estos 2 conceptos están
asociados a dos vertientes de análisis distintas de la teoría de la información: una vertiente es la que es el
sistema de información, o el sistema de transmición, sistema de comunicaciones, sistema de computación o
cualquier tipo de sistemas que maneje información, inclusive si vos y yo nos comunicamos entre nosotros,
nosotros 2 nos vemos como sistema y lo podemos aplicar a este análisis, lo podemos aplicar a un lenguaje, a
un idioma, a cualquier cosa que me permita componer información; entonces una de las vertientes es
netamente física y que es la variación de una señal en el tiempo, eso es físico 100%; pero si yo digo no debe
haber predicibilidad, salgo del terreno de lo físico y me meto en el terreno de lo lógico.
Este sería la capacidad potencial lógica de mi sistema en tanto y en cuanto las combinaciones que surjan del
sistema sean impredecibles para mi, el hecho de que yo conozca todas las combinaciones posibles no significa
que yo vaya a acertar qué es lo que vaya a salir del sistema. Si el sistema fuera predecible ya no sería un
sistema de información, ya no sería un computador.
Cuando una teoría surge lo primero que se trata de hacer respecto de la teoría es chequearla, si el modelo
analizado desde el punto de vista físico y desde el punto de vista lógico machea, si el análisis que yo hago del
modelo por un camino y por otro camino me lleva al mismo resultado, eso es lo que le da la sustentacion a la
teoría, porque sino la teoría va a tener alguna falla en algún lugar, por lo tanto el modelo no me sirve para
explicar ciertas cosas, entonces lo que yo trato de hacer cuando elaboro cualquier texto de teoría a través del
modelo es verificar el modelo por los dos sectores; entonces yo recién hice una verificación física del modelo
trabajando a partir de una combinatoria para determinar su capacidad lógica.
Lo que hicimos fue analizar por el lado físico la capacidad lógica, ahora vamos a analizar la capacidad lógica
exclusivamente por el lado lógico para que el modelo cierre.
Yo lo que me tengo que poner a analizar es el concepto de predicibilidad del que estaba hablando, que es lo
que representa la faz lógica, y la predicibilidad tiene que ver con el concepto de probabilidad. El análisis es el
siguiente: yo tengo dos informaciones distintas (I1 y I2); si yo digo −conocidas las 2 informaciones− que I2 es
mayor que I1, estoy diciendo que I2 es más informativo para mi que I1, si yo me apoyo en la teoría de la
prediciblidad debería concluir con que la probabilidad de que yo conozca I2 seguro que va a ser más chica que
la probabilidad de que yo conozca I1; yo no conocía I2, pero si conocía parte de I1, la probabilidad de que
conozca a I2 tendía a 0, mientras que la probabilidad de que conozca a I1 tendía a 1. Ustedes saben que los
valores probabilísticos de los sucesos oscilan entre dos dígitos: 0 y 1: existen 2 clases de probabilidades:
probabilidades asociados a elementos discretos y probabilidades asociados a elementos continuos; entonces lo
discreto está representado por series numéricas: cartas, dados, etc., y lo continuo está asociado a áreas: existe
una probabilidad del 50% de que llueva; son temas que tienen que ver con el tipo de suceso que yo estoy
analizando: acá no importa si la probabilidad que estoy analizando es continua o discreta, lo que sí interesa es
el concepto de magnitud, hacia qué valor tiende esto. El decir que una probabilidad tiende a 1 es decir que
existe un 100% de probabilidad de que eso va a ocurrir, y que tienda a 0 significa que es absolutamente
improbable de que eso ocurra.
Existe una relación entre información o cantidad de información y valor de probabilidad, y esa relación que
guarda información y cantidad de probabilidad son entre sí variables inversamente proporcionales; a más
información, menor probabilidad de que yo conozca las cosas, a menor información, mayor probabilidad de
que ya esa información ya la conocía: eso es lo que se llama en análisis matemático un análisis comparativo
de variables; ustedes saben que en matemáticas cuando alguien quiere comparar variables entre sí existen dos
9
o mas variables conocidas, lo que se aplica es el análisis de diferencias entre variables, hay variables que son
dependientes y hay variables que son independientes; entonces si yo pudiera hacer el comparativo y buscar
cuál es la función de información en este caso, yo sé que la función de información está asociado al
componente probabilístico, lo dije cuando mencioné el punto 2 de cuál es la condición para que un mensaje
me aporte información; entonces si yo hago la comparativa de variables (para comparar lo único que uno tiene
que hacer es restar, porque de la resta surge si las variables son iguales entre sí, o una es mayor que la otra) sé
que el resultado, como guarda una relación de inversión respecto de la probabilidad va a estar antecedida por
el signo menos.
I1 I2
I2 > I1
p2 < p1
I2 − I1 −1
−−−−−−−−−− = −−−−− inversión probabilística
p2 − p1 p
Existe un concepto de mínima en la resta de diferencias: yo me voy a mover un intervalo de diferencias muy
chiquito. Qué concepto tiene asociado algo muy chiquito? El concepto de limite: yo lo que estoy buscando es
si la función es continua, esto es, si la función es continua estoy seguro que existe.
Si existe alguna discontinuidad: cómo salvás el límite? Se busca una funcion equivalente. Lo que vos buscás
es qué función pasará por acá, y cuando encontrás la función que pasa por ahí podés determinar cuál es la
imagen que corresponde a este valor.
Construir una función es definir un sistema, un subsistema o un submodelo dentro de un gran modelo.
Hacemos la diferencia lo mas pequeña que esa diferencia pueda hacerse y calculamos el límite para cuando
esta diferencia sea muy chica, eso es lo que te esta garantizando la situación de continuidad, y como todavía a
mi no me importa si las variables que estoy analizando son discretas o continuas, esto lo puedo escribir con
total y absoluta tranquilidad, y sigo manteniendo mi concepto presente de la inversión de probabilidad
respecto del análisis de variables.
I −1 p
lim −−− = −−−−− lim " I = − " −−−−−
p0 p p p0 p
()
Una ecuación diferencial es una ecuación que representa dinamismo, que cualquier sistema es sinónimo de
dinámica porque la definición, porque la realidad así lo indica, sino no se trata de un sistema.
Cómo se llama la sumatoria cuando la función es continua? Integrales.
Cuando vos representás elementos discretos: "
10
Cuando vos representás elementos continuos: "
Esto sería una integral indefinida porque a mi no me interesa en cuanto a los límites que tiene la suma en este
caso, porque yo puedo llegar a considerar que mi información se mueve entre − y +, o sea que si se mueve
entre ese entorno yo estoy diciendo que parte de la información no existe, por lo tanto como yo no quiero
entrar en discusión respecto de dónde surge información y dónde deja de existir digo que es una integral
indefinida y entonces asigno límites a la integración. Lo que vos vas a obtener es la función que representa la
cantidad de información que un sistema aporta desde el punto de vista lógico. Y al no darle límites obtenes el
concepto de máxima.
I MAX = − log p
" xdx
De dónde viene diferencial? Diferencial viene del término diferencias; cuando vos sumás algo que es
ireregular, cometés un error en la suma, por eso vos estás multiplicando el valor del elemento por el error que
cometés al sumar; yo tomo una superficie regular, tengo limites 2 y 2, yo lo puedo controlar de 2 formas: de la
forma tradicional
2
2
bxh
−−−−−−−−− = 2
2
lo puedo calcular así:
2 X2
" xdx = −−−− = 2
02
sé que tiene un límite, entonces puedo tomar que el límite está entre 0 y 2 si lo calculo sobre el eje de las x;
hago el integral y el resultado que obtengo es el mismo. Por qué? Porque lo que hice fue sumar una superficie
regular, por lo tanto no cometí errores en la suma; ahora, si la superficie es irregular, seguramente voy a
cometer errores: como yo soy muy prolijo, le quiero dar exactitud: al cálculo de suma lo multiplico por el
nivel de error que cometo al sumar.
1
I MAX = log −−−−−−
p
Esta fórmula representaría la cantidad máxima de información que el sistema suministra desde el punto de
vista lógico.
11
Acá hay una función exponencial y acá hay un logaritmo: por lo tanto alguna relación tiene que haber.
Qué es un logaritmo?
Te doy un ejemplo: logaritmo en base 10 de 2 es 30.103, logaritmo en base 10 de 4 es 60.206, logaritmo en
base 10 de 8 es 90.309; estoy haciendo una relación.
Por qué existen los logaritmos? −partamos de la base que el logaritmo es una función, donde hay una función
hay una relación−. Porque cuando uno se encuentra con una función exponencial, y a medida que la va
desarrollando, los números que empieza a manejar son tan grandes que son inmanejables; todo lo que sea
exponencial llevémoslo a una relación de tipo lineal, encontremos la relación entre la base y el exponente y en
lugar de multiplicar entre sí hagamos una relación lineal que tenga que ver con la base; por eso cuando yo
empecé a calcular logaritmos empezaba a decir los logaritmos que tenían que ver con la evolución
exponencial de la serie: por eso te dije el del 2, el del 4, el del 8, te puedo decir el del 16, todo lo que va
siendo multiplicado por la base que es 2; el logaritmo no representa ni más ni menos que una relación lineal
de una función exponencial, por lo tanto desde el punto de vista matemático existe relación entre las
funciones, esto es la linealización de la función exponencial.
Yo tengo que armar el diccionario de todas las palabras que maneje este sistema. Voy a armar este diccionario
partiendo de la hipótesis que trabajamos en un sistema digital con valores de 0 y 1.
000
0 0 1 8 palabras por el lado físico
010
011
100
101
110
111
Ustedes vieron cuando yo estaba armando el diccionario iba pensando lo que iba armando, no lo armé palabra
a palabra, sino lo armé dígito a dígito, y no lo armé en forma horizontal sino en forma vertical.
Estoy siguiendo la relación exponencial: 1, 2, 4, 8, es la cantidad de palabras distintas que yo puedo tomar.
Si vos querés generar una combinatoria donde estén todas las palabras, y no seguís una regla, seguramente vas
a repetir una palabra.
Ahora la historia no va por la constitución sino por la probabilidad de visión de cada uno de los elementos:
estoy analizando el lado lógico. Si yo tengo 2 elementos: 0 y 1, cuál es la probabilidad de cada elemento? 50 y
50: ½, partimos de la hipótesis que estos elementos son equiprobables, porque partiendo de esa hipótesis
respeto cualquier tipo de elemento que puede haber dentro del sistema me va a informar a mi; cualquier
elemento, cualquier palabra tiene que ser probable.
Existen dos tipos de probabilidades: probabilidades que son independientes y probabilidades que son
12
dependientes. Las probabilidades que son dependientes tienen que ver con un concepto que se llama de
reposición: si yo tengo un mazo de cartas, tengo las 40 en la mano, cuál es la probabilidad de cualquiera de las
cartas? Es un 40avo; una vez que saqué una, no es un 40avo, es un 39avo, porque hay una segura que ya se
que no va a salir, entonces el resto de las cartas el valor de probabilidad dependerá de la que ya salió, por eso
se llama dependiente. Ahora, si yo una vez que saqué la carta la vuelvo a meter en el mazo, la probabilidad
vuelve a ser la misma, ahí repuse: por eso es con o sin reposición. Si yo estoy jugando a los dados, −trabajo
con un solo dado− que salga cualquiera de las caras es equiprobable, porque siempre vuelvo a meter el dado
en el vaso. Cuando reponés es independiente, y cuando no reponés es dependiente.
Si habíamos definido que para cada uno de los elementos teniamos ½ de probabilidad, qué pasa cuando se
combinan los elementos y las probabilidades son independientes entre sí? Si yo tomo cada uno de los
elementos con valor ½ asignado la resultante del valor probabilístico de la serie es 1/8, que responde al octavo
de la palabra.
11
I MAX = log −−−−−− log −−−−−−− = log 8 = 3
p 1/8 2
Qué representa el valor numérico 3?.
Para que la serie me informe yo requiero 3 elementos; si a mi me faltase algún elemento, la serie no me estaría
informando; son 3 elementos sí o sí los que me tienen que informar.
3 es la cantidad de elementos que necesariamente deben conformar al mensaje para que represente
información para mi.
Esto ni más ni menos me está mostrando a mi que la teoría caminada por el lado físico y por el lado lógico me
lleva a un mismo resultado, por lo tanto la teoría es válida y cierra; pero recuerden lo siguiente: estoy
hablando de cantidad de información máxima, entonces si establezco como concepto el término de máxima
pues habrá una información mínima que reúna información media o promedio que el sistema me pueda
suministrar.
Hay dos cosas que me sirven: el antilogaritmo, que respeta la cantidad de palabras que conforman el
diccionario, y la repuesta que me de el logaritmo, que está representando la cantidad de elementos que lleva el
mensaje.
T n . Tau
−−−−−− log N −−−−−−−−−−−− log 2 = 3
Tau 2 Tau 2
Resumiendo, es parte de un sistema que maneja un nivel de información absolutamente primario, ese nivel de
información primario se ha definido así por un tema de conveniencia −tiene que ver con simplificación de la
parte física que después lo va a soportar−, simplificación tiene que ver también con una situación de costo: la
imposibilidad no es la imposibilidad técnica, sino lo que mide el diseñador, en cuanto a que tiene que
balancear lo que un sistema brinda con lo que un sistema cuesta para que el sistema pueda ser comercializado.
Al trabajar con la información primaria si yo quiero tener informacion concreta no me queda otra salida que
combinarla la información y asignarle significaciones complejas a las combinaciones, esto significa que una
13
combinación dada puede estar representando una cierta complejidad de información, por lo tanto va a haber
una situación de traducción de algo que es primaria a algo que es complejo.
8/4/97
Ya vieron que puede existir el concepto de cantidad de información máxima desde el punto de vista físico,
pero cuando uno va a revisar el punto de vista lógico puede darse la situación que no exista la misma
coincidencia que habíamos demostrado en el desarrollo que nosotros hicimos.
Todo juega de alguna forma alrededor del concepto de predicibilidad. Esas dieferencias, a las cuales yo estoy
haciendo mención, vienen jugando más por el lado de la lógica que por el lado de la física. La gran
preocupación que tienen las personas que se dedican a los sistemas de comunicación son determinar cuáles
son los sistemas más convenientes en función de lo que es la eficiencia que el sistema pueda aportar, y el
concepto de eficiencia jugaba con el concepto de predicibilidad.
FUENTE DE MEMORIA NULA
Desde un conjunto S finito constituido por Si símbolos, diremos que ese conjunto constituye una fuente de
memoria nula cuando los símbolos son emitidos siguiendo una ley de probabilidad determinada a priori y
donde la emisión de uno de esos símbolos no condiciona la aparición del símbolo subsiguiente.
Esto qué significa? Hay un elemento que es un elemento emisor que genera símbolos y cuando yo digo
siguiendo una ley de probabilidades determinada, lo que yo estoy diciendo no es que yo voy a saber
específicamente en qué secuencia se van a emitir esos símbolos de la fuente, sino lo que yo sé es que dada la
diversidad de símbolos que la fuente maneja, cuál es la participacion de esos simbolos en la emision, cuáles
son los simbolos que salen más que otros; no el orden de salida de los símbolos, que es una cosa muy distinta;
porque si yo conociese el orden de salida de los símbolos desde el concepto de vista de la predicibilidad
podría anticipar cuál es la salida del próximo símbolo, por eso yo estoy hablando de que la emisión de un
símbolo no condiciona la aparición del siguiente; ahora, bajo qué condiciones determino esa ley de
probabilidad? Qué es una ley de probabilidad? La probabilidad no es más ni menos que una consecuencia de
observaciones que se hacen en el tiempo respecto de sucesos determinados; entonces no es que mediante una
formula yo escribo una ley para, sino lo único que estoy determinando es que a partir de una muestra
representativa
NOTA: muestra representativa: hay técnicas en estadística que permiten determinar tamaños de muestra, de
modo tal que la resultante de las conclusiones que yo quiero acceder a partir de la muestra están justificadas
por una teoría que me dice que: el tamaño de la muestra es suficiente para dar casi cierto la previsión que yo
voy a hacer respecto del comportamiento de ese grupo que yo estoy estudiando; es lo que hacen en las
elecciones: se imaginan que no le preguntan a todo el mundo por quién va a votar, lo que hacen es tomar un
tamaño de muestra, existen técnicas en estadística que permiten determinar bajo qué esquemas trabaja el
tamaño de muestra, y cuáles son las probabilidades de que en las condiciones que tenga el tamaño de muestra
sean ciertas.
Dejamos la definición y volvemos al concepto que habíamos mencionado respecto de lo que es la cantidad de
información distinta de la máxima; hay una situación en la teoría de la información que es particularísima, en
que el concepto de máxima es coincidente desde el punto de vista físico y lógico, pero en la práctica vamos a
ver porqué no se da así.
Pero vamos a tratar de encontrar cómo se llega a determinar la información media en la teoría de la
información, es decir cómo se llega a determinar el promedio en la teoría de la información. Qué constituye
para ustedes un promedio desde el punto de vista aritmético? Sumar y dividir.
14
Promedio aritmético común donde tiene que darse una cirscunstancia bastante particular para que el promedio
que ustedes obtengan como consecuencia de esa suma y división sea realmente representativa, pero
evidentemente esa técnica de obtener promedios, cuando el análisis que uno quiere hacer respecto de medias
es más finito no alcanza. Supongamos que tenemos una serie de estas características:
1, 2, 3, 4, 5
si yo les preguntara, cuál es el promedio?: ustedes harían 1+2+3+4+5 y dividirían por 5, la sumatoria de los
elementos Xi dividido N (el tamaño de la muestra); pero sin necesidad de hacer ese cálculo yo también les
puedo decir que el promedio es 3: esta es una serie de distribución uniforme donde el próximo número es
consecuencia de la suma del anterior más un elemento, constituye lo que se llama en una serie la mediana de
la serie, o en términos estadísticos lo que se llama la moda, este es el número que sería más representativo de
la serie porque es el número que está en la mitad de la serie.
Hay otra manera de obtener el promedio, que es analizar la frecuencia de aparición de los elementos en la
serie, si yo tomo la serie como un conjunto y defino que ese conjunto constituye el 100% de la información,
yo digo que cada uno de los elementos tiene una participación del 20% de la serie conformada, de manera tal
que si yo multiplicase cada uno de los elementos por el peso de participación que yo le asigno en esta serie, la
sumatoria de ese producto me estaría dando el promedio (en el caso de que la distribución sea uniforme); y si
la distribución no lo fuera me acercaría al promedio real.
Campana de Gauss: existen sucesos que yo puedo calificar de discretos, esto significa elementos que yo puedo
contar; pero existen situaciones, como por ejemplo: el 40% de que si existe una lluvia, esa lluvia me anegue el
70% de una región, entonces estoy asociando al terreno probabilístico un concepto de áreas; en la medida que
voy cubriendo todas las eventualidades, digo que estoy cubriendo el 100% del área; lo que pasa es que lo que
son distribuciones uniformes tienden a ver una cierta concentración de fenómenos a través de lo que es el
punto medio del fenómeno en estudio: si yo estoy haciendo un análisis, y les digo que este es el punto medio,
la mayor cantidad de sucesos que estoy estudiando empieza a dar vueltas alrededor de este punto que definí
acá; lo que tiende a hacer la estadística para tratar de encontrar respuestas acertadas a las funciones que uno
quiere encontrar es tratar de normalizar cualquier tipo de función del estudio estadístico y llevarlo a este tipo
de función, que se llama campana de Gauss.
Entonces, se trabaja con el concepto de lo que se llama la frecuencia relativa. Esto que hice de multiplicar un
elemento por su frecuencia es lo que se llama la frecuencia relativa de aparición de suceso, se considera que es
la forma más conveniente para determinar promedios representativos; se considera que es el elemento más
representativo. Por qué? Porque ese concepto de alguna forma tiene implícito el concepto de función, porque
de alguna manera está buscando una relación; en los promedios que llaman promedios ponderados por peso,
evidentemente si empieza a haber más peso de algún lado que del otro, algún tipo de relación habrá, y si la
distribución es uniforme, se determina que la función que está vinculando los elementos entre sí es una
función de distribución uniforme, es decir que por un lado o por el otro el concepto de función existe;
entonces existen dos conceptos que se manejan en promedios de estas características: 1) concepto suceso por
un lado y 2) concepto función por el otro, los cuales combinados entre sí me deberían de acercar a la verdad
respecto de lo que yo quiero averiguar que es el promedio de información que el sistema aporta.
El tema es identificar para el análisis que estamos haciendo, cuáles serían los sucesos y cuál sería la función;
yo lo que quiero encontrar es un promedio representativo de la cantidad media de información que un sistema
me aporta, entonces llegué a la conclusión a partir de una deducción que acabo de hacer recién, que la forma
más feliz de poder hacerlo es encontrar una expresión promedio que considere dos conceptos: 1) concepto de
función por tema de relación, y 2) está el suceso en sí; entonces, cuál sería el suceso y cuál sería la función?
_N
15
X = Xi f ( Xi )
i=1 1
log −−−−−−
P(X)
probabilidad P(Si)
Esto es lo que llamo un promedio ponderado, esta es la función a la cual yo hago referencia y esto otro
sucesos.
Ahora, mi pregunta es: en la teoría de la información, qué representa esto y cuál es la función?
La función es la cantidad máxima de información; de qué estamos hablando? Promedio de qué cosa?
Promedio de la cantidad de información, por lo tanto la función tiene que ser la función de información.
Y el suceso cuál es? La probabilidad; hay alguno de los sucesos que ustedes puedan ver a través de la función
de información que no sea la probabilidad de que la información sea emitida? No hay ninguno de los que
hallamos mencionado hasta ahora.
Tenés que sumar la función de información que aporta cada elemento del conjunto multiplicada por la
probabilidad de aparición de ese elemento dentro del conjunto, tantas veces como elementos haya.
ENTROPIA DE LA FUENTE
Se denomina entropía de una fuente a la cantidad media de información aportada por todos los símbolos de
una fuente de tamaño q.
q1
H(S) = P(Si) . lg −−−−−−
i=1 P(Si)
Esto es, lo que les acabo de presentar, el pivote alrededor del cual gira toda la teoría de la información.
Acá la verdadera milanesa de la teoría de la información, lo que yo les dije antes de presentarles a ustedes este
análisis, que es muy dificil que coincida el concepto de cantidad de información máxima con lo que es
concepto de promedio de información, o sea desde el punto de vista lógico y físico; habitualmente el tamaño
del físico está por encima del lógico, esto es lo mismo que puede pasar en un examen: vos podés entregar un
examen escrito de cinco hojas, pero la información real que hay en el examen puede estar en una, y el resto es
guitarra, verso o redundancia; puedo ocupar mucho, pero tal vez lo que a mi me interese esté en una hoja, o lo
tengo que encontrar desperdigado a lo largo de cinco hojas y tengo que determinar cuál es la información que
realmente a mi me interesa de ese examen. Por eso yo les decía que en la práctica es muy difícil que la
coincidencia se de; si yo les reprodujese el ejemplo que les di el otro día, cuando desarrollamos el código:
000
001
16
010
011
100
101
110
111
qué pasa si ustedes tuvieran que calcular la función entropía en ese código de información? Cuál sería el valor
al cual arribarían ustedes?
q1
H(S) = P(Si) . lg −−−−−−
i=1 P(Si)
1
= (½ . ½ . ½ . lg −−−−−− ) .8
2 1/8
= (½ . ½ . ½ . lg 8 ) .8
2
(1/8 . 3) 8 = 3
3/8 sumados 8 veces
la probabilidad función de información
Coincidió el concepto de entropía con el concepto de cantidad máxima de información. Por qué? Porque el
otro concepto al cual yo hacía referencia no está presente, es información pura, este código que desarrollé es
un código de información puro, por lo tanto coincide el valor de máxima con el valor promedio, y es lo que yo
les contaba la vez pasada, lo que a vos te canta el resultado numérico es la cantidad de elementos que vos
requerís para conocer un concepto de información.
Si a mi me faltara algún elemento en esta secuencia que yo definí, me generaría incertidumbre.
Ojo que acá hay también otro concepto que está jugando: estoy jugando con el concepto de fuente de memoria
nula, suponiendo que la ley de probabilidad determinada a priori me dice que cualquiera de los elementos
puede salir en forma indistinta en cualquier momento durante la secuencia de emisión; esa es la ley de
probabilidades que determiné para calcular el valor numérico probabilístico para cada uno de los elementos
que conforman la serie de información.
Si vos medís todo el conjunto, ese conjunto te da 8; ahora si yo considero la secuencia de emisión en cuanto a
17
lo que es duración del mensaje, el T/Tau por el logaritmo en base 2 de N me vuelve a dar 3, porque el
logaritmo en base 2 de 2 pasa a ser 1 y el T/Tau es 3.
Está definido que cada elemento físico impulsor del conjunto constituye información por sí mismo, por lo
tanto es válido considerarlo como información y entonces hay coincidencia.
Lo que es la muestra numérica representativa de la cantidad de infornación lógica que un sistema aporta, está
dada por el concepto de entropía, y no tiene nada que ver con el concepto de entropía que se estudia en
sistemas.
ENTROPIA DE UNA FUENTE BINARIA
Sea un conjunto S determinado por los elementos S1 y S2 y donde cada uno de estos elementos tienen un
coeficiente probabilístico asociado y donde dicho coeficiente deberá ser necesariamente complementario del
1º respecto del 2º, diremos que la entropía alcanza su máxima expresión en la medida que los coeficientes se
acerquen en su valor.
S{S1, S2} P(S1) , P(S2)
Q (1 − P)
P
12
H(S) = P(S1) lg −−−−−−−− + P(S2) lg −−−−−−−−−−−
P(S1) P(S2)
11
= P . lg −−−−−− + Q . log −−−−−−−
PQ
11
H(P) = P . lg −−−−−− + (1 − P) lg −−−−−−−−−
P (1 − P)
Qué significa el desarrollo? Cómo evoluciona la función de la entropía en función del suceso de estudio de la
probabilidad; es decir, inicialmente arranco haciendo un análisis de entropía en función del contenido de los
elementos de la fuente; pero en algún momento determinado, dado que estoy trabajando con dos elementos,
considero (porque hay algo que no se si se los terminé de aclarar: cuando uno considera probabilidades hay un
factor que hay que tener siempre en cuenta cuando uno trabaja en probabilidades, que es el factor de
condición de cierre: la sumatoria de todos los factores probabilísticos entre sí que dependen de N cantidad de
sucesos determinados tiene que dar 1 en sí mismo; la suma de todos los elementos probabilísticos asociados a
sucesos y sumados entre sí me tiene que dar siempre 1. Por qué? Porque consideré el 100% de los sucesos, por
eso es 1).
En este ejemplo el factor probabilístico asociado al 5 o 2, como son dos elementos necesariamente tiene que
18
ser el complemento de éste; si uno fuera 0.7 el otro tiene que ser 0.3, si uno fuera 0.4 el otro tiene que ser 0.6,
si uno fuera 0.2 el otro tiene que ser 0.8, o en particular si uno fuera 0.5 el otro tiene que ser 0.5; esto es algo
que me muestra perfectamente bien lo que les vengo repitiendo desde la clase anterior: en la medida en que yo
me voy acercando por derecha o por izquierda, a que la alternativa de que la información surja pueda ser
idéntica para uno u otro elemento, crece mi incertidumbre; por lo tanto, cualquier cosa que salga va a ser
novedad para mi, y por lo tanto voy a acercarme a lo que es el concepto de máxima cantidad de información.
1
H(P)
0½1P
Si yo conozco a ciencia cierta qué es lo que va a salir por el concepto de complementariedad que yo les di
recién, la función cantidad de información es 0, y esa es la primer propiedad que maneja el concepto de
cantidad de información: los valores de información oscilan
0 " H(S) " lg q
2
Esta es la pimer propiedad. Por qué? Porque estoy considerando todos los símbolos de la muestra; acá estoy
en la hipótesis de que existe la coincidencia entre lo físico y lo lógico.
El logaritmo es en base 2 porque estoy trabajando en sistema binario; cuando vos trabajás con logaritmos,
trabajás con valores acercados a la realidad, vos tenés que definir que la base del logaritmo sea igual a la
cantidad de elementos que vos estás jugando a nivel de conjunto.
La q por el momento son dos; yo te puedo generar un conjunto S así de grande y sin embargo la base que uso
siempre es 2, te voy a demostrar por qué.
1
I MAX = lg −−−−−−−−−
P(Si)
Si yo digo que esta probabilidad representa (si yo no tengo ninguna ley) linealmente 1 / q de todos los
símbolos que están acá, pasa a ser 1 / (1 / q)
por lo tanto, 1 / (1 / q) va a ser lg q
2
Si la base es 2, la unidad que acompaña a la respuesta numérica es el bit.
Cuál es la otra propiedad? Si yo escribo
q1
H(S) = " P(Si) . lg −−−−−−−−
19
i=1 P(Si)
Qué pasa si todos los elementos tienen igual factor, peso, participación, son equiprobabilístictos entre sí? Este
desarrollo sería:
11
= −−−−−−− . lg q1 + −−−−−− . lg q2
q1 q2
Me voy a encontrar con un factor común y el factor común va a ser la función cantidad de información que se
va a repetir; si eso lo saco como factor común de la expresión
q
H(S) = lg q " f = 1
2 i=1
función cantidad de información multiplicado por la sumatoria de todas las probabilidades = condición de
cierre (= 1). El H(S) me va a coincidir con el lg 2 q; en qué caso? En el caso en el que el peso o la
participación de los elementos de la muestra de estudio sea la misma: es el caso que yo les hice escribir
1,2,3,4,5 y cada uno tiene un poder de participación del 0.20, harías 0.20 x 1 + 0.20 x 2 + 0.20 x 3 + 0.20 x 4
+ 0.20 x 5 que es es lo que hice acá; la función de información es única, yo se que por condición de cierre
todas las probabilidades sumadas entre sí me tiene que dar 1; por lo tanto, cuando se da esa situación
particular (esta es segunda propiedad) el H(S) coincide con la cantidad máxima de información.
El gran problema de los tipos que trabajan en telecomunicaciones es lograr que el sistema aplicado a la
telecomunicación permita trasladar la mayor cantidad de información en el menor tiempo posible, en el menor
tiempo posible lo puedo lograr a partir de dos principios: aplicando velocidad o compactando la cantidad de
información, la información que se transmite a través del sistema sea pura, pero hay un concepto que vos
tenés que incorporar que es el concepto de fiabilidad, esto es que el elemento que transporte la información
del sistema sea seguro, y hay un tema de costo asociado a ello.
Es alto el costo del sistema cuya entropía tiende a 0.
1º TEOREMA DE LA EQUIPROBABILIDAD DE LOS ESTADOS
Si un sistema con T/Tau señales y N estados posibles presenta una combinación cuya probabilidad es la
inversa de la valencia potenciada a la longitud del mensaje, entonces la probabilidad de cualquier estado será
la inversa de la valencia del sistema.
1
H) Pc (K) = −−−−−−−−−−−−− " K
N T/Tau
La probabilidad de combinación de que aparezca en ese sistema, es la inversa de la valencia del sistema
potenciada a la longitud del mensaje para cualquier combinación que el sistema maneje. Las otras dos
situaciones que son ciertas son las que me define la teoría de las probabilidades:
20
N N T/Tau
" P(ei) = 1 " Pc (K) = 1
i=1 K=1
sumatoria de las probabilidades de los estados, donde tiene que estar contemplada toda la valencia, todo lo
que te da igual a 1, y la probabilidad de la combinatoria también tiene que ser igual a 1.
P(e1) = P(e2) = P(ei) = 1/N
1
D) P(c1) = Pe1, Pe2P(ei) T/Tau veces P(c1) = −−−−−−−−−−
N T/Tau
P(c2) = Pe1, Pe2−−−−− Pe (T/Tau −1) Pe* otro estado
P(c1) = P(c2)
Pe T/Tau = Pe T/Tau −1 . Pe*
Pe T/Tau
Pe T/Tau = −−−−−−−−−−−− . Pe*
Pe
Pe = Pe*
1/N
P(c1) 0 0 0
P(c2) 0 0 1
010
011
100
101
110
111
La probabilidad de c/u puede ser 0, 1, ½, entonces multiplico la probabilidad de c/u T/Tau veces.
P(c1) = (½ . ½ . ½)
21
P(c2) = (½ . ½ . ?)
Acá lo que ustedes están desarrollando es una combinatoria, este desarrollo es un mensaje, por eso digo T/Tau
veces; es una productoria de todos los estados que integran el mensaje hasta que el mensaje se corta: lo que
dura el mensaje es un múltiplo de la duración de cada señal; voy multiplicando entre sí cada probabilidad,
porque estoy partiendo de lo que el teorema dice, que todos los estados son igualmente probables, entonces al
ser igualmente probables ningún estado condiciona a otro, por lo tanto los factores probabilísticos se
multiplican entre sí.
Voy al 0 0 1, y me encontré que cambié un estado, T/Tau −1, cambió el 1 (el estrella): por eso digo, si estas
dos combinaciones son iguales igualamos el desarrollo de las combinaciones.
Se demuestra que para cualquier probabilidad de estado, en función del conjunto que define la fuente, esto es
1/N.
Lo que este teorema me dice es que si todas las combinaciones probabilísticamente son iguales, los estados
aislados son también probabilísticamente iguales entre sí; si las combinaciones son iguales, desde el punto de
vista probabilístico, por lo tanto, todos los estados desde el punto de vista probabilístico también van a ser
iguales entre sí; no te puede dar 1/8 = 1/8 y que una cosa sea ½ y otra ¼; estoy partiendo de la premisa de que
todos los mensajes son de igual longitud.
2º TEOREMA DE LA EQUIPROBABILIDAD DE LOS ESTADOS
Dado un sistema que maneja T/Tau señales y N estados, si se tiene que la probabilidad de un estado
cualquiera es la inversa de la valencia del sistema, entonces la probabilidad de una combinación cualquiera es
la inversa de la valencia potenciada a la longitud del mensaje.
P(S1) = P(S2) = P(Sn) = 1/N
N
" P(ei) = 1
i=1
La probabilidad de la inversa de la valencia y la condición de cierre de la sumatoria de las probabilidades de
un estado.
1
T) Pc (K) = −−−−−−−−−
N T/Tau
D) 1/N T/Tau = Pe* T/Tau
Qué es lo que se considera válido para la demostración de un teorema? La hipótesis. Cuáles son los elementos
de la hipótesis? A qué es igual la probabilidad de un estado y la condición de cierre? Ahora en la
demostración yo planteo: cómo expreso la probabilidad de una combinatoria? Una combinatoria qué es?
Todas las alternativas posibles de combinaciones de todos los estímulos que conforman un mensaje. Entonces,
si para conformar ese mensaje no hay ninguna condición definida a priori, suponete: como está conformado,
la estructura de estímulos es independiente una de otra; entonces, la probabilidad de una combinación se
22
expresa como producto de multiplicar todos los estímulos entre sí a nivel probabilístico, como productoria de
los P(ei), todas las probabilidades de todos los estados posibles que conforman el mensaje.
Cuando vos multiplicás todos los estados entre sí el resultante final es un Pe genérico elevado a la longitud del
mensaje (Pe* T/Tau), pero el Pe no es más ni menos que la representación de la inversa de la valencia (1/N
T/Tau), lo cual te está llevando a vos a demostrar tu tesis, por eso te dije que era lineal y directo.
Qué estamos viendo desde el punto de vista conceptual en estos dos teoremas? Qué representan? En los dos
teoremas estamos parados en estados y en combinaciones, estamos parados exclusivamente en la señal, no
estamos parados en cantidades de información, estamos parados en la línea física.
Estos teoremas están analizando nuevamente el aspecto físico, y por qué estoy haciendo un nuevo análisis del
aspecto físico? Porque ahora voy a incluir un concepto que es el concepto de capacidad, y el concepto de
capacidad es un concepto que mezcla lo lógico con lo físico; entonces, yo mido un sistema desde el punto de
vista de la cantidad media de información que me aporta y de la capacidad que el sistema tiene; y en la
capacidad yo me puedo detener en la capacidad física exclusivamente (para el caso mucho no me inteeresa) o
en la capacidad lógica que el sistema tiene (que para el caso me puede interesar, porque lo que esta vinculando
son conceptos de información respecto del tiempo en que se recibe esa información).
Cuanto más información en menor tiempo lográs aportar más capaz es el sistema.
La capacidad es el cociente entre la cantidad de información aportada por un sistema y la unidad de tiempo
que dicha información se aporta (segundo, minuto, hora).
La capacidad, al involucrar la variable tiempo como unidad de comparación, es sinónimo de velocidad que el
sistema de información tiene.
No vas ni más rápido ni más despacio; tenés más o menos capacidad de reconocer más o menos cantidad de
información en la misma unidad de tiempo, que es otra cosa totalmente distinta.
La velocidad es un término de relacionar algo respecto de cómo evoluciona en el tiempo, cómo evoluciona
una variable respecto de cómo va transcurriendo el tiempo, qué va pasando, cómo se van dando los cambios.
El concepto de capacidad es tratar de vincular el concepto de informaciones que aporta el sistema y en cuánto
tiempo las aporta, para ver que otros sistemas son más inteligentes que otros, más capaces que otros, más
eficientes que otros; en algún momento hay que hacer un balance entre la capacidad física y la capacidad
lógica que el sistema tiene, pero ya tenemos la primer premisa para hacer ese balance, ver desde qué punto de
vista consideramos la capacidad: desde el punto de vista físico (la capacidad pura) es la cantidad de señales
que yo tengo capacidad de tener sobre un canal por unidad de tiempo; ahora, cuánta información entra a nivel
de canal en esa unidad de tiempo?, donde el concepto de información está por encima de las señales; las
señales por sí solas no constituyen información: ahora, cuando se las combina entre sí generan un primer nivel
de información, que en la medida que la cosa la querés hacer más sotisficada la combinatoria se va
complicando.
15/4/95
Mensaje es sinonimo de combinacion: puede ser que se trate de una combinacion fisica o una combinacion
logica.
EXTENSION DE UNA FUENTE DE MEMORIA NULA
Dado una fuente S cuya ley de emisión se describe de la siguiente manera: P(S1) P(S2) hasta el q símbolo,
23
cuya probabilidad asociada será P(Sq), diremos que dicha fuente, a la cual denominaremos S potenciado a la
N está representada por el número de elementos ai y donde esta fuente potenciada es una extensión de orden
N de la fuente S, si y solo si cada elemento ai de S potenciado a la N está formado por un tren o asociación de
aN elementos de la fuente S, la ley de emisión dice que la probabilidad de que se emita un elemento de la
fuente potenciada equivale al producto de la probabilidad de los símbolos elementales que integran el
conjunto y que definen al elemento compuesto..
SN
a1 a2
Una fuente de tensión SN (formada por símbolos elementales) emite una secuencia en los símbolos cuya
probabilidad de salida es el producto de las probabilidades de los símbolos elementales.
Los símbolos que emite son distintos de los símbolos originales? Sí. Desde qué punto de vista? Es una
combinación de los símbolos originales. N me está dando la extensión del nuevo símbolo que se va a
conformar como combinación de los símbolos primarios; N: fuente extendida al orden 2, al orden 3, al orden
4, si uno lee que la fuente se ha extendido al orden 2, 3 ó 4 ya puede asumir −a priori− que la capacidad
máxima de esa fuente va a estar representada por (si la base de constitución de la misma es binaria) por 4, 8 o
16 elementos. Hay un conjunto de base, que es el conjunto S, que para el caso del sistema binario va a estar
conformado por dos símbolos: S1 y S2.
Aparece un nuevo conjunto SN, donde N representa la extensión (la extensión significa cuántos elementos se
incorporan a la combinatoria, conformados por los elementos ai, donde ai elementos puede descomponerse en
los elementos S que los genera, esto significa que ai va a ser igual a (si S es de orden 2) S1S1 S1S2 S2S1
S2S2, es decir ai va a tener a1, que será S1S1, a2 que será S1S2, a3 que será S2S1 y a4 que será S2S2.
SN sería una variación de orden mayor al que tenía S, vos partís siempre de una fuente de orden 1, si no tenés
una fuente de orden 1 no podés armar absolutamente nada.
Estas son combinatorias donde no interesa el orden en que los elementos están dentro de la combinación,
entran todas las combinaciones posibles.
Cuando vos creás el símbolo de SN, de S2, para vos es un único símbolo. Ej: tecla de Return de la máquina,
para vos es un único símbolo, pero si vos lo leés por adentro es 0b 0a. Acá es lo mismo, cuando yo te digo S2,
y te muestro S2 como un único elemento simbólico, vos sabés que como único elemento simbólico tiene que
tener por detrás, para poderse conformar, elementos que lo constituyan; o sea que si hay un S2,
necesariamente tiene que haber un S1, si no me planteás un S1 está mal planteado.
La probabilidad que tiene alguno de los ai es el producto de las probabilidades de los símbolos elementales
que lo componen.
CALCULO DE ENTROPIA DE UNA FUENTE EXTENDIDA
Dado una fuente S cuya entropía es H(S) para una fuente extendida S de orden n, tendremos una entropía
H(S)n y donde H(S)n equivaldrá a n veces la entropía de la fuente original S.
Acá nos preguntamos: cómo va a ser la entropía de una fuente extendida al orden n respecto de una fuente
original S?. Decimos que esa entropía va a ser n veces la entropía de la fuente original.
H(S)n = n . H(S)
24
Partamos de la premisa que el SN esta conformado por elementos denominados ai
Sn = {ai}
La entropía H(S)N se expresa como la sumatoria desde i = 1 hasta los q elementos (o sea, la cantidad total de
elementos del conjunto) como la probabilidad del elemento del conjunto SN, que sería ai, por el logaritmo de
la inversa de la probabilidad de ese elemento.
q1
H(S)n = " P(ai) . lg −−−−−−−−−
i=1 P(ai)
Qué es lo que nosotros sabemos? Nosotros sabemos que ai elementos es resultante o combinatoria de los Si
elementos del conjunto original S, y sabemos también que la cantidad de elementos se extiende hasta Sq
elementos en ese conjunto; por otra parte, también sabemos que la cantidad de elementos S que forma ai, está
referenciado al número n que representa la orden o extensión; por lo tanto:
q1
" P(ai) . lg −−−−−−−−−−−−−−−−−−−−−
i=1 (P(S1, S2.Sq))
q[111]
" P(ai) . lg [ −−−−−−−−− + −−−−−−−−− + . + −−−−−−−−−− ]
i=1 [ P(S1) P(S2) P(Sq) ]
Ahora nos falta plantear la otra parte, es decir hacer el tratamiento del factor de ponderación P(ai) por el
mismo concepto que seguimos por el factor cantidad de información logaritmo.
q[111]
H(S)n = " P(S1, S2,, Sq) . lg [ −−−−−−−−−− + −−−−−−−−−−− +.+ −−−−−−−−−−− ]
i=1 [ P(S1) P(S2) P(Sq) ]
Ahora se aplica la propiedad distributiva.
Saco las entropías de cada elemento: ahí es donde voy a generar el n; cuántas veces lo voy a hacer? Tantas
veces como P(Sq) tenga identificados; si tengo 2:
q11
H(S)n = " P(S1) . lg −−−−−−−−−− + P(S2) . lg −−−−−−−−−
i=1 P(S1) P(S2)
Cada componente es un H(S). Cada componente del término suma es un H(S), que va a aparecer tantas veces
25
el término suma como orden de extensión.
H(S)n = n . H(S)
La entropía crece en forma proporcional a la extensión de la fuente. La cantidad media de información que el
sistema puede aportar crece en forma proporcional al orden de extensión.
Si la entropía de un conjunto de símbolos elementales para un sistema binario, la entropía de ese mismo
conjunto primario (binario) extendido al orden 2 será de 2, si se extiende al orden 3 será de 3. La base de la
entropía es 1.
FUENTES DE MARKOV O DE MEMORIA NO NULA
Dado una fuente S representada por el conjunto de elementos S1, S2 y hasta Sq elementos, digamos que, es
una fuente de Markov de orden n, si la emisión de cada símbolo de la fuente está condicionada por la
aparición de n símbolos precedentes al símbolo en cuestión; en consecuencia, la probabilidad de emisión de
esta fuente a nivel de cada símbolo que la integra se halla definida como una probabilidad condicionada, por
lo tanto, deberá leerse como la probabilidad de emisión de un símbolo, dado que n símbolos precedentes
fueron emitidos.
La probabilidad de emisión de un símbolo depende de todos los símbolos que salieron antes. Cómo lo
concebís? Suponete que estamos hablando de una fuente de memoria de dos posiciones (estamos trabajando
con una fuente de orden 2, con 2 bits de memoria, esos 2 bits tienen asignados símbolos): la fuente tiene
capacidad de emitir de a un elemento de los símbolos originales, cada vez que emite no puede emitir dos 1
simultáneamente. Por ejemplo: estaba en 00, de repente emite un 1 (también puede generar un 0) y lo guarda
(tiene capacidad de generar), y ahora si yo miro digo: ahora está en 01.
A una observación a largo plazo de esa fuente la probabilidad es 1, porque seguro que en algún momento lo
voy a ver, salvo que se trate de una fuente no ergódica (por ejemplo que entre en el 00 y que no pueda salir
nunca más del 00); ahora, si fuese ergódica, que entre en 00 no significa que lo próximo que pueda emitir sea
un 1. Entonces, cómo conozco yo el orden de la fuente? Viendo los n símbolos precedentes; estaba en 00,
emite un elemento, emite otro elemento, entonces digo que es una fuente de orden 2.
Qué diferencia hay entre esto y lo que hablamos antes? Lo que nosotros hablamos antes no se almacenaba en
ningún lado, ahora sí se almacena; el hecho de que esté almacenado puede condicionar la emisión de lo que
venga. Si vos fueses una persona que no tiene memoria, cualquier cosa que diga va a ser una gansada, en la
medida en que empezás a evolucionar en tu aprendizaje parte de lo que vos aprendés lo guardás en tu
memoria; si vos dijiste una vez: mamá, seguro que la próxima vez vas a decir: mamá; en algún momento vas a
cambiar, pero lo más seguro es que sigas diciendo mamá hasta que generes un cambio. Por eso cuando una
fuente que tiene memoria está en un estado, lo más probable es que siga repitiendo el estado hasta que
incorpore una cosa nueva, pero va a estar en el orden de lo que tenía antes incorporado. Si vos dijiste: mamá,
la próxima palabra que decís seguro no va a ser motoniveladora. Todavía no sabés el abecedario, por lo tanto
el tema de combinar cosas para generar palabras tampoco lo sabés. Suponete una cosa: lo primero que vos
aprendés es una poesía (con n cantidad de palabras, con palabras de longitud 4, 5, 6), para vos los símbolos
son cada una de las palabras que integra la poesía, por lo tanto, para vos esa vendría a ser tu orden de fuente;
para vos que no tenés capacidad de combinar, tu orden de fuente sería S, o sea 4, 5, 6.
Si la fuente tiene capacidad de emitir 2 elementos (0 ó 1), la pregunta es: dado que ahora está en 00, cuál es la
probabilidad de que el próximo elemento sea 01? Pero para eso vos tenés que considerar que la fuente emite
un 0 ó un 1, esa probabilidad va a estar condicionada, por eso son probabilidades condicionadas;
evidentemente, si está en 00 la probabilidad de que pase a 11 es igual a 0, que sea 10 también; la única
alternativa es que pase a 01; ahora, cuando está en 01, cuáles son las alternativas?
26
Vos guardás el elemento más antiguo siempre, y del 00 el elemento más antiguo es el 0 de la izquierda (ese lo
guardás), cambiás el de la derecha. Ahora, cuando estás en 01 la cosa cambia; para dónde se puede ir? A 10 ó
11. Eso es lo que después termina conformando lo que se llama un diagrama de estados, y el diagrama de
estados representa todos los estados posibles en que la fuente se puede encontrar, que es el principio de
autómatas, donde cada estado posible es una tarea elemental que el autómata realiza.
Vos tenés 00, emite 0, el de la izquierda se supone que tiene más antigüedad que el de la derecha, en algún
momento, cuando se emite algo, si cambia, vos reemplazás el más viejo por el más nuevo que aparece.
Cuando vos te fuiste a 01, el más antiguo pasa a ser el 0 que te quedaba, el próximo elemento que venga, se te
acopla a la derecha y el que estaba a la derecha pasa a la posición de la izquierda.
ORDEN DE UNA FUENTE
Se dice que una fuente es de orden n cuando dicho orden es fijado por los n símbolos precedentes emitidos.
ESTADO DE UNA FUENTE
Un tren de n símbolos precedentes se designa en esta fuente como estado.
CAMBIO DE ESTADO
Al emitirse un símbolo constante el mismo pasa a integrar el tren de dependencia y el más antiguo del tren es
eliminado a efectos de considerar el nuevo estado.
CANTIDAD DE ESTADOS
Si el orden de la fuente es n, la cantidad de estados posibles de formar es qn, donde q representa la cantidad de
elementos que integran la fuente original S.
PROBABILIDAD DE APARICION DE UNA SECUENCIA CARACTERISTICA
Teniendo en cuenta un determinado estado, dicho estado aparece con seguridad, es decir que su presencia
(luego de un funcionamiento extenso) es igual a 1. Las fuentes de Markov pueden ser de 2 tipos: ergódicas y
no ergódicas. Una fuente es no ergódica cuando existe un estado absorbente del cual no puede salir y es
ergódica en caso contrario.
DISTRIBUCION ESTACIONARIA DE ESTADOS
Es la distribución de probabilidad de aparición de los estados luego de un prolongado funcionamiento de la
fuente, y donde la distribución estacionaria de dichos estados se halla representada por 2 elementos: 1) un
vector de probabilidades w, que representa todos los estados posibles y sus probabilidades asociadas a través
de una ley determinada a priori, y 2) una matriz de estados p que, contiene valores probabilísticos de cambios
de estado para todas las situaciones posibles.
W (P00, P01, P10, P11)
00 01 10 11 lo que puede pasar
00 4/5 1/5 0 0
01 0 0 ½ ½
27
10 ½ ½ 0 0
11 0 0 1/5 4/5
estado
actual
En el estado actual 00 puedo ir al 00 y al 01.
En el estado actual 01 puedo ir al 10 y al 11.
En el estado actual 10 puedo ir al 00 y al 01.
En el estado actual 11 puedo ir al 10 y al 11.
Lo que está ahí en 00 es el estado actual, lo otro es lo que puede pasar; si está en 00, existe una alta
probabilidad de que siga en 00, por eso le asigné 4/5 de probabilidad (80%); por qué? Porque puede ser que la
fuente siga emitiendo 0. Está en 00 y puede pasar al 01, puede emitir la fuente un 1, reemplazo al 0 más
antiguo y me quedo con el 01, lo demás no puede ser porque tendría que alterar las dos cosas (0 y 0).
Cuando una fuente tiene memoria lo más probable es que repitan.
El vector de probabilidades por valores probabilísticos que han sido determinados a través de una ley, surge
de lo que es la observación: el 40% de las veces me encontré que estaba en 00, el 20% en 01, el 20% en 10 y
el 20% en 11, y ahí también se ve el concepto sumatoria de probabilidades es igual a 1.
Suponete que yo estoy mirando en algún momento un cambio de estado, asumo que 10 y 01 son estados
transitorios, y que la fuente funciona en 00 y 11.
00 08
03 02
05
10 01
05
03
02
11
22/4/97
CODIGOS
Sea dos conjuntos que reciben el nombre de alfabetos, y a los cuales denominaremos en primer término
alfabeto fuente, al cual identificaremos con S y donde dicho conjunto alfabeto se encuentra integrado por los
28
elementos S1, S2 y hasta Sq elementos, y donde integramos a la definición un segundo conjunto (alfabeto) el
cual se halla representado por X y que se encuentra formado por los elementos X1, X2 y hasta Xi elementos,
el cual denominaremos alfabeto objeto. A partir de la existencia de estos dos alfabetos se define código como
la relación que existe entre los elementos que pertenecen a los dos conjuntos y donde dicha relación es posible
entre las distintas secuencias de los mismos.
CLASIFICACION DE CODIGOS
Los códigos se clasifican en función de su estructura de la siguiente forma:
CODIGO BLOQUE
Un código es bloque cuando a cada secuencia del alfabeto fuente le corresponde una secuencia fija del
alfabeto objeto y donde la asignación de dicha secuencia es permanente, es decir, se genera una relación
vinculante entre el símbolo del fuente y el código que lo representa.
S{S1, S2, S3, S4} C{0, 1}
S1 0
S2 11
S3 01
S4 11
11 −
01 −
0−
S1 S2 S3 S4 D
CODIGO BLOQUE NO SINGULAR
Un código bloque será no singular cuando a cada símbolo del alfabeto fuente se le asigna una secuencia
permanente del alfabeto objeto o alfabeto código y donde las secuencias generadas a partir del objeto deben
de ser distintas entre sí.
S1 0
S2 11
S3 01
S4 10
CODIGO UNIVOCAMENTE DECODIFICABLE
El Código unívocamente decodificable es un código bloque y donde la extensión de dicho código al orden m
es no singular para todo m finito.
29
S1 00
S2 11
S3 01
S4 10
S5 100
CODIGO INSTANTANEO
Es la misma definición anterior con la salvedad de que no existe incertidumbre, y el reconocimiento de la
información se produce en forma inmediata a la aparición del código.
S1 000
S2 011
S3 001
S4 010
S5 100
Ej: semáforo
íconos
notas musicales
CODIGOS COMA
Un código coma es aquel que comienza o termina con un determinado símbolo característico. Los códigos
coma pueden ser de dos tipos:
código coma a derecha: es aquel que termina con un símbolo característico y donde todas las palabras son de
distinta longitud, siendo éste unívocamente decodificable.
0 S0
10 S1
110 S2
1110 S3
11110 S4
S1 S2 S3
10 110 1110
30
código coma izquierda: es aquel que comienza con un símbolo característico y donde todas las palabras son de
distinta longitud, siendo éste unívocamente decodificable e instantáneo.
1
10
100
1000
10000
CODIGO DE PREFIJO
Sea X1j, X2j y hasta Xjj palabras construidas por j símbolos, se denomina prefijo de esta palabra a la
secuencia de símbolos representada por X1k, X2k y hasta Xkk, donde k será menor o a lo sumo igual que j.
Ej: patentes
ASCII
EBCDIC
Existen dos tipos de códigos que son de aplicación a la codificación de control.
Tiene por objeto garantizar la integridad de las estructuras de datos codificados.
Los códigos de control se clasifican:
CODIGOS DE AUTODETECCION
CODIGOS DE AUTOCORRECCION
Cumplen como objetivo la detección de errores impares dentro de una secuencia de información dada,
detectando únicamente el suceso de error. Estos códigos se conocen con el nombre de códigos de control de
paridad, donde para calcular la misma se realiza una suma binaria sin acarreo sobre la secuencia de
información de dato en el momento de generación del mismo, recalculándose dicha secuencia en el momento
en el que el dato es recibido. Se dice que controla en forma impar porque en situaciones d eerrores pares la
estrategia de detección queda invalidada.
Los códigos autocorrectores −a diferencia de los primeros− tienen la posibilidad de determinar el error a partir
de detectar geográficamente el lugar donde el mismo se produce.
La estructuración de dicho código depende de la longitud de palabra de información que se donde convalidar
aplicándose técnicas algebraicas para la idnetificación del error. Los códigos autocorrectores se conocen
también con el nombre de códigos de HAMMING. La longitud de palabra código se establece a partir de la
resolución de una inecuación de la siguiente forma:
2p " p + i +1
donde p representa la cantidad de unidades de paridad que deben de intercalarse en el mensaje de información,
31
e i representa la cantidad de unidades de información propiamente dichas. A efectos de lograr la ubicación del
error dentro del mensaje, se analiza el mismo como si fuese un vector de n posiciones. A su vez, se debe tratar
al código de control como otro vector dado, insertándose el conjunto de ambos dentro de un espacio n
dimensional conformándose el mismo a partir de la emisión de los componentes de ambos vectores,
representándose desde el punto de vista matemático como la resolución de un sistema de m ecuaciones
lineales, donde m equivale al número de componentes del vector de control.
p7 p6 p5 p4 p3 p2 p1
101p0pp
p7 + p5 + p3 + p1 = 0 1 + 1 + 0 + p1 = 0
p7 + p6 + p3 + p2 = 0 1 + 0 + 0 + p2 = 1
p7 + p6 + p5 + p4 = 0 1 + 0 + 1 + p4 = 0
Se produce un error durante la transmición:
p7 + p5 + p3 + p1 = 0 1 + 0 + 0 + p1 = 1
p7 + p6 + p3 + p2 = 0 1 + 0 + 0 + p2 = 0
p7 + p6 + p5 + p4 = 0 1 + 0 + 0 + p4 = 1
13/5/97
1º REGLA: INECUACION DE KRAFT: representa un esquema que permite determinar que las longitudes de
los códigos objeto que se generan constituyan esquemas, a partir de los cuales pueden generarse códigos
unívocamente decodificables e instantáneos a la vez. La inecuación de Kraft no condiciona el significado o
contenido de las palabras, sino la longitud de cada palabra desde el punto de vista de su estructura.
N
1) K = " r −li " 1
i=1
La sumatoria de la inversa de las longitudes de cada palabra código en función de su base será menor o igual a
1.
r: base del código
li: longitud de cada palabra en particular
N: totalidad de palabras que forman parte del conjunto solución al conjunto fuente codificado.
LONGITUD MEDIA DE PALABRA CODIGO: constituye el promedio ponderado en función de la
probabilidad de cada palabra, en particular respecto de lo que será la longitud media de palabra para el
conjunto de códigos generado.
N
32
2) L = " P(Si) . li
i=1
La entropía de la fuente es menor o igual que la longitud media de una palabra código.
H(S) " L
p
r −li
q = −−−−−−−−−
" r −li
000
001
010
011
100
101
110
111
q = 1/8 / 1
q1
1) H(S) = " P(Si) . log −−−−−−−− no son equiprobables
i=1 P(Si)
q
2) H(S´) = " P(Si) . log 1/q son equiprobables
i=1
H(S) " H(S´)
" r −li
" " P(Si) . log −−−−−−−
33
r −li
" " P(Si) . [log " r −li − log r −li]
" " P(Si) . log " r −li − " P(Si) . log r −li
" r −li = 1
H(S) " L
S1 1 (0.4)
S2 0 0 (0.3)
S3 0 1 1 (0.1)
S4 0 1 0 0 (0.1)
S5 0 1 0 1 0 (0.06)
S6 0 1 0 1 1 (0.04)
La palabra es la misma, por lo tanto puedo sumar sus valores probabilísticos.
S1 1 (0.4)
S2 0 0 (0.3)
S3 0 1 1 (0.1)
S4 0 1 0 0 (0.1)
S5 0 1 0 1 (0.1)
S1 1 (0.4)
S2 0 0 (0.3)
S3 0 1 1 (0.1)
S4 0 1 0 (0.2)
S1 1 (0.4)
S2 0 0 (0.3)
S3 0 1 (0.3)
S1 1 (0.4)
S2 0 (0.6)
34
METODO DE COMPACTACION DE HUFFMAN
N: cantidad de símbolos
R: base de codificación
": cantidad de reducciones
N−R
" = −−−−−−−
R−1
6−2/2−1 = 4
1º TEOREMA DE SHANNON O CODIFICACION SIN RUIDO: el nº medio de símbolos r−arios
correspondiente a la codificación de un símbolo de la fuente, puede hacerse tan chico como se desee, pero
nunca inferior a la entropía de esa fuente expresada en unidades r−arias.
N
1) K = " r −li " 1
i=1
1
2) log −−−−−−− = li no hay redundancia
P(Si)
1
log −−−−−− " li hay redundancia
P(Si)
1
4) " P(Si) . log −−−−−−− " " P(Si) . li
P(Si)
11
log −−−−−−− " li " log −−−−−−− + 1
P(Si) P(Si)
11
35
" P(Si) . log −−−−−−− " P(Si) . li " " P(Si) . log −−−−−−− + 1
P(Si) P(Si)
10/6/97
CANALES
El concepto de canales no lo tomen como una vinculacion con el concepto de canal fisico.
De alguna manera entre ustedes y mi persona existe un canal; aunque ustedes el canal desde el punto de vista
físico no lo ven, existe algún elemento que permite que yo les transfiera información y ustedes la tomen; esa
toma de información que ustedes hacen les puede servir (les puede aportar) en función de lo que ustedes
conozcan respecto del tema del cual yo estoy hablando; cuanto más claro sea yo en la forma en que transmita
la información, o cuanto más yo me acomode en función de lo que ustedes manejan como herramienta de base
para entender mis conocimientos, mi objetivo, que es que la información que yo transmita ustedes la puedan
reconocer se va a ir logrando más perfeccionadamente; es decir que dentro de lo que es el concepto de canales
existe un análisis que trata de hacer entender cómo transmisores y receptores se entienden 1) si el medio para
la aconteción de la información es propicio 2) si los elementos que juegan en el proceso o intercambio de
información están en niveles similares de entendimiento.
Si esta clase la diera yo en la cancha de River muchas de las palabras que yo digo no las hubiesen entendido
y se hubiesen mezclado con otras palabras que salían de las tribunas: ahí existe un concepto de canal no
propicio; ahora, estamos dando esta clase en un lugar donde el ámbito es bastante propicio, no hay voces que
se entremezclan con la mía, la mía sobresale por encima de las voces que están afuera, entonces ya el
concepto de la comunicación efectiva no depende tanto del medio, sino de la capacidad o ganas de entender
que ustedes pongan respecto de lo que yo diga, y por otro lado depende de mi parte que trate de llegar a
ustedes con el mensaje lo más claro posible. Este concepto de canales que vamos a ver ahora trata todos estos
aspectos.
El tema que estamos tratando de ver acá no tiene nada que ver con el conepto de coaxiles, fibras ópticas,
elementos de radio−transmición, satélites, no es el concepto de la ingeniería de las comunicaciones, pero de
alguna manera hay algo que después va a condicionar la ingeniería de las comunicaciones en función de lo
que yo defina ahora, porque si el propósito de una comunicación es que los elementos que intervienen en el
intercambio logren entenderse pues tendré que tener en cuenta definiciones que yo voy a dar ahora para que el
medio sea más propicio para que el objetivo ese se logre.
Definimos al canal como el nexo que vincula un elemento emisor con un elemento receptor.
Existen 2 tipos de canales:
• canales denominados físicos
• canales de tipo lógicos
El canal físico es el que se ocupa exclusivamente del tratamiento eléctrico y vinculación de señales. Se
preocupa, por ende, de asegurar que una señal que se implemente pueda alcanzar su lugar de destino a través
del medio conductor.
El canal lógico atiende cuestiones externas respecto del tratamiento físico, abocándose exclusivamente al
análisis y tratamiento de situaciones vinculadas genéricamente con la información.
36
En cualquier canal de todas formas surgen 2 variables que deben de tenerse en cuenta a los efectos de calificar
al canal. Estas variables son: velocidad y confiabilidad.
Existe una tercer variable que tiene que ver con la maximización en el aprovechamiento del canal físico y esta
es la estrategia de codificación donde implícitamente se definen 2 esquemas: el de codificación de dato y el de
codificación de información de control (redundancia respecto del mensaje de información).
Un canal, desde el punto de vista de la teoría de la información, se esquematiza como una matriz n
bidimensinal y donde desde el punto de vista lógico no solamente el canal queda definido por dicha matriz
sino por los alfabetos o códigos que a la misma se encuentre asociados.
Esto es, el concepto de canal queda definido por la matriz y los alfabetos respectivos.
b1 b2 Alfabeto de salida o alfabeto receptor
Alfabeto de a1 P(b1/a1) P(b2/a2)
entrada o
alfabeto a2 P(b1/a2) P(b2/a2)
emisor
Los componentes internos de las matrices son valores probabilísticos.
El valor numérico de probabilidad es un valor numérico de probabilidad dependiente. Este componente yo lo
entiendo o lo leo como la probabilidad de que se reciba un elemento b1 dado que se emitió un elemento a1;
como de probabilidades se trata, yo tengo que contemplar todas las alternativas posibles; entonces, me paro
acá y digo: cuál será la probabilidad de recibir un b1 dado que se emitió un a2, a su vez, si me paro acá cuál
será la probabilidad de recibir un b2 dado que se emitió un a1; evidentemente estas probabilidades deberían
ser complementarias para cerrar el universo probabilístico. De alguna manera, estos valores probabilísticos
están representando lo que yo podría llamar la confiabilidad; leer en la diagonal principal lo que debe de ser y
la diagonal secundaria lo que no debe de ser.
Estamos trabajando con alfabetos extendidos al orden 1.
Lo que debería de ser es esto si el canal fuese 100% confiable.
01
010
101
Ahora, si el canal empieza a perder algún grado de confiabilidad esto lo podría ver así:
01
0 0.8 0.2
101
37
Este es el primer análisis: la confiabilidad. Yo les hablé de tres variables: velocidad, confiabilidad y estrategia
de codificación. Yo les puedo garantizar que las tres variables tienen un altísimo grado de correlación entre sí.
Yo tengo forma de cambiar valores de variables para ganar en confiabilidad.
Lo que se hace es la práctica es disminuir la velocidad de transmición para aventar o perfeccionar los valores
estadísticos de lo que se llama la matriz de paso de canal.
01
0 0.8 0.2 Matriz de paso de canal
1 0.2 0.8
Una de las primeras cosas que busco es: la transmición es posible o no es posible? Primero analizo eso.
Desde el punto de vista lógico viene dado por los niveles de contención; desde el punto de vista físico está
definiendo un medio para tratar de garantizar la transmición que va a efectivizarse.
En esta primera instancia nos preocupamos por ver la situación de canal (pruebas de códigos sobre el canal me
dan tasas) y la tasa que tengo yo acá presentada me está de alguna manera diciendo cuán efectivo es el canal
físico en permitirme la transferencia de información. El análisis se termina ahí. Si yo extiendo el canal al
orden 2 empiezo a definir valores probabilísticos que resultan de una combinación:
00 01 10 11
_
00 p2 p−p −pp p2
01 p2
10 p2
11 p2
Puede darse la situación que alguna estructura de códigos de este tipo, es decir que el canal me responda bien
para un elemento y no me responda bien para otro elemento.
Estos canales se denominan canales simétricos, pero no no siempre se va a dar este fenómeno.
Que trabaje en condiciones ideales de canal no significa que el canal no presente errores; que trabaje en
condiciones ideales de canal significa igualar las puntas: estos son canales cuadrados, iguales puntas.
Ustedes estudian teleinformática? Hay una norma ISO que define los niveles de comunicación: son 7: nivel
físico, niveles de enlace, niveles de ruteo, niveles de transporte, niveles de sesión.
Cada una de las capas trata distintas implicancias; yo estoy yendo de lo más llano hacia lo más elevado.
El nivel físico puede comprender el tipo que escribe una carta.
Los nivel hacia arriba, hasta el nivel 4 podrían representar el medio de correo a través del cual llega esa carta
al destinatario; ahora cuando esa carta llega a destino se empiezan a analizar otras situaciones: el tipo que está
38
en el destino, entiende lo que escribí? No lo entiende? De alguna manera esos niveles debería de garantizar
algún tipo de información para que ese entendimiento pueda concretarse; uno de los temas más complicados
que existe en informática es la comunicación de datos, porque hay que contemplar muchísimas circunstancias
para que una comunicación de datos pueda considerarse válida, no un problema de que los medios sean
buenos, sino por ejemplo, cómo presentar la información al destino?, cómo es el régimen de intercambio de
información entre origen y destino?, con qué secuencias te manejás?, podés trabajar con información fuera de
secuencia?, qué tipo de información voy a intercambiar a través del medio entre las puntas?, con qué niveles
de usuario te vas a encontrar?
Cuando el canal es binario, cuadrado, simétrico y no presenta errores voy a obtener una matriz identidad, y
esa matriz identidad representa un canal sin error desde el punto de vista exclusivamente del canal.
Los elementos de código aquí presentes también tendrán un valor de probabilidad anunciados, que tendrá que
ver con el grado de uso de código a través de ese canal; la secuencia de uso del código dentro de ese canal,
habrá códigos que utilice con mayor frecuencia y códigos que utilice con menor frecuencia.
Cuando yo estoy mirando esta punta, puede darse el caso de que la punta maneje todos los códigos que
maneja o que está capacitado para manejar en forma indistinta. En forma indistinta puedo manejar a1, a2, no
hay ninguna regla que me defina al tipo que emita con qué frecuencia tiene que emitir un código; pero lo que
está en esta punta va a estar asociado a lo que pase acá y a lo que pase acá; entonces estas son variables
independientes, pero estas variables son dependientes, entonces lo que estás viendo a través de la matriz es la
función entre variables independientes y variables dependientes, y la función qué es? El grado de vinculación
que tiene la variable. Cuando vos encontrás vinculación entre variables, decís que las variables que analizás
conforman una función
Dependiente
Inde 1 0
pen 0 1
dien
te
P(b1) = P(b1/a1) . P(a1) + P(b1/a2) . P(a2)
La probabilidad de b1 dado a1 multiplicado por su código correspondiente + la probabilidad de b1 dado a2
por su valor asociado. Lo que queda fijo es el valor de análisis y lo que varía es la variable independiente. Yo
puedo recibir este valor si se emite esto o si se emite esto, esa alternativa también puede estar dada. Aquí
estoy obteniendo el valor de esta variable en función de lo que definen estas variables, es decir que primero
hago mi análisis estadístico, pero mi análisis estadístico me sirve para conformar esto, lo que tengo acá es el
valor de reconocimiento del código de emisión. Si yo tomo los valores de referencia, suponete que tuviese
presente la matriz identidad, esto qué sería? 1, y esto qué sería? 0, entonces esta probabilidad, que es una
probabilidad totalmente dependiente es de valor 1; si no tuviese la probabilidad de emitir el otro elemento;
para que esto me de 1 evidentemente acá 1 tiene que ser 1
x 0.5 + 0.2 x ½ = 0.50
A pesar de que el canal tiene problemas un 50% de la veces voy a recibir b1.
Estas son matrices simétricas, sería la condición ideal de canal. Si es simétrico es cuadrado.
39
Recibo b1 por el lado del acierto y recibo b1 por el lado del error; el problema es que esos b1 que yo recibo
son consecuencias de a2 emitidos. Yo digo los números reales fueron del 40%, pero hay a2 que yo emití que
los vi como a1 en un 10%, pero a mi qué es lo que me puede interesar? La calidad o la cantidad en
comunicaciones? Cantidad y no calidad.
Acá ni siquiera estás analizando el alfabeto, estoy analizando un valor de probabilidad de un elemento del
alfabeto en función de la calidad del canal en el cual yo trabaje y de la frecuencia de emisión de elementos de
la otra punta; en realidad se trata del mismo alfabeto.
Conceptos
Matriz de paso, valores de probabilidad condicionados, canal, alfabetos de entradas o emisores, alfabetos de
salidas o receptores, lo que nos interesa es la estructura del alfabeto y las probabilidades asociadas, una, la de
emisión independiente; la de recepción dependiente de 2 factores de variable: frecuencia de emisión de código
en la transmición y estado o situación de canal. El primer análisis que se hace es sobre un canal, donde se
supone que las puntas se encuentran liberadas; que se encuentren liberadas significa que entiendan los mismos
códigos, eso hace que me encuentre desde el punto de vista de lo que es la representación matemática en
presencia de un canal cuadrado; si la base del código es la base binaria, será un cuadrado binario y será
simétrico; si el canal es un canal error da una matriz identidad donde la diagonal principal tengo todos los
aciertos y en la diagonal secundaria todos los errores.
La pregunta que me hago yo acá es una pregunta muy directa. La probabilidad de recibir un b1 dado que emití
un a1 (sé que emití un a1), significa que el análisis que lo estoy haciendo parándome de este lado. Qué pasa si
me paro del otro lado? Mi único valor de referencia es la confiabilidad del canal; entonces yo me puedo
preguntar: cuál es la probabilidad de que se haya emitido un a1 si yo recibí un b1, estoy viendo un b1. Esto es
lo que se llama una probabilidad hacia atrás, del receptor hacia el emisor.
La probabilidad de que se haya emitido un a1 dado que estoy viendo un b1 que es el valor que se corresponde.
Para obtener esa información yo tengo que referenciar lo que conozco; y lo que conozco qué es? Lo que la
estadística del canal me dice, la frecuencia de emisión y todo lo que puede pasar, me paro en lo que a mi me
es favorable y todo lo que es posible
P(b1/a1) . P(a1)
P(a1/b1) =
P(b1)
1. ½
= −−−−−−− = 1
½
Esto para mi termina de corroborar de que el canal es bueno, pero el canal lo tengo que leer desde dos lugares,
ahora lo estoy leyendo desde la recepción, siempre sigo suponiendo condiciones ideales.
Empezá a pensar cómo va a ser tu canal lógico. Vieron que les dije velocidad, confiabilidad y una tercer
variable, la estrategia de codificación? En realidad la estrategia de codificación es la que empieza a resolver el
canal lógico. Volvemos a lo que puede ser que estén viendo en teleinformática. En el nivel 1 o nivel físico
(velocidad, alcance de señal, alcance, capacidad) le está diciendo eso, el nivel físico. No te definió la
estrategia de codificación, todavía. Con estos valores muestrales la matriz de paso no varía, a medida que voy
40
extendiendo el canal la matriz de paso puede empezarme a demostrar que en la medida que, un mayor de
caudal de información se transfiere a nivel de un mismo canal físico, el nivel de equivocación puede ir en
aumento. Hablamos de una relación entre lo que es caudal y tipo de codificación que yo estoy aplicando, en
algún momento puedo decir que empiezo a saturar canal y el tipo que está en la otra punta no entiende nada de
lo que estoy mandando, porque estoy tratando de mandar más de lo que el canal puede transferir, o puede
darse la situación de que estoy tratando de mandar más de lo que el receptor puede tomar. Presentados los
actores vamos a analizar lo que es las entropías de canal.
Si vos cambiás la frecuencia de transmición a efectos de lo que es el análisis del canal, el resultado sigue
siendo invariante. Si yo cambio la frecuencia de emisión, el valor del hacia atrás sigue siendo invariante, si el
canal no presenta errores.
Cuando vos trabajás en comunicaciones, lo primero que vos hacés es chequear la bondad del circuito que vos
vas a trabajar. Para chequear es una prueba muy sencilla: se dispara un elemento,
Antes de empezar toda esta historia en un punto a punto, lo primero que yo chequeo es cómo funcionan las
puntas, lo disparo contra éste, lo muestreo y lo hago volver, si la cosa funciona entonces digo la interfase
digital está funcionando bien; ahora vengo, llego acá (todavía no estoy chequeando el dato)
convierto−vuelvo−reconvierto y analizo y digo: el convertidor está funcionando; ahora pego el salto, vengo
acá, puenteo y hago pegar la vuelta al patrón, analizo la señal, si no hay diferencias el enlace funcionó; vengo
acá, convierto, viene, me puentea, vuelve para atrás, la conversión a la otra punta funciona; si vos te ponés a
hacer comunicaciones y no hiciste esta prueba que te digo yo (se manejan desde modems) no vas ni a la
esquina, porque cuando empezás una secuencia de transmición si empiezan a aparecer errores no sabés porqué
se están produciendo, por lo menos chequeate que toda la parte física funcione, entonces si ven que la parte
física funciona que haya errores en la comunicación el problema tiene que ser la lógica, y la lógica por qué
viene dado? Por todos los niveles que están encima del nivel 1.
En una comunicación, para que de movida la cosa puede considerar que pueda llegar a funcionar a futuro
tengo que garantizar que el medio para esa comunicación es propicio, eso es lo primero que tengo que
garantizar, entonces tengo que hacer las pruebas desde todo punto de vista.
P(a1/b1) es convierte bien a otra punta.
DTE DLE DLE DTE
ENTROPIAS DE CANAL
Existen distintas mediciones que tienen que ver con estimaciones de cantidades de información que los
sistemas de comunicación aportan.
Estas estimaciones se encuentran representadas por valores de entropías y donde los mismos tendrán en
consideración las distintas situaciones que deberán evaluarse desde el punto de vista del sistema.
Entropía a priori o entropía de emisor: este concepto representa la cantidad media de información por cada
símbolo emitido (que el sistema aporta) bajo el supuesto que el mismo se encuentra desconectado del canal.
N1
H(A) = " P(ai) . log −−−−−−
i=1 P(ai)
41
Entropía del receptor: analiza la capacidad que el receptor tiene de representar la información que el emisor
aporta.
1
H(B) = P(b) . log −−−−−
P(b)
Entropía media a posteriori o equivocación de A respecto de B: este concepto analiza la perfección del canal
en estudio teniendo en cuenta las entropías del receptor de modo tal que, se buscará identificar valores de
ponderación que tienen que ver con la capacidad del receptor propiamente dicha. En síntesis: los resultados
arrojan si un canal se equivoca o no, o si acopla ruido.
En la búsqueda de la equivocación, y perfectamente identificado el receptor, se analiza si es compatible el
canal con el receptor; si esta compatibilidad estuviese asegurada, el resultado de esta entropía tendería a 0; si
el valor diese distinto de cero, significa que el canal aporta al receptor información no deseada.
H(A/b1) = P(a1/b1) . P(a1) + P(a2/b1) . P(a2)
H(A/b2) = P(a1/b2) . P(a1) + P(a2/b2) . P(a2)
H(A/B) = H(A/b1) . P(b1) + H(A/b2) . P(b2)
En la medida que este valor vaya tendiendo a 0 yo digo: este canal se equivoca poco.
Empiezo a testear la relación que existe entre código−canal, la lógica y la física.
AMBIGEDAD: es la cantidad media de información que requiere el receptor para saber desde dónde se ha
transmitido información y cuál fue el símbolo transmitido.
El receptor, para poder cumplir con su función, necesita recibir una determinada cantidad de información, de
modo tal que pueda entender, en base a la capacidad que maneja, la información que recibe y que deberá de
representar; si la información estuviese por debajo de ese nivel, el sistema podría generar incertidumbre,
donde si el valor de incertidumbre crece significativamente, por consecuencia genera un incremento en el
valor de ambigüedad.
11
H(B/a1) = P(b1/a1) . log −−−−−−−−−−− + P(b2/a1) . log −−−−−−−−−−−
P(b1/a1) P(b1/a1)
11
H(B/a2) = P(b1/a2) . log −−−−−−−−−−− + P(b2/a2) . log −−−−−−−−−−−
P(b1/a2) P(b2/a2)
H(B/A) = H(B/a1) . P(a1) + H(B/a2) . P(a2)
17/6/97
42
INFORMACION MUTUA
La información mutua constituye la cantidad media de información que es transmisible desde A hacia B y se
expresa como la diferencia entre las entropías del emisor y la entropía media a posteriori o equivocación de A
respecto de B
I(A : B) = H(A) − H(A/B)
Propiedades
La información mutua de A hacia B a priori es igual que la información mutua de B hacia A
I(A : B) = I(B : A)
La información mutua podrá ser 0, o sea que va a implicar que la entropía del emisor podrá ser que la
equivocación que presentan los elementos que intervengan en la comunicación.
I(A : B) 0 H(A) H(A / B)
Si se extienden los alfabetos de entrada y salida al orden n, eso implica que la información mutua quedará
extendida en el mismo orden.
I(An : Bn) n [I(A : B)]
La información mutua podrá equivaler a la diferencia que existe entre la entropía del receptor y la
ambigüedad.
I(A : B) H(B) − H(B /A)
El concepto de información mutua implica que existe un emisor con una ddeterminada capacidad de poder
transmitir información. No necesariamente todo lo que se transmita va a poder ser comprendido por el
elemento receptor debido a: o el canal es defectuoso o el receptor no tiene capacidad suficiente para poder
interceptar todo lo que el transmisor envía.
Se deja sentado que se habla de comunicaciones lógicas entre emisor y receptor, por lo tanto se entiende que
todo lo que se transmita, por más que no conlleve al error, no significa que pueda ser comprendido por el
elemento receptor.
H(A) es lo que sé.
H(A / B) es la equivocación
H(B) es lo que puede ser
H(B /A) es la ambigüedad
ENTROPIA AFIN
Es la cantidad media de información que efectivamente existe a nivel del sistema, lo cual contempla la
entropía del emisor, la entropía del receptor y la información mutua.
Existiendo 2 sistemas, el A y el B, se efectúa un análisis abierto de ambos sistemas desde el punto de vista
43
potencial, lo que a los 2 sistemas los vincula es un canal, por lo tanto se hace un análisis parcial y a posteriori
un análisis final. Se habla de comunicaciones, no de transmiciones, dado que éste último es un concepto
físico, mientras que comunicar es un concepto lógico; por consiguiente, si se procura unir ambos universos, el
A y el B, se llega al concepto de comunicación efectiva, es decir, A con B intersectados, constituyen dicho
concepto, lo que efectivamente se intercambia el nivel lógico de la comunicación, o sea la entropía afín.
Como conclusión, puede decirse que del concepto de información mutua surge que se analiza lo que se
transmite menos las equivocaciones, se supone que las equivocaciones no existen, que la información mutua
efectivamente se transmite; por ende, efectivamente es lo que puede llegar a entenderse; la comunicación, en
conclusión, es lo que le da sentido a la transmición.
H(A, B) = H(A) + H(B) − I(A : B)
TIPOS DE CANALES
La tipología de los canales tiene que ver con la morfología de los mismos, clasificándose de esta manera los
canales de acuerdo a las características de la matriz de paso de la siguiente forma:
Canal sin ruido
Un canal sin ruido es aquel cuya matriz presenta un elemento y uno solo distinto en cada columna, esto
significa que este tipo de canal me garantiza, parado en el receptor, conocer de dónde viene la señal.
Propiedades
La información mutua es la entropía del transmisor
La equivocación es = 0 y la entropía afín es la entropía del receptor
½½000
0 0 2/5 3/5 0
00001
Canal determinante
Es aquel que posee un elemento distinto de 0 para cada fila
100
100
010
010
001
Me dicen que la información mutua está contenida por la entropía del receptor y que la ambigüedad = 0.
100
44
010
001
Combinación de los dos canales = Canal óptimo
24/6/97
CANALES EN SERIE
Un canal en serie es aquel que es resultante de la integración de diferentes tipos de canales y donde el alfabeto
de salida de un canal será alfabeto de entrada a otro canal.
P(b1) P(b2) P(b3) P(c1) P(c2) P(c3)
a1 P(b1/a1) P(b2/a1) P(b3/a1) b1 P(c1/b1) P(c2/b1) P(c3/b1)
a2 P(b1/a2) P(b2/a2) P(b3/a2) b2 P(c1/b2) P(c2/b2) P(c3/b2)
a3 P(b1/a3) P(b2/a3) P(b3/a3) b3 P(c1/b3) P(c2/b3) P(c3/b3)
Se supone que ahora estamos conectando canales, cada uno de los canales es la probabilidad de acierto u error
asociados a lo que es su matriz de paso. Lo que es alfabeto de salida de un canal va a ser alfabeto de entrada
del otro canal, la diferencia estriba en los canales en serie en que el único factor probabilístico independiente
es el factor probabilístico que está directamente asociado a los alfabetos de entrada primarios del canal que
constituye la serie, es el único factor de independencia que registramos, porque el resto de los factores
probabilísticos están condicionados a la situación de canal, que es su salida.
P(c1) = P(c1/b1) . P(b1) + P(c1/b2) . P(b2)
P(c1/b1) . P(a1)
P(a1/c1, b1) =
P(c1)
Tengo que tener en cuenta el factor de equivocación o acierto que puede contener el segundo canal que puede
estar inducido por el primero, es decir que en la medida en que yo vaya evolucionando en la conectividad de
canales factores como la equvocación, la ambigüedad o la entropía afín van a ir aumentando y/o
disminuyendo, respectivamente, respecto de lo que es lo que ocurre a nivel de esos conceptos en el primer
canal original.
H(A/C) " H(A/B)
La equivocación de este canal serie podrá ser " que la equivocación que ocurre en el primer canal.
I(A:C) " I(A:B)
Por el contrario, la información mutua será ".
Las diagonales secundarias de los canales representan en todos los casos los errores cometidos por el canal, es
decir, si yo tengo un canal simétrico de estas características, la información en este canal va a ser igual a
45
b1 b2
_
a1 P P
_ I(A:B) = (1 − H(P))
a1 P P
La entropía del error constituye la equivocación, en este caso es 1 porque estoy tomando un canal que es
binario y simétrico (recuerden que la entropía de un canal binario y simétrico es 1).
Ahora, si eso lo proyectase a un canal serie
b1 b2
__
a1 P P P P
_ _ I(A:C) = 1 − 2(H(P))
a1 P P P P
la resultante se estaría duplicando (teóricamente), es decir, si este componente fuese 0, la información mutua
seguiría siendo 1, pero desde el punto de vista teórico, existiría una duplicación.
Existen formas de mejorar la condición de error y una de las técnicas que se aplica para mejorar la condición
de error es la técnica de reducción de canal.
Definimos canal reducido a aquel canal en que se realiza una reducción en la matriz de paso, para efectuar
dicha reducción de elementos habiendo r símbolos de entrada y s de salida se puede obtener una matriz
reducida con r símbolos de entrada y s − 1 símbolos de salida, para lo cual se realizará la suma de los factores
probabilísticos que se encuentren contenidos en las columnas adyacentes, se denominará reducción suficiente
si se suman 2 columnas o más de una matriz y donde los elementos afectados son los que están asociados al
alfabeto de salida y donde además, si de un canal serie se tratase, la condición necesaria y suficiente para que
no exista pérdida de información será que las probabilidades hacia atrás o del receptor de los canales
serializados sean iguales entre sí.
00 01 10 11
00 0.8 0.1 0.1 0
01 0.1 0.8 0 0.1
10 0.1 0 0.8 0.1
11 0 0.1 0.1 0.8
Se acuerdan que una vez les comenté que cuando uno trabaja con símbolos en forma frecuente dentro de una
transmición lo que se busca habitualmente es que la codificación de esos símbolos sean lo más distinta posible
46
para tratar de hacer un reconocimento más efectivo, o sea lo que se llama el concepto de distancia. Cuando
uno toma conciencia de que un canal en el momento en que se serializa, o aun no estando serializado, empieza
a cometer errores, lo que uno empieza a buscar es cuál es la problemática que está generando ese error,
cuando uno tiene identificado perfectamente el origen del error (eso lo tiene a nivel de muestreo, que es lo que
da como resultado el factor de probabilidad asociado a la matriz de paso) lo que hace es suprime el símbolo de
salida que más problemas me está generando, pero para poder suprimirlo qué es lo que se hace? Si yo tengo 4
entradas y 4 salidas, es decir el canal es simétrico, lo que hago es dejar un canal de 4 entradas y 3 salidas,
donde problablemente donde voy a tener el mayor inconveniente es de los que son los símbolos adyacentes,
por eso yo digo que sumo la columna adyacente.
Fui pensando como iba armando la matriz. Hay un tema que se estudia en los autómatas: existen estados que
es muy improbable que se den (total y absolutamente improbables), que se den dos equivocaciones en
simultáneo es prácticamente imposible; vieron que en la diagonal secundaria me quedó en 0, sin embargo yo
veo que se cometen errores en el canal (yo veo que se cometen errores), de todas maneras, la diagonal
secundaria, que es la más representativa de todas, está en 0, esto significa que los errores que estoy
cometiendo en este canal no son errores graves, es decir, este canal lo puedo de alguna manera resolver.
Entonces lo que tendría que tratar de hacer es ver la forma de reducir el canal, y de qué manera tendría que
reducir yo el canal? Tratando de suprimir alguno de estos símbolos de salida que me podrían estar generando
problemas, para lo cual qué es lo que tengo que hacer? Sumar factores probabilísticos de matrices adyacentes.
Estoy haciendo una reducción de canal; entonces, de acuerdo a lo que yo considere más importante o válido
en función de lo que yo quiera minimizar a nivel del error, lo que hago es elegir alguna de estas columnas y
hacer la reducción del error; fijense que la suma horizontal siempre me tiene que dar la probabilidad 1, es
decir la condición de cierre; es decir, que voy a generar un canal de salida con un elemento menos en su salida
dependiendo del cual sea el caracter de salida que estoy suprimiendo.
Es un tema de criterios, por acá vos podrías esta columna con esta columna
00 10 11
00 0.9 0.1 0
01 0.9 0 0.1
10 0.1 0.8 0.1
11 0.1 0.1 0.8
Este canal simétrico lo llevé a un canal determinante, porque a mi lo que me interesa saber es cuál es el origen
de la comunicación, quién esta originando la comunicación, entonces llevé un canal cuadrado, simétrico a un
canal determinante.
A vos qué te interesa? Identificar lo que es lo más distinto de todo y de dónde viene, entonces fijate que acá
tengo el 00 y el 11 y este es un símbolo de cambio de canal, acá tengo una situación de transición en el canal,
entonces los símbolos válidos de información para mi dentro del canal son 00 y 11, y esta es una situación de
transición, por lo tanto qué es lo que hago? Estoy creando una situación de transición, y dejo lo que a mi me
interesa como lo que sí yo quiero reconocer, que es lo más distinto, lo que más aplico dentro del canal, y se
supone que lo que más aplico es lo que mayor distancia tiene entre sí.
Probablemente no sepan cómo trabaja un computador internamente cuando quiere ejecutar una instrucción
máquina. Para que essa instrucción máquina pueda ejecutarse dentro de la máquina, hay cuestiones de
habilitación de compuertas: lo que se llama señales de sincronismo que el computador maneja y lo que se
llama señales de nivel, que en definitiva constituyen lo que se llama las microórdenes, que son los elementos
47
internos mínimos que componen una microinstrucción de máquina; fijense que una microorden en definitiva
es un conjunto de señales que combina un efecto físico que yo deseo generar a nivel interno de la máquina,
pero esas microórdenes no se ejecutan todas al mismo tiempo, se van ejecutando en una secuencia
determinada; por ejemplo, si yo digo: la instrucción de suma de un computador: para que yo pueda ejecutar
esa instrucción suma (el código de operación suma) requiero saber cuáles son los operandos; evidentemente al
código de operación suma va a estar asociada la dirección (lo que se llama la palabra de instrucción y el
formato está dividido en 2 partes) y el operando que resuelve la instrucción suma en primera instancia, pero
en realidad yo no culminé la suma cuando traigo el primer operando, requeriría traer un segundo operando
para que la instrucción suma se complete, pero desde el punto de vista de lo que es la instrucción la cosa es
mucho más compleja todavía, porque yo tengo que guardar el primer operando que obtengo en un
acumulador, tengo que traer un segundo operando, lo tengo que hacer pasar por el circuito secuencial, u opero
sobre un registro único o estoy trabajando en una ALU que tiene toda una combinación de registros, y en
última instancia lo que tendría que hacer al final de todo es mover el resultado que me deja el acumulador
nuevamente a la memoria; ahora, en toda esta instancia que yo les estoy contando como cuentito, esa
información está pasando de un registro a otro registro de la máquina, pero para poder hacerlo lo hace a través
de un elemento que se llama bus; cuando yo dejo disponible la información en el bus, inmediatamente yo no
puedo efectuar una operación internamente en el programa, por qué? Porque todavía la información que está
en el bus no está estabilizada, tengo que darle tiempo a las señales a que se estabilicen dentro del bus, qué es
lo que está ocurriendo? Está ocurriendo una transición en el estado en el que el bus se encuentra, por qué?
Porque los buses siempre están en algún estado determinado, es decir, que yo habilite un contenido de un bus
hacia un registro no significa que la información desaparezca del bus, en algún momento dado va a ser
reemplazada por otra, pero esa información sigue viva aun cuando yo haya generado que se transfiriese el
contenido del bus hacia el registro; cuando vengo bajando del registro de palabra y me metí en el bus, ahí yo
lo que tengo que tratar de hacer es esperar un tiempo para que la información que saqué del registro palabra
hacia el bus se estabilice, o sea estoy pasando por una situación de transición, y el bus es un canal.
Lo que yo les estoy tratando de demostrar es que cuando estoy tomando una decisión de reducir errores sobre
el canal, lo primero que trato de eliminar es el factor de transición, es lo que a mi me interesa eliminar, por eso
sumé con el criterio que sumé. Por eso cuando armé la matriz de paso pensé cómo la armaba, , porque fijense
que en este canal, la probabilidad de error es mínima, para mi este es un canal casi sin ruido, por qué? Porque
donde yo puedo tener la peor situación de error tengo todo en cero, esta transición es imposible que se me de
vuelta y se me tendría que dar vuelta esto y esto al mismo tiempo para que tomase este formato, por eso puse
cero y cero, estoy marcando situaciones imposibles que se den con cero; me estoy parando en lo que yo
considero que es mi mejor conveniencia de lo que debería de pasar en una situación de transmición.
00 01 10 11
00 0.8 0.1 0.1 0
01 0.1 0 0.8 0.1
10 0.1 0.8 0 0.1
11 0 0.1 0.1 0.8
Existe un concepto que también es de aplicación: qué es una regla de decisión?
Para tomar decisiones, una de las primeras certezas que hay que tener es saber de dónde viene la informació, y
sabiendo de dónde viene la información yo el error lo puedo corregir, el problema es si yo desconozco de
dónde viene la información, entonces no puedo actuar sobre el elemento que me genera el error.
Cuando vos trabajás en comunicaciones y estás en una recepción, más importante que el error que se cometa
48
es saber identificar de dónde viene la información, por qué? Porque si yo sé de dóndo viene puedo actuar en el
origen sobre el error que se está cometiendo. Cuando en comunicaciones se hacen chequeos de redes, el
primer lugar donde se trabaja siempre es sobre el nodo origen, entonces yo teniendo la certeza de que el nodo
origen trabaja bien, recién ahí me voy a chequear el nodo destino, pero primero chequeo el nodo origen, por
qué? Por un tema de descarte, si yo sé que un nodo origen está trabajando bien y tengo problemas después en
una recepción (puede haber varios nodos que son orígenes de la información), inmediatamente reemplazo (si
yo estoy haciendo chequeo) el nodo origen que pueda generar problemas. Ahora, fijense si yo hiciera la
inversa, cuando estoy haciendo toda la rutina de control inicial me voy a chequear los destinos, y contra los
destinos (sabiendo que esos destinos funcionan bien) empiezo a trabajar en la comunicación, si yo llego a
tener un problema en la comunicación, cómo sé cuál es el origen que me la genera? No tengo idea, entonces
hay toda una metodología de control que se implementa siguiendo esta secuencia.
Vos no vas a chequear nunca el destino, pero si vos en el destino estás recibiendo información cambiada, lo
primero que tenés que saber es quién te lo origina, vos tenés que determinar (por eso se llaman canales
determinantes) el origen de la información.
Si vos trabajás en Internet, vos no sabés muchas veces a dónde estás accediendo, no tenés idea. Cuando vos
estás trabajando sobre una red pública, cuando vos recibís un llamado en tu casa, no sabés quién te llamó,
tenés que preguntar, no tenés una identificación de origen, por eso cuando vos trabajás en transmición de
datos, uno de los problemas que resuelve la transmición de datos es la identificación de los orígenes, en un
Header de un Frame de comunicaciones se contiene el origen , y se contiene un montón de información más
aparte del origen, por qué? Porque los elementos que intervienen dentro de la red tienen que tomar decisiones
en función del origen de ese Frame; cuanto la red más se complica, cuanto más está serializada, es decir vos
estás pasando por distintos elementos (nodos) que la red conforma para llegar a un destino final, en las
situaciones intermedias existen elementos inteligentes que toman decisiones en función del origen y destino
de esa comunicación.
Muy diferente es la cosa cuando trabajás en lo que se llama broadcast, sabés que el origen es común, ya tenés
claro quién es la fuente que transmite.
Si yo cambio todo de posición, cada vez que me manden un 00 voy a estar viendo un 10, pero yo sé que
efectivamente fue un 00 el que se mandó, porque ya conozco perfectamente bien cuál es el problema que el
canal me origina; es como el daltónico, cuando el tipo está viendo colorado, y el tipo sabe que padece esa
enfermedad, sabe que está viendo algo verde, es decir el canal está funcionando mal, pero él ya sabe cuál es el
problema que su canal tiene, entonces asume que todo lo que es colorado es verde, o sabe que es verde, por
qué? Porque ahí vos tenés 2 alternativas: o corregís el canal con el costo y el tiempo que eso puede conllevar,
o sabiendo cuál es el error que se está cometiendo dejás las cosas como están y hacés la traducción al destino.
Una señal es un fenómeno producido como consecuencia de la visualización de la alteración de un medio
elástico ocasionado por la presencia de un elemento.
Existen 2 tipos de señales:
señales reconocibles o señales deseadas
señales no reconocibles o no deseadas (ruido)
Las señales, cualquiera sea su tipo, poseen un determinado nivel de energía, pudiendo existir distintos tipos de
energís asociados a distintos tipos de señales, representando de todas formas una señal una situación de
transformación de la energía.
En comunicaciones se requieren señales que, de acuerdo a su capacidad, permitan incorporar señales de
49
menor nivel. Esta asociación de señales se conoce con el nombre de modulación y donde la sociación estará
dada a nivel de uno o más parámetros identificatorios de la señal, por lo tanto, la acción de modular será la de
provocar los cambios que la asociación me genera.
Indice de profundidad de la modulación: Vc / Vm y donde esa relación deberá ser < 1 a fin de no destruir la
información que la modulada genera.
50
Descargar