Marvin Feyt Leyva - DSpace@UCLV

Anuncio
Universidad Central “Marta Abreu” de Las Villas
Facultad de Ingeniería Eléctrica
Departamento de Telecomunicaciones y Electrónica
TRABAJO DE DIPLOMA
Teoría de la Información aplicada al desarrollo de
Descriptores Moleculares
Autor: Marvin Feyt Leyva
Tutor: Dr. Vitalio Alfonso Reguera
Santa Clara
2013
"Año 55 de la Revolución"
Universidad Central “Marta Abreu” de Las Villas
Facultad de Ingeniería Eléctrica
Departamento de Telecomunicaciones y Electrónica
TRABAJO DE DIPLOMA
Teoría de la Información aplicada al desarrollo de
Descriptores Moleculares
Autor: Marvin Feyt Leyva
[email protected]
Tutor: Dr. Vitalio Alfonso Reguera
[email protected]
Cotutores: Dr. Yovani Marrero Ponce
[email protected]
Lic. Stephen Jones Barigye
[email protected]
Santa Clara
2013
"Año 55 de la Revolución"
Hago constar que el presente trabajo de diploma fue realizado en la Universidad Central
“Marta Abreu” de Las Villas como parte de la culminación de estudios de la especialidad
de Ingeniería en Telecomunicaciones y Electrónica, autorizando a que el mismo sea
utilizado por la Institución, para los fines que estime conveniente, tanto de forma parcial
como total y que además no podrá ser presentado en eventos, ni publicados sin autorización
de la Universidad.
Firma del Autor
Los abajo firmantes certificamos que el presente trabajo ha sido realizado según acuerdo de
la dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un
trabajo de esta envergadura referido a la temática señalada.
Firma del Autor
Firma del Jefe de Departamento
donde se defiende el trabajo
Firma del Responsable de
Información Científico-Técnica
PENSAMIENTO
PENSAMIENTO
Somos lo que hacemos cada día.
De modo que la excelencia no es un acto, sino un hábito.
Aristóteles
i
DEDICATORIA
DEDICATORIA
A mi madre por regalarme mi vida y la suya.
A mi padre, porque a pesar de no tenerlo tan cerca siempre, ha sabido ser un
buen padre.
A mi hermano, porque no creo que haya otro mejor que él, gracias por tu
ejemplo.
A mi bella novia, porque nada paga su incondicional amor estos casi 7 años.
A mis tías Nora y María por ser 2 madres más, para mí y mi hermano.
A Katia y Geisy, gracias por formar parte también de mi familia.
A toda mi familia en general, a Edua, Ara, Christian, Cinthia y Chicho, gracias
por todo.
A todos mis profesores de cada enseñanza, gracias por ejercer su tan noble
labor.
A mis amigos y a todos mis compañeros de grupo.
ii
AGRADECIMIENTOS
AGRADECIMIENTOS
A mi Tutor Vitalio, gracias por su ayuda, su dedicación y su tiempo.
A mis cotutores Yovani y Stephen quienes realmente me impulsaron a realizar
esta investigación.
A mi tía María, Edua, Chicho y Ara, a los cuales les debo mucho.
A todo aquel que de una forma u otra haya aportado un grano de arena en este
empeño.
iii
TAREA TÉCNICA
TAREA TÉCNICA
1. Revisión bibliográfica general sobre la Teoría de la Información, estudio de los trabajos de
Shannon sobre el tema.
2. Revisión de las investigaciones previas relacionadas con el tema de los descriptores
moleculares usando índices basados en la Teoría de la Información.
3. Modelar matemáticamente las estructuras moleculares como fuentes de información y
proponer nuevos índices de información aplicables a determinadas estructuras moleculares.
4. Implementar un algoritmo en MATLAB para el cálculo de los nuevos índices de información
a una base de datos molecular dada.
5. Comprobar la calidad de los nuevos índices de información obtenidos según los parámetros
que deben cumplir los descriptores moleculares.
_______________________
Firma del Autor
______________________
Firma del Tutor
iv
RESUMEN
RESUMEN
La aplicación de la Teoría de la Información alcanza hoy casi todos los campos de investigación
de la ciencia y en especial la Química es una de las ramas científicas que no está exenta de esta
situación. Los índices de información basados en la aplicación de las ecuaciones de la Teoría de
la Información a un modelo molecular, son un caso especial de descriptores moleculares, los
cuales juegan un rol fundamental en el desarrollo de modelos para la ciencia química y
farmacéutica,
políticas
de
protección
medioambiental,
toxicología,
eco-toxicología,
investigaciones para la salud y control de la calidad, entre otros.
En este trabajo se realiza una revisión bibliográfica sobre los principales postulados de la teoría
de la información y se recogen además algunas aplicaciones de esta revolucionaria teoría. Se
realiza una modelación de las bases moleculares como fuentes de información y se propone una
nueva familia de índices de información que son implementados para su cálculo en un algoritmo
con la herramienta MATLAB , además se compara la información estructural química que logran
captar estos nuevos IFIs y los otros IFIs recogidos actualmente en la literatura. Por último se
comprueba la calidad de los índices propuestos por medio de distintos análisis estadísticos.
v
ÍNDICE
PENSAMIENTO ............................................................................................................................. i
DEDICATORIA ............................................................................................................................. ii
AGRADECIMIENTOS ................................................................................................................. iii
TAREA TÉCNICA ........................................................................................................................ iv
RESUMEN ..................................................................................................................................... v
INTRODUCCIÓN .......................................................................................................................... 1
Organización del informe ........................................................................................................... 3
CAPÍTULO 1.
1.1
MARCO TEÓRICO .......................................................................................... 5
TEORÍA DE LA INFORMACIÓN ................................................................................ 5
1.1.1
Teorema fundamental de la Teoría de la Información. ............................................. 6
1.1.2
Sistema de Transmisión de la Información. .............................................................. 6
1.1.3
Fuente Discreta de Información. ............................................................................... 7
1.1.4
Autoinformación. ...................................................................................................... 8
1.1.5
Entropía. .................................................................................................................. 10
1.1.6
Entropía de una Fuente Discreta sin Memoria. ....................................................... 10
1.1.7
Entropía de una Fuente Discreta con Memoria....................................................... 11
1.1.8
Transmisión de Información sobre un Canal Discreto no Ruidoso (Ideal). ........... 12
1.1.9
Transmisión de Información sobre un Canal Discreto Ruidoso. ............................ 12
1.1.10 Función métrica. Propiedades. ................................................................................ 16
1.1.11 Información Mutua promedio como métrica. ......................................................... 17
1.2
APLICACIONES DE LA TEORÍA DE LA INFORMACIÓN. .................................. 18
1.2.1
Lingüística matemática. .......................................................................................... 18
1.2.2
Física Estadística. .................................................................................................... 19
1.2.3
Minería de datos basada en teoría de la información .............................................. 20
1.2.4
Aplicaciones de la Teoría de la Información al campo de la Química. .................. 20
1.2.4.1
Índices de Información. ................................................................................... 21
1.2.4.1.1 Análisis de Componentes Principales (ACP). ............................................. 23
1.2.4.1.2 Análisis de Variabilidad (AV)..................................................................... 24
1.2.4.1.3 Modelación QSAR/QSPR. .......................................................................... 24
1.2.4.1.4 Regresión lineal múltiple con Algoritmo Genético (RLM-AG). ................ 26
1.2.4.1.5 Análisis de la Varianza (ANOVA).............................................................. 27
1.2.4.1.6 Validación Cruzada. .................................................................................... 29
1.2.4.1.7 Remuestreo (Bootstrapping). ...................................................................... 30
1.2.4.1.8 Revuelto (Y-Scrambling). ............................................................................ 31
CAPÍTULO 2.
2.1
MATERIALES Y MÉTODOS ........................................................................ 32
Modelado de una base de datos molecular como fuente de información. .................... 32
2.1.1
Distribución conjunta de probabilidades. ............................................................... 37
2.1.2
Definición de los nuevos IFIs. ................................................................................ 39
2.2
Implementación del algoritmo para el cálculo de los nuevos IFIs. ............................... 41
2.3
Análisis a posteriori de las propiedades de los IFIs obtenidos. .................................... 43
2.3.1
Estudio basado en el AV. ........................................................................................ 43
2.3.2
Estudio basado en el ACP. ...................................................................................... 43
2.3.3
Estudio basado en la Modelación QSPR usando RLM-AG. ................................. 44
CAPÍTULO 3.
RESULTADOS Y DISCUSIÓN ..................................................................... 46
3.1
Análisis de los resultados obtenidos según las fuentes de información analizadas. ..... 46
3.2
Análisis de Variabilidad (AV) de los nuevos IFIs. ....................................................... 47
3.3
Análisis del contenido de Información estructural captada por los nuevos IFIs.
Comparación con los índices del DRAGON. ........................................................................... 48
3.4
Modelación QSPR basada en los nuevos IFIs. Comparación con los modelos obtenidos
de los IFIs del DRAGON. ......................................................................................................... 50
CONCLUSIONES Y RECOMENDACIONES ........................................................................... 58
Conclusiones ............................................................................................................................. 58
Recomendaciones ..................................................................................................................... 59
REFERENCIAS BIBLIOGRÁFICAS.......................................................................................... 60
ANEXOS ...................................................................................................................................... 64
GLOSARIO .................................................................................................................................. 76
INTRODUCCIÓN
INTRODUCCIÓN
INTRODUCCIÓN
Los estudios de Claude Elwood Shannon y la publicación en 1948 de su trabajo clásico “A
Mathematical Theory of Communication”(Shannon, 1948) contribuyeron a lo que hoy se
denomina „‟Teoría de la Información „‟, la cual tiene un impacto de tal magnitud que aún
no es explotada del todo por la ciencia, desde aplicaciones cotidianas como la telefonía
móvil y la navegación por Internet hasta disciplinas como Lingüística, Bioquímica, Física
Estadística, Neurobiología y técnicas como la minería de datos, entre otras, llega el alcance
de esta teoría. Recientemente, la aplicación de la Teoría de Información a la Química ha
recibido creciente interés, una de las aplicaciones más importantes de los conceptos
brindados por Shannon en este campo son los Índices de información (IFIs), los cuales, son
una familia de descriptores moleculares (DMs). En las últimas décadas gran parte de la
investigación científica ha estado enfocada en los principios teóricos para capturar y
convertir la información codificada de la estructura molecular en números útiles y así
establecer relaciones cuantitativas entre estructuras y propiedades, actividades biológicas u
otras propiedades experimentales. Los descriptores moleculares (DMs) son una
representación matemática formal de una molécula, obtenidos de un algoritmo específico y
aplicado a una representación molecular definida o a un procedimiento experimental
específico(Puzyn et al., 2010): ’’El descriptor molecular es el resultado final de un
procedimiento lógico y matemático que transforma la información química codificada
dentro de una representación simbólica de una molécula en un numero útil o el resultado
de un experimento estandarizado’’.(Todeschini and Consonni, 2009) Los DMs juegan un
rol fundamental en el desarrollo de modelos para la ciencia química y farmacéutica, política
de protección medioambiental, toxicología, eco- toxicología, investigaciones para la salud y
control de la calidad. Los IFIs están clasificados como Índices Topológicos (ITs) de
1
INTRODUCCIÓN
Tercera Generación y resultan del análisis de la estructura estadística de modelos
moleculares empleando la medida del grado de incertidumbre en la selección aleatoria de
un suceso en el modelo. (Barigye, 2013)
A menudo sucede que gran cantidad de los índices topológicos calculados poseen alto
grado de degeneración. El concepto de degeneración de un descriptor molecular se aplica a
aquellos descriptores que posean el mismo valor numérico para estructuras diferentes. La
Teoría de la Información ofrece una alternativa para disminuir el grado de degeneración de
los descriptores topológicos. Los ITs recogidos hasta el momento en la literatura, son
definidos a partir de la representación de los grafos químicos usada en la Química GrafoTeórica, gracias a la Teoría de los Grafos se ha logrado una representación topológica de
las moléculas usando grafos moleculares, además, las representaciones matriciales
proporcionan una descripción numérica de estos grafos moleculares. A partir de la
representación matricial de la molécula es posible obtener una distribución de
probabilidades de los grafos moleculares presentes en la misma. En el caso de los IFIs, se
pueden definir como DMs calculados como el contenido de información de las moléculas,
basándose en el cálculo de clases de equivalencia a partir de los grafos moleculares, por lo
que la Fuente de Información en estas circunstancias la constituye la propia estructura
molecular.
A partir de lo mencionado anteriormente surge la siguiente situación problémica: ¿Cómo
modelar el espacio químico aplicando los principios de la teoría de la información con
vistas a proponer descriptores moleculares novedosos?
El objetivo general de esta investigación es: Definir y validar nuevos IFIs a partir de
considerar las bases de datos moleculares como fuentes de información discretas y sin
memoria.
Los objetivos específicos planteados son:
1. Modelar y representar matemáticamente las bases de datos moleculares como fuentes
de Información.
2
INTRODUCCIÓN
2. Proponer nuevos índices de información aplicando las medidas de información
propuestas por Shannon.
3. Implementar algoritmos que permitan calcular los nuevos IFIs propuestos.
4. Comparar la información estructural codificada por los nuevos IFIs con los definidos
anteriormente en el software DRAGON utilizando diferentes métodos estadísticos.
La principal contribución y novedad de esta investigación radica en la definición de un
nuevo tipo de IFIs basados en el uso de una Fuente de Información más universal, como
son las extensas Bases de datos de moléculas reportadas y en la utilización de „‟huellas
moleculares„‟ definidas por distintos criterios de partición. Este trabajo posee además los
siguientes aportes:
Valor Teórico: La definición de una nueva familia de DMs basados en la aplicación de las
ecuaciones de la Teoría de la Información a las Bases de datos moleculares según distintos
criterios de partición.
Valor Práctico: La programación de un algoritmo en MATLAB que dada una Base de
datos de moléculas para un criterio específico, permite el cálculo de los IFIs propuestos a
las estructuras de la misma o a otra molécula cualquiera (si se descompone según el mismo
criterio de partición de la Base de datos).
Valor metodológico: La aplicación de un conjunto de métodos y procedimientos para
evaluar la calidad de los IFIs, tales como el análisis de componentes principales, el análisis
de variabilidad y un poco más generalmente los estudios de modelación QSPR, lo cual
podría servir de ejemplo a futuros estudios sobre el tema.
Organización del informe
El informe de la investigación se estructura en introducción, capitulario, conclusiones,
referencias bibliográficas y anexos:
Introducción: Contempla los antecedentes, necesidad, importancia y objetivos de la
investigación realizada.
Desarrollo
3
INTRODUCCIÓN
CAPITULO I: Recoge la Historia, desarrollo y elementos de la Teoría de la Información.
Se plasman también algunas aplicaciones de la Teoría de la Información en la Química y
otros campos. Se definen además algunos de los principales métodos estadísticos usados
para comprobar la calidad de los DMs.
CAPITULO II: Recoge la definición e implementación de los nuevos IFIs.
CAPITULO III: Se recogen los resultados obtenidos de la aplicación de métodos y
procedimientos estadísticos para evaluar y comparar la calidad de los IFIs propuestos.
Conclusiones
Valoración de los resultados, expresar las recomendaciones para futuros estudios sobre el
tema.
Bibliografía
Se hará un listado de las referencias bibliográficas consultadas siguiendo la norma Harvard.
Anexos
Se incluirán aquellos temas que son de vital importancia para el trabajo y requieran ser
tratados en el mismo aunque no estén directamente relacionados con el tema propuesto,
además otras figuras y/o tablas de interés.
Glosario
4
1. MARCO TEÓRICO.
MARCO TEÓRICO
CAPÍTULO 1. MARCO TEÓRICO
1.1
TEORÍA DE LA INFORMACIÓN
A partir de la década de 1940, la „‟Teoría matemática de la Comunicación‟‟ o „‟Teoría de la
Información‟‟, como comúnmente se conoce, cumple una función de bisagra en la dinámica
de transferencia y transposición de modelos científicos propios de las ciencias exactas.
Basada en las máquinas de comunicar generadas por la guerra, la noción de „‟información‟‟
adquiere definitivamente su condición de símbolo calculable. Con ello se convierte en la
divisa fuerte que asegura el libre cambio conceptual entre disciplinas. (Mattelart et al.,
1988)
‘’La Teoría de la Información es una disciplina matemática que trata tres conceptos
básicos: la medida de la información, la capacidad de un canal de comunicaciones para
transferir la información, y la codificación como medio de utilizar el canal a plena
capacidad.’’ (Carlson et al., 2002)
Ya antes de la década de 1940 se dieron los primeros pasos hacia esta teoría,
fundamentalmente con las investigaciones telegráficas de Nyquist y Hartley. Pero no fue
hasta 1948 que aparecieron las dos obras de mayor impacto, Cibernética de Norbert
Wiener, y Teoría matemática para las comunicaciones de Claude E. Shannon. Tomadas en
conjunto, las ideas de Wiener y Shannon establecieron las bases de la teoría moderna
(estadística) de las comunicaciones. Ambos científicos estuvieron interesados en la
extracción de la información de un fondo de ruido, y ambos aplicaron los conceptos de
estadística al problema. Sin embargo, hubo diferencias en el enfoque. Wiener trato el caso
en el que las señales que contenían la información estaban totalmente o en parte fuera del
alcance del diseñador, estando concentrado todo el proceso en el receptor. (El radar es un
buen ejemplo de esto pues la naturaleza de la señal reflejada depende en gran medida de la
5
MARCO TEÓRICO
forma y movimiento del blanco), el problema en este enfoque se puede resumir de la
siguiente forma: Dado un conjunto de señales posibles, no de nuestra elección, más el
inevitable ruido, ¿Cómo podemos hacer la mejor estimación de los valores presentes y
futuros de los valores que se están recibiendo? La solución óptima de este problema y otros
similares dieron lugar a las disciplinas de la teoría de la detección y la teoría de la decisión
estadística. El trabajo de Shannon se basó en la asunción de que la información a transmitir
es una prerrogativa de la fuente, pero la forma en que realmente se transmite (el tipo de
señal empleado), está dentro del control del diseñador. Shannon, por lo tanto, se planteó el
siguiente problema: ¿Cómo podemos representar de la mejor forma el mensaje para llevar
la información a través de un sistema dado con sus limitaciones físicas inherentes? Para dar
solución a este problema es necesario concentrarse más el concepto de información que en
las señales, como respuesta de solución a este problema surge la Teoría de la
Información.(Carlson, 1992)
1.1.1
Teorema fundamental de la Teoría de la Información.
Teorema: „‟ Dada una fuente de información y un canal de comunicaciones, existe una
técnica de codificación tal que la información puede ser transmitida a través del canal a
cualquier velocidad menor que la capacidad del canal y con una frecuencia de ocurrencia de
errores arbitrariamente pequeña independientemente de la presencia de ruido.‟‟
1.1.2
Sistema de Transmisión de la Información.
Un sistema de transmisión de información (STI) como el planteado por Shannon (Shannon,
1948) se puede representar como muestra la Figura 1.1.
Figura 1.1. Sistema de Transmisión de la Información.
Este STI cuenta esencialmente de cinco partes:
6
MARCO TEÓRICO
Fuente de Información: Produce un mensaje o secuencia de mensajes para ser enviado(s) al
terminal receptor.
Transmisor: Manipula el mensaje de alguna forma para transformarlo en una señal
apropiada para su transmisión sobre el canal.
Canal: Es simplemente el medio para trasmitir la señal desde el transmisor al receptor.
Receptor: El receptor opera de manera inversa al transmisor, reconstruyendo el mensaje a
partir de la señal.
Destino: Es la persona (objeto) a la cual el mensaje está dirigido.
Los sistemas de transmisión de la información Shannon pueden clasificarse en discretos,
continuos o mixtos. Un sistema discreto es aquel en el cual el mensaje y la señal son
elementos discretos (Por ejemplo la telegrafía, en la que el mensaje es una secuencia de
letras y la señal es una secuencia de puntos, líneas y espacios). En un sistema continuo la
señal y el mensaje son tratados como funciones continuas (Ejemplos de estos sistemas son
la radio y la televisión). Un sistema mixto es en el que aparecen variables discretas y
continuas, un caso típico de estos sistemas es la transmisión de la voz a partir de la
Modulación por Codificación del Pulso (P.C.M).(Shannon, 1948)
1.1.3
Fuente Discreta de Información.
La parte esencial de todo sistema de comunicaciones es la „‟Fuente de Información‟‟, una
Fuente Discreta de Información se puede definir como:
Fuente Discreta de
Información: „‟En un sistema físico o modelo matemático de un
sistema, cuando se produce una secuencia de símbolos gobernada por un conjunto de
probabilidades, se puede decir que estamos en presencia de un proceso estocástico,
podemos considerar entonces que la fuente discreta está representada por un proceso
estocástico. De manera inversa, cualquier proceso estocástico que produzca una secuencia
discreta de símbolos de un conjunto finito, puede ser considerado una fuente discreta de
información ‘’.(Shannon, 1948)
Algunos ejemplos de Fuentes Discretas de Información son:
7
MARCO TEÓRICO
1. Los alfabetos o conjunto de letras que conforman distintos idiomas naturales como inglés,
alemán, chino, etc.
2. Fuentes de información continuas que han sido discretizadas por algún proceso de
cuantizacion por ejemplo una señal de televisión cuantizada.
3. Conjunto matemático (de letras o símbolos) donde se ha definido de forma abstracta un
proceso estocástico (conjunto con probabilidades definidas) que genera cierta secuencia de
símbolos.
Si la información o conjunto de datos a transmitir representa un conjunto finito, discreto,
de N símbolos o mensajes distintos e independientes, cuyo significado es conocido en el
destino del sistema. La fuente de información se denomina entonces “Fuente Discreta sin
Memoria” .(Briceño Márquez, 2005)
A menudo las Fuentes Discretas son constreñidas por ciertas reglas, las cuales limitan la
posibilidad de seleccionar símbolos sucesivos. La influencia entre símbolos reduce la
incertidumbre y por tanto la cantidad de información producida. (Carlson, 1992) Si se
cumple la situación anterior se puede clasificar la fuente como: „‟ Fuente Discreta con
Memoria „‟.
1.1.4
Autoinformación.
El concepto de información es muy amplio y se asocia a la existencia de noticias, datos, etc.
La información, tal como se utiliza en la teoría de las comunicaciones es una magnitud
medible y presupone la existencia de una fuente y un destinatario de la información que se
asocian a los extremos transmisor y receptor del canal de comunicaciones. En la Teoría de
la Información, la cantidad de información que porta un mensaje se relaciona con la
incertidumbre asociada al mismo y no con su contenido semántico. Mientras menos
probable es un mensaje, mayor es su contenido de información y viceversa.
Considerando una fuente que produce varios mensajes. Sean A: el mensaje, y PA la
probabilidad de que este sea seleccionado para su transmisión, según lo planteado
anteriormente, la autoinformación IA del mensaje, puede ser hallada como una función de la
probabilidad PA:
I A  f ( PA )
8
MARCO TEÓRICO
Como requisitos que pueden ayudar a inferir la función f 
1.
 están(Carlson, 1992):
La autoinformación lógicamente debe ser un número real positivo. Esto es:
f ( PA )  0 , donde: 0  PA  1
2. Si PA=1, el mensaje es cierto, por ende no lleva información: IA=0. Consecuentemente:
lím PA 1 f ( PA )  0
3. Si el mensaje A es menos probable que el mensaje B:
PA  PB , por lo que: f ( PA )  f ( PB )
Hay muchas funciones que satisfacen las condiciones 1 a la 3. Una condición decisiva
proviene de considerar la transmisión de mensajes independientes. Si se envía el mensaje
A, el destinatario recibe IA unidades de información, si se envía también un segundo
mensaje B, el contenido total de información recibida por el destinatario debe ser la suma
de las autoinformaciones: IA+IB. Suponiendo que ambos mensajes provienen de la misma
fuente, entonces tendríamos el mensaje compuesto C=AB. Dada la condición de
estadísticamente independientes de A y B:
PC = PA  PB
I C  f PA PB 
Como la información que arriba al destinatario sigue siendo IA+IB, entonces:
I C  I A  I B  f ( PA )  f ( PB )
Por lo tanto, la condición decisiva es:
4.
f ( PA PB )  f ( PA )  f ( PB )
Hay solo una función que satisface las condiciones 1 a la 4, la función logarítmica
f     K log b   , donde K es una constante positiva y b es la base logarítmica. Por
simplicidad se toma K=1, además, por convenio en Teoría de la Información la unidad de la
Información es el bit, por lo que b=2, el signo menos se usa para satisfacer la condición 1
debido a que las probabilidades están comprendidas entre 0 y 1. (Carlson, 1992)
Concluyendo, la Autoinformación de un mensaje o símbolo A esta dada por:
9
MARCO TEÓRICO
I ( A)   log 2 PA bits
1.1.5
(1.1)
Entropía.
El concepto básico de Entropía en Teoría de la Información plantea que la misma „‟es una
medida de la incertidumbre asociada a una variable aleatoria’’. En los sistemas de
comunicaciones, el diseño no se realiza sobre la base de un mensaje en particular sino más
bien basándose en todos los mensajes posibles, es decir, debe distinguirse lo que la fuente
puede producir de lo que la fuente produce en una ocasión dada. Para describir la fuente se
debe por lo menos tomar en consideración todos los mensajes posibles y así hallar la
información promedio que entrega la fuente en un instante dado, que no es más que la
Entropía. (Carlson, 1992) Si la fuente fuese no estacionaria (la probabilidad de los
símbolos varia en el tiempo), el valor la Entropía no tendría sentido ya que el promedio de
conjunto sería diferente al promedio en el tiempo, por lo tanto se considera una fuente
ergódica (el promedio en el tiempo y de conjunto son iguales).
1.1.6
Entropía de una Fuente Discreta sin Memoria.
Para una Fuente Discreta sin Memoria, si la misma tiene un alfabeto de tamaño M y
denotamos como X al conjunto de símbolos {x1, x2, x3,…xM} que produce, si además los
símbolos cumplen con una distribución de probabilidad Pi {p1, p2, p3…pM}, tiene que
cumplirse:
M
 P =1
i 1
i
Entonces la expresión de la entropía para este tipo de fuente , según Shannon(Shannon,
1948) es:
H  X   i1 Pi log 2 Pi  i1 Pi I i bits / símbolo 
M
M
(1.2)
Propiedades de la Entropía de Información:

La entropía es una magnitud real y no negativa, ya que para cualquier valor i (1 ≤ i ≤
M), Pi varía en el intervalo de 0 a 1.
10
MARCO TEÓRICO

La entropía se reduce a cero solo en el caso en que cuando la probabilidad de uno de los
estados es igual a la unidad; entonces las probabilidades de todos los demás estados,
naturalmente, serán iguales a cero.

La entropía es máxima cuando todos los estados de la fuente son equiprobables.

La entropía de unión de varias fuentes de información estadísticamente independientes
es igual a la suma de entropías de las fuentes iniciales.

La entropía caracteriza la indeterminación media de la elección de uno de los estados
del conjunto. Para determinarla solo se utilizan las probabilidades de los estados,
menospreciando por completo su contenido sustancial.(Barigye, 2013)
Para este tipo de Fuente se cumple que:
0  H ( X )  log 2 M
1.1.7
Entropía de una Fuente Discreta con Memoria.
La Entropía de una Fuente Discreta con Memoria se formula considerando la historia
pasada completa de la fuente (más precisamente, todas las historias pasadas
posibles).(Carlson et al., 2002) El efecto ‟‟memoria‟‟ de la fuente reduce la incertidumbre y
por lo tanto disminuye la cantidad de información promedio (entropía) que entrega la
misma.
Con el objetivo de simplificar el análisis, se supone que una fuente con memoria de primer
orden(es decir, que „‟recuerda‟‟ solo el símbolo previo). Dado el conjunto X= {x1, x2,
x3,…xM} de posibles M símbolos de la fuente, si xi representa el próximo símbolo a
transmitir y xj es el símbolo precedente, entonces la información condicional que tiene el
conocimiento de que antes se transmitió el símbolo xj está dada por:


I xi / x j    log 2 Pxi / x j  bits 
(1.3)
La información promedio por símbolo, dado que el símbolo previo fue xj, o sea: la entropía
condicional, está dada por:


1
bits / símbolo 
H X / x j    Pxi / x j log 




P
x
/
x
i
i
j 

(1.4)
11
MARCO TEÓRICO
Promediando por todos los posibles símbolos previos, la entropía de la fuente es:
H  X    Px j H X / x j bits / símbolo 
(1.5)
j
Una expresión similar puede ser planteada para el caso de una fuente con memoria de
orden n, pero la notación se torna extensa debido a que xj en este caso debe ser
reemplazado por un estado de la fuente definido en términos de n símbolos previos y
existen M n posibles estados a considerar. (Carlson et al., 2002)
1.1.8
Transmisión de Información sobre un Canal Discreto no Ruidoso (Ideal).
La entropía de una fuente que transmite la información codificada por un Canal Discreto
sin ruidos (la secuencia de símbolos transmitida es recibida en el destino sin modificación
alguna) puede ser calculada usando la ecuación 1.2.
1.1.9
Transmisión de Información sobre un Canal Discreto Ruidoso.
Suponiendo que una fuente transmite sobre un canal en presencia de algún tipo de ruido, si
el alfabeto transmitido es X= {x1, x2, x3,…xM} y a consecuencia del ruido se producen
modificaciones en los símbolos transmitidos, en el destino se recibe un alfabeto Y= {y1, y2,
y3,…yM}, para medir la cantidad de información transferida se definen algunos de los
posibles casos que se pueden dar durante el proceso:
Figura 1.2. Probabilidades de transición „‟hacia delante‟‟ para 2 símbolos de entrada y 3 de
salida en un Canal Discreto Ruidoso. (Carlson et al., 2002)
12
MARCO TEÓRICO
Si el objetivo del Sistema de Transmisión de Información es que si se transmite el símbolo
x1, en el destino se reciba y1, o sea que para un xi transmitido se recibe un yj para i=j. La
probabilidad de error de símbolo está dada entonces por:
P  y j / xi  , si y solo si j  i
La información mutua (IM) o información mutua puntual (PMI) que se produce cuando el
símbolo xi es transmitido y se recibe el símbolo yj está definida como(Fano, 1961):
 Pxi / y j  
bits
I xi ; y j   log 2 


P
x
i


(1.6)
La IM es una medida de la información compartida por xi e yj, „’es una medida de en
cuánto, el conocimiento que se tenga sobre una variable, reduce la incertidumbre sobre la
otra’’. Nótese que si P (x i / y j ) = 1 (Canal sin ruido ideal) el hecho de que se haya recibido
el símbolo yj, no brinda ninguna información sobre el símbolo xi, de modo que sustituyendo
en la ecuación 1.6:
 1 
I xi ; y j   log 2 
bits = I ( xi )
 P( xi ) 
Además, si P (x i / y j ) = P(x i ) (Canal muy ruidoso) esto quiere decir que en realidad estos
dos símbolos no tienen ningún tipo de relación a causa de la alteración producida por el
ruido, por lo que son estadísticamente independientes (Carlson et al., 2002). En este caso la
información mutua es nula, sustituyendo en la ecuación 1.6:
I xi ; x j   log 2 (1)  0
La IM promedio (IMP) (en realidad es una entropía) puede ser calculada por medio del
promedio estadístico sobre ambos alfabetos (transmitido y recibido) de la siguiente forma:
 Pxi / y j  
bits / símbolo  (1.7)
I ( X ; Y )  H  X ; Y    P( xi , y j ) I ( xi ; y j )   P( xi , y j ) log 2 
X ,Y
x, y
 Pxi  
Es importante destacar que la cantidad I(X, Y) representa la cantidad de información
promedio producida por la fuente por símbolo recibido, como una forma de diferenciarla
de la información promedio por símbolo H(X). (Carlson et al., 2002) En esta ecuación si:
13
MARCO TEÓRICO
Pxi , y j   px1 , y1 , px2 , y2 ,...., pxM , y M  es la función de distribución conjunta de
probabilidades de las variables aleatorias X e Y, tiene que cumplirse que:
 px , y   1
M
i
j
i, j
La Entropía de unión de X e Y se puede definir como:
H  X , Y    P( xi , y j ) log 2 P( xi , y j ) bits / símbolo 
(1.8)
X ,Y
Si las 2 variables X e Y son independientes, entonces:
H  X , Y   H  X   H Y 
Algunas expresiones diferentes pero equivalentes de la IMP pueden ser halladas, para ello
se pueden usar las relaciones 1.9a, b, c y d.
Pxi , y j   Pxi / y j P y j   P y j / xi Pxi 
(1.9a)
Dividiendo en todos los miembros de la igualdad 1.9a por P xi P y j  :
Pxi , y j 
Pxi P y j 

Pxi / y j 
Pxi 

P  y j / xi 
Py j 
(1.9b)
P xi    Pxi , y j 
(1.9c)
P y j    Pxi , y j 
(1.9d)
y
x
Usando las ecuaciones 1.9 a, c, d en 1.7, es fácilmente demostrable que:
I ( X ; Y )  H  X   H  X / Y bits / símbolo
(1.10)
Si el término H(X) en la ecuación 1.10 es una medida de la incertidumbre acerca de la
variable X, entonces H(X/Y) es una medida de cuanto Y „‟no dice‟‟ acerca de X, esto es: la
cantidad de incertidumbre acerca de X después de conocida la Y, entonces el miembro
derecho de la ecuación puede leerse como: „‟la cantidad de incertidumbre en X menos la
cantidad de incertidumbre restante en X después de conocida la Y ’’, lo cual es equivalente
a la cantidad de incertidumbre reducida sobre X dado el conocimiento previo de Y. Esto
14
MARCO TEÓRICO
corrobora la definición anteriormente dada acerca de la IM. El término H(X/Y) puede ser
llamado la entropía de equivocación la cual es la cantidad de información perdida en un
canal ruidoso; la ecuación expresa que la información promedio transferida por símbolo es
igual a la entropía de la fuente menos la equivocación. (Carlson et al., 2002)
Otra posible relación a plantear según 1.7 es:
I  X ; Y   H Y   H Y / X bits / símbolo
(1.11)
Una interpretación similar a la anterior ,en relación a la incertidumbre, puede ser hecha a
partir de la ecuación 1.11, el término H(Y/X) se denomina entropía de ruido, este término
es derivado de la asunción previa de que el conjunto de probabilidades transicionales
„‟hacia delante‟‟ P  y j / xi  contiene a las probabilidades de error de símbolo(para i≠j); la
ecuación 1.11 expresa que la información promedio transferida por símbolo es igual a la
’’entropía del destino’’ menos la entropía de ruido introducida por el canal. (Carlson et al.,
2002)
Usando las relaciones 1.7 y 1.9b se puede hallar que:
I  X ; Y   H  X   H Y   H  X , Y bits / símbolo
(1.12)
Esta relación reafirma la idea de que la IMP es una medida de la dependencia entre dos
variables aleatorias y puede ser considerada como una extensión del coeficiente de
correlación lineal entre las mismas.(Li, 1990)
A partir de las ecuaciones1.10, 1.11, 1.12 se tiene el siguiente Diagrama de Venn:
Figura 1.3. Diagrama de Venn para relaciones derivadas de la IMP.
Partiendo del diagrama anterior se puede establecer otra relación para la IMP:
I  X ; Y   H  X , Y   H  X / Y   H Y / X bits / símbolo
(1.13)
15
MARCO TEÓRICO
1.1.10 Función métrica. Propiedades.
En matemáticas, una métrica o función distancia es una función que define la distancia
entre 2 elementos de un conjunto, el conjunto donde se define una métrica es llamado
Espacio métrico. Es importante resaltar que una métrica produce una topología sobre un
conjunto pero no todas las topologías pueden ser generadas por una métrica, a su vez el
espacio topológico que pueda ser descrito por una métrica es llamado „‟metrizable‟‟.
Definición de espacio métrico: Un espacio métrico es un conjunto M (a cuyos elementos se
les denomina puntos) con una función distancia asociada (también llamada una métrica).
d :M M  R
R es el conjunto de los números reales. Decir „‟d es una distancia sobre M‟‟ es decir que
para todo x, y, z en M, esta función debe satisfacer las siguientes condiciones o propiedades
de una distancia:
1. d(x, y) ≥0 (no negatividad o axioma de separación)
2. si d(x, y) = 0 si y solo si x = y (identidad de los indiscernibles o axioma de
coincidencia)
3. d(x, y) = d (y, x) (simetría)
4. d(x, z) ≤ d(x, y) + d (y, z) (subaditividad o desigualdad triangular).
La primera condición está implícita en las otras. Una métrica es llamada „‟ ultra–métrica‟‟
si satisface la siguiente versión más fuerte de la desigualdad triangular, donde los puntos
nunca pueden caer "entre" otros puntos:
4.1
Ɐ x, y, z € M, d(x, z) ≤ max (d(x, y), d (y, z))
Si se elimina la propiedad 3, se obtiene un espacio pseudométrico. Sacando, en cambio, la
propiedad 4, se obtiene un espacio quasimétrico. No obstante, perdiéndose simetría en este
caso, se cambia usualmente la propiedad 3 tal que ambas d(x, y) = 0 y d (y, x) = 0 son
necesarias para que x e y se identifiquen. Todas las combinaciones de lo anterior son
posibles y referidas por sus respectivas nomenclaturas (por ejemplo como quasi-pseudoultramétrico).
16
MARCO TEÓRICO
Para conjuntos sobre los que una adición +: M x M→ R es definida, d es llamada métrica
invariante de traslación si:
Ɐ x, y, a € M, d (x, y) = d(x+a, y+a)
Las condiciones anteriores expresan nociones intuitivas acerca del concepto de distancia.
Por ejemplo, que la distancia entre 2 puntos distintos es positiva y la distancia de un punto
x a uno y es la misma distancia de y hacia x. El termino desigualdad triangular significa
que la distancia desde x hacia z pasando por y, es igual o mayor que la medida desde x
hacia z directamente. En los trabajos de Euclides la desigualdad triangular se veía plasmada
en la afirmación que la distancia más corta entre dos puntos cualesquiera es la
recta.(Arkhangel'skii and Pontryagin, 1990)
1.1.11 Información Mutua promedio como métrica.
Una interpretación „‟semi-métrica‟‟ de la IMP se propone por Kullback y Leibler(Kullback
and Leibler, 1951) como un caso especial de una medida más general denominada la
entropía relativa o la divergencia de Kullback-Leibler, la divergencia de Kullback-Leibler
no se considera una métrica ya que no cumple con la condición de simetría (propiedad 3):
   
D p q ≠ D q p . La entropía relativa, denotada por D (p||q) es la “distancia” entre dos
distribuciones de probabilidades, p(x) y q(x). Puede también entenderse como una medida
de los bits de información adicional necesarios para corregir el error en asumir una
distribución de probabilidad como q(x) siendo en realidad p(x).
La D (p||q) viene dada por la fórmula:
 
p(x)
D p q   p(x)log
q(x)
xX
(1.14)
En un canal con ruidos, una adecuada transmisión requiere un balance entre los casos
extremos correspondientes a la transmisión por un canal sin ruido y un canal inútil,
respectivamente. Este balance es equivalente a la entropía relativa para las dos
distribuciones de probabilidades P xi , y j  y P xi P  y j  . Si P xi , y j  ˃˃˃ P xi P  y j  , quiere
decir que X e Y son altamente correlacionadas, mientras que si P xi , y j - P xi P  y j  →0, X
e Y son pobremente correlacionadas.
17
MARCO TEÓRICO
La IMP según la ecuación 1.7, con ayuda de la relación 1.9b y 1.14, puede expresarse
entonces como:
 Pxi , y j  
bits / símbolo 
D Pxi , y j  Pxi Py j   I ( X ; Y )   P( xi , y j ) log 2 
 Px Py  
x, y
i
j




(1.15)
Se puede afirmar entonces, según la ecuación 1.15 (cumple con las condiciones 1, 2, 3 y 4
definidas en 1.1.8), que la IMP como métrica, es la medida de la ineficiencia en asumir que
la distribución de probabilidades para canales es P xi P  y j  , cuando en realidad es
P xi , y j .(Barigye, 2013)
1.2
APLICACIONES DE LA TEORÍA DE LA INFORMACIÓN.
El hecho de que la Teoría de la Información es una teoría matemática que estudia la
información y todo lo relacionado con ella: canales para la transmisión de datos,
compresión de datos, criptografía, etc., hace que sus aplicaciones encuentren lugar en casi
todos los campos de la ciencia actual.
1.2.1
Lingüística matemática.
La lingüística matemática se refiere a la aplicación de técnicas estadísticas, probabilísticas
o esquemas matemáticos abstractos a la comprensión de los fenómenos lingüísticos.
Aunque algunos de los primeros trabajos que hacían amplio uso de la estadística, la
probabilidad y la teoría de la información datan de 1964, la lingüística matemática no
constituye hoy en día un área establecida de la ciencia normal, ya que constituye una
colección de trabajos heterogéneos, algunos de gran complejidad y muy ambiciosos, pero
en general poco conocidos por la mayoría de los lingüistas.(Kornai, 2001) Un enfoque
posible de la lingüística matemática es la cuantificación de la cantidad de información.
Algunos estudios revelaron inicialmente la altísima redundancia existente en las lenguas
naturales, esta redundancia está dada por el hecho de que si por ejemplo se desea transmitir
el mensaje perteneciente al idioma español: QUE, el uso de la U es redundante, ya que la
probabilidad P (U/Q)=1, así en muchos casos de idiomas el uso de algunas letras es
innecesario para transmitir un mensaje con claridad. Shannon calculó la entropía
18
MARCO TEÓRICO
condicional de textos escritos en inglés y probó que en esos textos la redundancia
estadística es cercana al 50%.(Shannon, 1948)
1.2.2
Física Estadística.
La física estadística es una rama de la física que mediante técnicas estadísticas es capaz de
deducir el comportamiento de los sistemas físicos macroscópicos a partir de ciertas
hipótesis sobre los elementos o partículas que conforman dichos sistemas. Los sistemas
macroscópicos son aquellos que tienen un número de partículas parecido al número de
Avogadro, cuyo valor aproximadamente igual a 1023 es increíblemente grande. Un ejemplo
de un sistema macroscópico es, por ejemplo, un vaso de agua. La importancia del uso de las
técnicas estadísticas para estudiar estos sistemas radica en que al ser sistemas tan grandes es
imposible, incluso para las más avanzadas computadoras, llevar un registro del estado
físico de cada partícula y predecir el comportamiento del sistema mediante las leyes de la
mecánica.
La utilidad de la física estadística consiste en ligar el comportamiento microscópico de los
sistemas con su comportamiento macroscópico, de modo que conociendo el
comportamiento de uno se pueden averiguar detalles del comportamiento del otro. Permite
describir numerosos campos de naturaleza estocástica como las reacciones nucleares; los
sistemas biológicos, químicos, neurológicos; etc. El postulado fundamental de la física
estadística, conocido también como postulado de equiprobabilidad a priori, es el siguiente:
‘’Dado un sistema aislado en equilibrio, el sistema tiene la misma probabilidad de estar en
cualquiera de los microestados accesibles. ’’
Este postulado fundamental afirma que un sistema en equilibrio no tiene ninguna
preferencia por ninguno de los microestados disponibles para ese equilibrio. Si N es el
número de microestados disponibles para una cierta energía, entonces la probabilidad de
encontrar el sistema en uno cualquiera de esos microestados es p = 1/N. El postulado es
necesario para poder afirmar que, dado un sistema en equilibrio, el estado termodinámico
(macroestado) que está asociado a un mayor número de microestados es el macroestado
más probable del sistema. (Merhav, 2010) La cantidad de información promedio de un
macroestado, se calcula usando la función logarítmica
Shannon(Shannon, 1948):
de Información definida por
19
MARCO TEÓRICO
I    i ln  i   ln  
(1.16)
i
1.2.3
Minería de datos basada en teoría de la información
Este tipo de minería de datos se basa en la siguiente afirmación: ‘’Una base de datos es un
canal que transmite información’’, por un lado está el mundo real que captura datos
generados por el negocio, por el otro están todas las situaciones y problemas importantes
del negocio y la información fluye desde el mundo real y a través de los datos, hasta la
problemática del negocio. Con esta perspectiva y usando la Teoría de la información, es
posible medir la cantidad de información disponible en los datos y qué porción de la misma
podrá utilizarse para resolver la problemática del negocio. Como un ejemplo práctico,
podría encontrarse que los datos contienen un 65% de la información necesaria para
predecir qué cliente rescindirán sus contratos. De esta manera, si el modelo final es capaz
de hacer predicciones con un 60% de acierto, se puede asegurar que la herramienta que
generó el modelo hizo un buen trabajo capturando la información disponible. Ahora, si el
modelo hubiese tenido un porcentaje de aciertos de solo el 10%, por ejemplo, entonces
intentar otros modelos o incluso con otras herramientas podría valer la pena. La capacidad
de medir información contenida en los datos tiene otras ventajas importantes. Al analizar
los datos desde esta nueva perspectiva se genera un mapa de información que hace
innecesario la preparación previa de los datos, una tarea absolutamente imprescindible si se
desea buenos resultados, pero que lleva enorme cantidad de tiempo. Es posible seleccionar
un grupo de variables óptimo que contenga la información necesaria para realizar un
modelo de predicción. Una vez que las variables son procesadas con el fin de crear el mapa
de información y luego seleccionadas aquellas que aportan la mayor información, la
elección de la herramienta que se usará para crear el modelo deja de tener importancia, ya
que el mayor trabajo fue realizado en los pasos previos.(Pyle, 1999)
1.2.4 Aplicaciones de la Teoría de la Información al campo de la Química.
En los últimos años la aplicación de la teoría de información a la Química ha recibido
creciente interés tanto con el objetivo de proporcionar mejor interpretación a conceptos
químicos tradicionales como para caracterizar fenómenos y especies químicas. Así por
ejemplo, se ha demostrado que la interpretación más precisa de la entropía termodinámica
20
MARCO TEÓRICO
clásica es en términos de la medida de información de Shannon en lugar de la definición
tradicional (medida del desorden), dado que mientras que la primera exégesis se cumple
para todos los procesos termodinámicos, existen otros procesos donde la definición de la
entropía como una medida de desorden no es sustentable.(Barigye, 2013)
El concepto de la „‟Comunicación Molecular‟‟ es una aplicación de la Teoría de la
Información a las ciencias Bioquímicas, es universalmente usado en todos los niveles de
Sistemas biológicos extendiéndose desde las moléculas y células hasta los tejidos y
órganos. Las comunicaciones moleculares, usando un modelo de Sistema de Transmisión
de Información a través de un canal, han servido de base para una mejor comprensión de
muchos procesos celulares de interés biológico, además son de gran interés en el área del
diseño e ingeniería de sistemas biológicos sintéticos desde el punto de vista de la teoría de
la información.(Nakano and Liu, 2010)
A su vez, los principios de la Teoría de la Información pueden ser usados para evaluar la
cantidad de información obtenida de la medición de magnitudes físicas, usando esta
cantidad de información y la correlación entre las magnitudes, pueden seleccionarse un
conjunto de características que brinden la máxima cantidad de información. Hace algunos
años el concepto de información definido por Shannon fue introducido en el campo
químico de la Espectrometría de masa, la espectrometría de masa da una gran cantidad de
información dependiendo exactamente del número de bandas presentes y de los niveles de
intensidad que pueden distinguirse midiendo esas bandas, está demostrado que para un
espectro codificado binario (bandas presentes o no), el número de bits obtenido ronda los
150 (dependiendo del nivel umbral definido para decidir si está o no presente la banda),esto
permitió descubrir que las bandas que realmente brindan información pueden ser en un
rango más pequeño.(van Marlen and Dijkstra, 1976)
1.2.4.1 Índices de Información.
Una de las aplicaciones más importantes del concepto de información brindado por
Shannon en el campo de la Química son los IFIs. Esta amplia familia de DMs incluye
índices muy sencillos como los que se derivan de la composición elemental de un átomo o
molécula (índices de composición) hasta los más complejos como por ejemplo: los índices
de simetría de vecindad. Los IFIs están clasificados como Índices Topológicos de Tercera
21
MARCO TEÓRICO
Generación y resultan del análisis de la estructura estadística de modelos moleculares
empleando la medida del grado de incertidumbre en la selección aleatoria de un suceso en
el modelo. (Barigye, 2013)
Los IFIs más relevantes definidos hasta el momento, según el modelo molecular o Fuente
de Información analizada son(Barigye, 2013):

Formula Química (Representación 0D de la Estructura Molecular): Este índice se
denomina el índice de información sobre la composición química y es una medida de la
diversidad composicional de los compuestos químicos.

Grafos Químicos como Fuente de Información: Estos IFIs han sido utilizados
exitosamente en estudios de redes complejas demostrando poder discriminatorio superior a
la mayoría de los IFIs tradicionales, así como ITs bien conocidos tales como el índice J de
Balaban, el índice de Randić y el índice de Harary, por solo citar algunos de los más
representativos.

Representaciones Matriciales como una Fuente de Información: Las representaciones
matriciales vistas como una fuente de información han permitido la definición de
numerosos IFIs a través del análisis de patrones estadísticos de matrices. Como casos
particulares de estos índices se han definido los índices de información globales y los
índices de información como invariantes locales para vértices (LOVIs).
En general los DMs deben satisfacer algunos requerimientos básicos. Una lista de
requerimientos básicos sugeridos por Randić(Randić, 1991) es mostrada a continuación:
1. Interpretación estructural.
2. Mostrar buena correlación con al menos una propiedad.
3. Preferiblemente permitir la discriminación de isómeros.
4. Aplicables a estructuras locales.
5. Generalizable a DMs superiores.
6. Independencia.
7. Simplicidad.
8. No estar basados en propiedades.
9. No estar relacionados con otros descriptores al azar.
10. Permitir una „‟construcción‟‟ eficiente.
11. Usar conceptos de familia estructural.
22
MARCO TEÓRICO
12. Mostrar la correcta dependencia del tamaño.
13. Mostrar cambios graduales según el cambio estructural.
A continuación se referirán los métodos estadísticos usados para demostrar el cumplimiento
de algunos de estos requerimientos básicos por los nuevos IFIs propuestos.
1.2.4.1.1 Análisis de Componentes Principales (ACP).
El ACP comprende un procedimiento matemático que transforma un conjunto de variables
correlacionadas de respuesta en un conjunto menor de variables no correlacionadas
llamadas Componentes Principales (CPs) o simplemente factores. (Malinowski and
Howery, 1980) El ACP permite explorar a priori la posible existencia de ortogonalidad
entre las variables, un requisito importante para nuevos DMs. (Franke, 1984)
Las principales aplicaciones de la técnica de ACP son: (1) reducir el número de variables
pertenecientes a un conjunto y (2) detectar una estructura de relaciones entre las variables
del conjunto como una vía para clasificar las variables(Basilevsky, 1994). Si se tiene una
recta de regresión lineal que represente la relación existente entre 2 variables según los
coeficientes de correlación de las mismas, es posible obtener una „‟nueva variable‟‟ o
factor, que represente en gran medida la esencia de las variables originales. Entonces se
puede afirmar que un factor es una combinación lineal de dos o más variables, se define
como la „‟carga‟‟ en un factor al coeficiente de correlación entre una variable original (en
nuestro caso: un DM) y un factor dado („‟nueva variable‟‟).
El ACP permite entonces obtener combinaciones lineales no correlacionadas de
descriptores a partir del cálculo de los autovalores y autovectores de la matriz de
correlación. Los autovectores o vectores propios son los Componentes Principales y
constituyen una nueva base ortonormalizada en el espacio descriptor multidimensional (la
base original está definida por las coordenadas del descriptor), cada punto representativo en
el espacio descriptor multidimensional está entonces proyectado en dichos autovectores.
La razón entre los autovalores y la suma del total de estos, multiplicada por 100, es igual al
porcentaje de varianza explicada por los correspondientes CPs. Por ejemplo, el primer CP:
Y1, se define como una combinación lineal normalizada de descriptores que explica la
máxima varianza de los puntos representativos. El segundo CP: Y2 es definido como la
máxima cantidad de dispersión entre todas las combinaciones lineales normalizadas de
23
MARCO TEÓRICO
descriptores, no correlacionadas con Y1, a su vez el tercer CP: Y3 se define como la
máxima cantidad de dispersión entre todas las combinaciones lineales normalizadas de
descriptores, no correlacionadas con Y1 ni Y2, etc., por lo tanto, los factores hallados son
ortogonales entre sí y el primer factor calculado esta generalmente más correlacionado con
las variables originales que los otros factores.(Golbraikh, 2000) Algunas conclusiones
extrapolables del ACP son: (1) las variables con una alta carga en el mismo factor están tan
correlacionadas como alto sea el valor de la carga y (2) las variables con carga en diferentes
factores son completamente ortogonales entre sí (o sea, DMs que captan información
estructural completamente distinta).
1.2.4.1.2 Análisis de Variabilidad (AV).
El método de AV, propuesto por Godden y colaboradores,(Godden et al., 2000) cuantifica
el contenido de información y, por lo tanto, la variabilidad de los DMs, basado en el
concepto de entropía de Shannon. Para esto se introduce un procedimiento de discretización
empleando los histogramas de distribución de frecuencias. Sea px i la probabilidad de que
el caso c esté en intervalo i, para un número de intervalos M se construye una función de
distribución de probabilidades P X  , a la cual se le aplica la ecuación 1.2. De esta forma se
obtiene la entropía de cada variable(Frank and Friedman, 1993), siendo elevada para
variables(DMs) de alta variabilidad y mínima para las de poca variabilidad en la Base de
datos analizada. De esta manera, esta técnica permite evaluar la calidad de los DMs como
entidades independientes y se ha utilizado en la literatura para comparar el desempeño de
conjuntos de DMs implementados de diferentes paquetes computacionales, así como en
estudios de diversidad molecular.(Barigye et al., 2013)
1.2.4.1.3 Modelación QSAR/QSPR.
El concepto de estructura molecular, su representación por DMs teóricos y la relación de
estos con propiedades experimentales de las moléculas es un proceso de estudio
interdisciplinario, como muestra el siguiente gráfico.(Puzyn et al., 2010)
24
MARCO TEÓRICO
Figura 1.4. Esquema general de relaciones entre la estructura molecular, DMs,
Quimioinformática y la modelación QSAR/QSPR, etc.
Desde los años 1960-1970 la modelación molecular principalmente consistió en la
búsqueda de relaciones matemáticas entre cantidades experimentalmente medidas,
actualmente está enfocada en relacionar una propiedad medida y DMs capaces de capturar
información de la estructura química. Los mejores DMs son aquellos en los que su
contenido de información es comparable con el contenido de información de la
„‟respuesta‟‟ para la cual se busca el modelo. En efecto, mucha información en la variable
independiente (descriptores) con respecto a la „‟respuesta‟‟ es a menudo vista como
„‟ruido‟‟ del modelo.(Puzyn et al., 2010)
El uso de modelos matemáticos para explicar la relación entre propiedades físico-químicas
medidas experimentalmente y la estructura molecular es de gran utilidad para predecir un
vínculo entre estas propiedades químicas y actividades biológicas de algún compuesto,
estos modelos se conocen como modelos QSAR/QSPR (Quantitative-Structure-Activity
(Property)-Relationship).
El proceso de desarrollo de modelos QSAR puede ser generalmente dividido en tres
etapas: preparación de los datos, análisis de los datos y validación del modelo.
25
MARCO TEÓRICO
La primera etapa incluye la selección de una base de datos de moléculas, el cálculo de los
descriptores moleculares y la selección del método QSAR (análisis estadístico y
correlacional), estos pasos representan una práctica estándar para cualquier modelación
QSAR aunque algunos detalles específicos son generalmente determinados por los
intereses del investigador y la disponibilidad del software.
La segunda parte del desarrollo del modelo QSAR consiste en la aplicación de enfoques
estadísticos al mismo, muchos algoritmos y software son utilizados con este fin, de los
cuales la mayoría están basados en Regresión Lineal Múltiple (con selección de variable o
mínimos cuadrados parciales), o en métodos no lineales (algoritmos genéticos y otros), en
todos los enfoques los descriptores constituyen las variables independientes y alguna
propiedad física-química-biológica es la variable dependiente.
La última y más importante etapa es la validación del modelo, para ello se utilizan
numerosas técnicas estadísticas con enfoque predictivo.(Golbraikh and Tropsha, 2002)
La aplicabilidad de los modelos QSAR puede ser vista, por ejemplo, en la Química, con la
predicción de los puntos de ebullición de sustancias dentro de una misma familia química,
en la Biología: la predicción del coeficiente de partición octanol/agua (log P) es de especial
interés debido a que constituye una medida importante en la identificación de sustancias
con potencial farmacológico de acuerdo con la regla de cinco de Lipinsky(regla que
establece condiciones para las drogas o medicamentos para su consumo humano oral).
Es importante señalar que, la mayoría de las investigaciones QSAR/QSPR han sido
realizadas usando la técnica de RLM,(Frank and Friedman, 1993, Kubinyi, 1996)
fundamentalmente por su carácter lineal, paramétrico y su “simplicidad”.(Barigye, 2013)
1.2.4.1.4 Regresión lineal múltiple con Algoritmo Genético (RLM-AG).
La RLM estudia las relaciones entre una variable dependiente o criterio y un conjunto de
variables independientes o predictores X= {x1, x2,..., xk}. Así mismo, la regresión múltiple
remite a la correlación múltiple, que se representa por R. Sus fundamentos se hallan en la
correlación de Pearson(Alzina, 1989). La recta de regresión múltiple tiene la siguiente
forma:
Y = a + b1 x1 + b 2 x 2 + ... + b k x k
(1.17)
26
MARCO TEÓRICO
Donde a es un valor constante y (b1…bk) son los coeficientes de correlación.(Barigye,
2013)
El AG es una técnica de Inteligencia Artificial usada en este caso como método de
selección optimizada de variables y junto a la RLM es una parte importante en la
modelación QSAR.
El AG está basado en la evolución darwiniana e imita el proceso de selección natural,
análogamente a la selección natural, los parámetros a ser optimizados (modelos) son
codificados en una cadena de bits (cada cadena de longitud igual al número de variables)
formando un conjunto de cromosomas. En la población, cada cromosoma representa un
genotipo en particular o una solución a determinada tarea. Cada subconjunto de
cromosomas a reproducir es sometido a operaciones análogas a la evolución, como
mutación, cruzamiento, etc. Para generar nuevos cromosomas (progenie). La „‟buena
salud‟‟ de la progenie es evaluada, y el modelo con un poder predictivo mayor: Q2loo
(explica la mayor parte de la varianza en la predicción) es admitido para reproducirse,
mutar o cruzarse con otro modelo „‟padre‟‟ de otra población generada, para así dar lugar a
una nueva población‟‟ hija‟‟. Este proceso es repetido hasta que la „‟salud‟‟ de la población
converge o hasta un numero predefinido de iteraciones.(Goldberg, 1989)
1.2.4.1.5 Análisis de la Varianza (ANOVA).
El ANOVA (ANalysis Of VAriance) sirve para comprobar la hipótesis de que R2 = 0. La
variabilidad total de la variable dependiente se divide entre la parte atribuible a la regresión
y la parte residual. La distancia de un punto cualquiera Yi a la Y se sub-divide en dos
partes:(Alzina, 1989)
Yi  Y  Yi  Yˆi   Yˆi  Y 
(1.18)
Siendo Yˆi el valor predicho por la ecuación de predicción. El valor Yi  Yˆi se denomina
residual de la regresión y Yˆi  Y corresponde a la distancia explicada por la regresión y
representa el aumento en la estimación de Yi mediante la recta de regresión.(Barigye, 2013)
En el ANOVA, la razón F (razón de Fisher-Snedecor) sigue una distribución F con grados
de libertad v1 = υ, v2 = n- υ -1; siendo υ el número de variables de la ecuación y n el número
27
MARCO TEÓRICO
de objetos del conjunto de entrenamiento (Conjunto de datos objeto del análisis de
regresión), además , F se puede expresar como(Frank and Todeschini, 1994):
F
MSS / v1
RSS / v2
(1.19)
Donde v1 y v2 representan los grados de libertad del modelo y el error respectivamente.
MSS (Model Sum Squares) es la suma de las diferencias al cuadrado entre la respuesta
predicha Yˆi y el valor promedio de la misma Y y se define como(Frank and Todeschini,
1994):
MSS=  Yˆi  Y 
n
2
i 1
El valor de MSS representa además la proporción de varianza de la variable de respuesta
explicada por el modelo de regresión.
RSS (Residual (error) Sum Squares) representa la suma de las diferencias al cuadrado entre
la respuesta observada experimentalmente Yi y el valor Yˆi predicho de la misma, se define
como(Frank and Todeschini, 1994):
RSS=  Yi  Yˆi 
n
2
i 1
Se puede decir que F es una comparación entre la varianza explicada por el modelo y la
varianza residual (varianza del error), un modelo confiable está asociado a valores altos
de F.(Frank and Todeschini, 1994) La F sirve para comprobar si el modelo de regresión se
ajusta a los datos y permite evaluar si se rechaza la hipótesis nula, según la cual R2 = 0.
A su vez, la varianza total de la variable de respuesta se define como:
TSS=  Yi  Y 
n
2
i 1
Si el modelo se ajusta a los datos, el coeficiente de determinación (R2) puede calcularse a
partir de la siguiente relación del ANOVA(Barigye, 2013):
28
MARCO TEÓRICO
 Y  Yˆ 
n
R2 
MSS
RSS
 1
 1
TSS
TSS
i 1
n
2
i
i
(1.20)
 Y  Y 
i 1
2
i
R2 se conoce también como coeficiente de correlación múltiple y no es más que la varianza
total de la respuesta Yi (obtenida experimentalmente) que explica el modelo obtenido por
regresión.
1.2.4.1.6 Validación Cruzada.
La Validación Cruzada o Cross-Validation es una técnica utilizada para evaluar los
resultados de un análisis estadístico y garantizar que son independientes de la partición
entre datos de entrenamiento y prueba. Consiste en repetir y calcular la media aritmética
obtenida de las medidas de evaluación sobre diferentes particiones. Se utiliza en entornos
donde el objetivo principal es la predicción y se quiere estimar cómo de preciso es un
modelo que se llevará a cabo a la práctica.(Devijver and Kittler, 1982)
Suponiendo que se tiene un modelo con uno o más parámetros de ajuste desconocidos y
datos de entrenamiento a analizar. El proceso de ajuste optimiza los parámetros del modelo
para que éste se ajuste a los datos de entrenamiento tan bien como pueda. Si se escoge una
muestra independiente como dato de prueba (validación) del mismo grupo que los datos de
entrenamiento, normalmente el modelo no se ajustará a los datos de prueba igual de bien
que a los datos de entrenamiento, esto se denomina sobreajuste y acostumbra a pasar
cuando el tamaño de los datos de entrenamiento es pequeño o cuando el número de
parámetros del modelo es grande. La validación cruzada es una manera de predecir el
ajuste de un modelo a un hipotético conjunto de datos de prueba cuando no disponemos
del conjunto explícito de datos de prueba.
El poder predictivo del modelo R2cv (R2 cross-validated) puede expresarse como Q2,
denominado como la „varianza predictiva‟ o la „varianza de la validación cruzada‟(Barigye,
2013), y puede ser calculada acorde a la siguiente fórmula:
n
R 2 cv  Q 2  1 
PRESS
1
TSS
(y
i 1
n
i
(y
i 1
 yˆ i / i ) 2
i
 y)2
(1.21)
29
MARCO TEÓRICO
El término PRESS (PREdictive Sum of Squares) es la suma de las diferencias al cuadrado
entre la respuesta observada experimentalmente y la respuesta estimada mediante la técnica
de validación, yˆ i / i representa la respuesta estimada del i-ésimo objeto usando un modelo
hallado omitiendo este i-ésimo objeto.
La más sencilla y general técnica de Validación Cruzada es la técnica de LOOCV o
simplemente LOO (siglas de Leave-one –out -Cross Validation), que consiste en separar los
datos de forma que para cada iteración se tenga una sola muestra para los datos de prueba y
todo el resto conformando los datos de entrenamiento. En este tipo de validación cruzada el
error es muy bajo, pero en cambio, a nivel computacional es muy costoso, puesto que se
tienen que realizar un elevado número de iteraciones, tantas como N muestras hallan y para
cada una analizar los datos tanto de entrenamiento como de prueba.(Refaeilzadeh et al.,
2008)
Figura 1.4. Validación Cruzada dejando uno fuera (LOO)(Refaeilzadeh et al., 2008).
1.2.4.1.7 Remuestreo (Bootstrapping).
En el ámbito de la estadística, se denomina remuestreo (en inglés resampling) a una
variedad de métodos que permiten realizar algunas de las siguientes operaciones:

Estimar la precisión de muestras estadísticas (medianas, variancias, percentiles)
mediante el uso de subconjuntos de datos disponibles (jackknifing) o tomando datos en
forma aleatoria de un conjunto de datos (bootstrapping).

Intercambiar marcadores de puntos de datos al realizar test de significancia (test de
permutación, también denominados test exactos, test de aleatoriedad, o pruebas de realeatoriedad).
30
MARCO TEÓRICO

Validar modelos para el uso de subconjuntos aleatorios (bootstrapping, validación
cruzada.
Entre las técnicas comunes de remuestreo se encuentran bootstrapping, jackknifing y
pruebas de permutación.(Good, 2005 )
Un ejemplo de técnica de remuestreo es el Bootstrapping, con esta técnica de validación el
tamaño del conjunto de datos de muestra es preservado por el conjunto de entrenamiento
debido a la selección de objetos con repetición, de esta manera el conjunto de
entrenamiento usualmente consiste en objetos repetidos y el de prueba consta de los objetos
dejados fuera; el modelo es calculado en el set de entrenamiento y las respuestas son
precedidas en el set de prueba, más específicamente, la validación es desarrollada mediante
la creación (aleatoria) varias veces de sets de entrenamiento con repeticiones de muestras y
la evaluación predictiva de respuestas a las muestras no incluidas en el set de
entrenamiento, el resultado de esta técnica es el poder predictivo promedio (Q2boot) , este
parámetro es deseable que sea por lo menos mayor a 0.5.(Efron, 1982, Efron, 1987)
1.2.4.1.8 Revuelto (Y-Scrambling).
Esta técnica de validación se adopta con el objetivo de chequear modelos con posibilidades
de correlación casual (modelos en los que las variables independientes están aleatoriamente
correlacionadas con las variables de respuesta), el nombre Scrambling proviene del verbo
scramble(que significa mezclar en inglés), esta técnica mide la calidad del modelo en
cuestión modificando aleatoriamente el vector de respuesta Y, esto lo hace asignando a
cada objeto una respuesta aleatoriamente seleccionada del vector Y. Los resultados de esta
técnica están caracterizados en términos de correlación de la respuesta mezclada con la
respuesta de los datos sin perturbar. Si el modelo original no tiene ninguna correlación
casual, existirá una diferencia significativa en la calidad del modelo obtenido con respuesta
mezclada aleatoriamente y el modelo original. Este procedimiento consta de numerosas
iteraciones y brinda los parámetros a [Q2] y a [R2]. Los modelos inestables se caracterizan
por valores altos de estos parámetros, mientras que lo contrario ocurre en modelos que
podemos considerar estables.(F.Lindgren et al., 1996)
31
2. MATERIALES
Y MÉTODOS
MATERIALES Y MÉTODOS
CAPÍTULO 2. MATERIALES Y MÉTODOS
En este capítulo se recoge la definición e implementación de nuevos IFIs basados en la
utilización de una Fuente de Información distinta a las reportadas en la literatura, la
programación de los IFIs se realiza usando el lenguaje del software MATLABR2010a(MathWorks, 2010). Se recogen además los métodos estadísticos usados para
analizar las propiedades de los nuevos IFIs propuestos con el objetivo de verificar el
cumplimiento de algunos requerimientos básicos de los DMs.
2.1
Modelado de una base de datos molecular como fuente de información.
Existen distintos criterios que aportan „‟huellas‟‟ diferentes para cada molécula, basándose
en la aparición o no de „‟subestructuras‟‟ o „‟fragmentos‟‟ moleculares diferentes en la
misma, cada huella constituye un vector que contiene tantas posiciones como
„‟fragmentos‟‟ definidos en el criterio y cada una de las posiciones representa la cantidad
de veces que aparecen dichos fragmentos dentro de la estructura molecular en cuestión. La
representación matricial de la base de datos de moléculas es vital para la modelación
matemática como una fuente de información, si se representa una matriz que tiene en sus
filas las moléculas presentes en la base de datos y en las columnas las subestructuras o
fragmentos moleculares definidos para un criterio en específico, la cantidad de veces que
está presente cada „‟fragmento‟‟ en una molécula es la intersección fila-columna, es posible
modelar entonces la fuente de información como se describe a continuación:
32
MATERIALES Y MÉTODOS
Para poder interpretar el análisis de forma sencilla se definirá una analogía entre la base de
datos y por ejemplo el alfabeto del Idioma Ingles. El espacio que contiene todos los
posibles símbolos de salida se denomina el alfabeto de la fuente.
Tabla 2.1. Analogía con el idioma inglés.
Fuente de información
Base de datos de moléculas
Idioma Ingles
Alfabeto o Diccionario
Conjunto de „‟fragmentos‟‟ en la Base
Alfabeto
Símbolo
„‟fragmento‟‟ molecular
Letra
Mensaje
Molécula
Palabra
Dada una matriz M: [mxn] que representa una base de datos de moléculas con una huella
definida para un criterio en específico, analizándola como una fuente de información con
un „‟alfabeto‟‟ de tamaño n, que además produce m mensajes, se puede plantear que:
m
Fa   Kai
i 1
(2.1)
Fa constituye la frecuencia relativa natural de aparición de cada símbolo, donde Ka
representa un símbolo en particular, Kai es el número de veces que aparece el símbolo Ka
dentro de un mensaje cualquiera, a= {1 23…. n} ; por ejemplo: K11 es la cantidad de veces
que aparece el símbolo K1 dentro del mensaje 1. El número total de símbolos producidos
por la fuente se puede calcular como la suma de todas las frecuencias relativas naturales de
aparición de los símbolos, esto es:
N  a1 Fa
n
(2.2)
En un experimento repetido N veces, si el suceso A ocurre m veces, entonces P(A): la
probabilidad de que el suceso A ocurra, se define en la forma:
PA   lim N
m
N
Esta definición de probabilidad se conoce con el nombre de “definición empírica de la
probabilidad”, se conoce también como “la definición de la frecuencia relativa”, por cuanto
define la probabilidad como la frecuencia relativa de ocurrencia del suceso. Nótese que al
definir P(A) se supone implícitamente que el límite N→∞ existe.(Briceño Márquez, 2005)
33
MATERIALES Y MÉTODOS
En este caso, si el evento o suceso Ki ocurre Fa veces dentro de un experimento o espacio
muestral de tamaño N, entonces la probabilidad de ese evento es:
P ( xi ) 
Fa
N
(2.3)
Si los Kn sucesos del experimento son „‟exhaustivos‟‟ entonces se cumple que:

n
i 1
P( xi )  1
(2.4)
P(X) es la función de probabilidad discreta de la variable X (Variable que describe la
frecuencia relativa natural de aparición de cada símbolo), que se define como:
X= {f1 f2 f3…. fn}.
Con la obtención de un vector de probabilidades dado por la función P(X), es posible hallar
la autoinformacion en bits de cada símbolo, Ai. Shannon definió la medida de información
como la función logarítmica(Shannon, 1948):
Ai   log 2 Pxi 
(2.5)
Es posible con los cálculos realizados hasta ahora hallar la entropía (valor medio o esperado
de la información en bits por símbolo) de la fuente de información; la entropía para una
fuente de información discreta, estacionaria (las probabilidades de los símbolos no varían
en el tiempo) y con símbolos estadísticamente independientes entre sí, está definida
como(Shannon, 1948):
H  X   i 1 Pxi  log 2 Pxi  [bits/símbolo]
n
(2.6)
O sea:
H  X   i 1 Pxi  Ai
n
En la Tabla 2.2 se pueden observar los parámetros anteriores hasta la ecuación 2.5.
(2.7)
34
MATERIALES Y MÉTODOS
Tabla 2.2. Modelación matemática de la base de datos como fuente de información
según la variable X.
Moléculas
Ka1
Ka2
Ka3
.
.
Kan
mol.1
1
0
3
.
.
0
mol.2
0
0
2
.
.
0
mol.3
3
2
0
.
.
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
mol.m
1
4
0
.
.
3
Cálculo de parámetros a la representación matricial de la Base molecular.
X
f1
f2
f3
.
.
fn
P(x1)
P(x2)
P(x3)
.
.
P(xn)
a1
a2
a3
.
.
an
N
P(X)
Ai
Si se tiene una variable Y, como variable binaria que describa solamente si un símbolo
aparece o no dentro de cada mensaje, se puede modelar un nuevo tipo de fuente de
información, definiendo Y= {b1 b2 b3….bn b0}, donde b es la frecuencia de aparición
booleana de cada símbolo generado por la fuente y b0 es la frecuencia de conteo del resto
de los símbolos que conforman el mensaje:
En este caso, b se puede calcular usando la ecuación 2.1 con la diferencia de que el conteo
de símbolos se realiza de forma binaria. Si Kbj representa un valor binario que describe la
aparición o no de determinado símbolo y Kaj cuenta el número de veces que está presente el
mismo dentro de un mensaje j cualquiera, entonces K0j se define como:
35
MATERIALES Y MÉTODOS
K0 j 
 K
n
a ,b1
aj
 K bj 
(2.8)
Se puede calcular bo según:
m
b0   K 0 j
j 1
(2.9)
La probabilidad asociada a la variable Y para cada símbolo puede ser entonces calculada
por P (yj), donde:
Py j  
b
N
(2.10)
La probabilidad de la variable de conteo residual y0, se puede calcular como:
P  y0  
b0
N
(2.11)
En concordancia con lo planteado en la condición 2.4, debe cumplirse que:

n
j o
P( y j )  1
(2.12)
A partir de la obtención del vector de probabilidades P (Y), es posible entonces hallar la
autoinformacion Aj de cada símbolo y la entropía H (Y) de la fuente usando las ecuaciones
2.5 y 2.7.
En aras de lograr una mejor comprensión de la anterior formulación matemática, en la
Tabla 2.3 se pueden observar los parámetros anteriores hasta la ecuación 2.11.
36
MATERIALES Y MÉTODOS
37
Tabla 2.3. Modelación matemática de la base de datos como fuente de información según la
variable Y.
Moléculas
Kb1
Kb2
Kb3
.
.
Kbn
K0
mol.1
1
0
1
.
.
0
2
mol.2
0
0
1
.
.
0
1
mol.3
1
1
0
.
.
0
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
mol.m
1
1
0
.
.
1
5
bn
bo
P(Puzyn
P(y0)
Cálculo de parámetros a la representación matricial de la Base molecular.
Y
b1
b2
b3
.
.
P(y1)
P(y2)
P(y3)
.
.
a1
a2
a3
.
.
N
P(yj)
Aj
et al.)
an
a0
2.1.1 Distribución conjunta de probabilidades.
A partir de las distribuciones de probabilidad de X e Y, es posible obtener una distribución
conjunta de probabilidad P(X, Y) siguiendo el siguiente razonamiento:
MATERIALES Y MÉTODOS
Espacios Muestrales de las Variables X e Y
Xi
Yi
Yo
Figura 2.1. Espacios muestrales de las Variables X e Y.
Nótese que las variables X e Y están en el mismo Espacio Muestral, además, la variable Y
es un caso „‟truncado‟‟ de la variable X:
Yi  X i
Por lo tanto, según las expresiones 2.10 y 2.11, la función P(X, Y) se puede definir como:
Pxi , y j   Py j , j  i, j  0
Pxi , y j   Pxi , y0 , j  0
Pxi , y j   0, otros
(2.13)
La función P (xi, y0) se define como:
N
Pxi , y0  
 x , y 
i 1
i
0
N
(2.14)
Esto es la sumatoria de la cantidad de veces que aparece la dupla (xi, y0) sobre el número
total de símbolos producidos por la fuente.
La distribución de probabilidad conjunta P(X, Y) debe cumplir que:
 Px , y   1
n
n
i 1 j 0
i
j
A partir de la ecuación 1.6 es posible calcular la medida de cuánto el conocimiento sobre
una de las dos variables reduce la cantidad de incertidumbre sobre la otra, esto da una idea
38
MATERIALES Y MÉTODOS
de cuan correlacionadas están estas 2 variables. Es posible también con ayuda de las
ecuaciones de entropía condicional 1.10 y 1.11 calcular la cantidad de incertidumbre acerca
de una variable con un conocimiento previo sobre la otra, esto es: cuánto una variable „‟no
dice‟‟ acerca de la otra. La ecuación 1.12 puede interpretarse como una extensión del
coeficiente de correlación lineal entre 2 variables.
2.1.2 Definición de los nuevos IFIs.
Dados el mensaje mol.1:{K1K3K3K3} producido por la fuente de información según la
variable X y el vector Ai= {a1, a2,…, an} (Ver Tabla 2.2), la Información en bits del
mensaje sería:
I mol  a1  3  a3 [bits]
De forma general, cada mensaje producido por la fuente tendría:
n
I ( X ) mol.   K ai  Ai [bits]
i 1
(2.15)
Donde mol= {1 23… m}. Se puede definir entonces otro índice de información derivado
de la ecuación 2.15:
NR( X ) 
I ( X ) mol
 n

  K ai   H ( X )
 i 1

(2.16)
La expresión 2.16 constituye la razón normalizada NR(X) entre la información de un
mensaje y la entropía H(X) de la fuente generadora. Este índice da una idea de que tan
comunes son los símbolos que componen el mensaje dentro del espacio completo de
mensajes producidos por la fuente, si NR(X) <<1 entonces los símbolos son por lo general
bastante comunes, si NR(X) >>1 el mensaje lleva símbolos que aparecen con poca
frecuencia en el resto de los mensajes generados. Es un parámetro adimensional.
39
MATERIALES Y MÉTODOS
Por otra parte, si se tiene el mensaje mol.1:{K1K3K0K0} producido por la fuente de
información según la variable Y, además del vector Aj= {a1, a2,…, an, a0}, (Ver Tabla 2.3)
la Información en bits del mensaje sería:
I mol  a1  a3  2  a0 [bits]
De forma general, cada mensaje producido por la fuente tendría:
I (Y ) mol   K bj  A j   K 0  A0 [bits]
n
j 1
(2.17)
Similarmente a 2.16, se puede plantear que:
NR(Y ) 
I (Y ) mol
 n

  K bj   K 0   H (Y )


 j 1

(2.18)
El índice NR (Y) tiene la misma interpretación que en 2.16.
A su vez, dados los siguientes mensajes, generados según las fuentes de información
basadas en las variables X e Y respectivamente:
mol.1X:{K1K3K3K3}
mol.1Y:{K1K3K0K0}
La Información Mutua Puntual (PMI) entre las duplas (xi, yj) que componen los mensajes,
se puede calcular como(Fano, 1961):
PMI ( xi , y j )  PMI ( x1 , y1 )  PMI ( x3 , y3 )  2  PMI ( x3 , y0 )
Lo cual según 1.6 y 1.9b, se puede expresar como:
n
n
 Pxi , y j  

PMI mol ( xi , y j )   log 2 
 Px   Py  
i 1 j 0
i
j 

(2.19)
El índice PMI da una medida de cuánta información en bits se pierde en el mensaje debido
a la reducción de la incertidumbre sobre una variable a consecuencia del conocimiento de la
40
MATERIALES Y MÉTODOS
otra, para calcular la PMI es necesario hacer uso de las ecuaciones 2.3, 2.10, 2.11, 2.13 y
2.14.
La PMI puede ser normalizada entre [-1,+1], los valores límite -1 y 1 significan que las
variables nunca o siempre ocurren juntas respectivamente, un valor de 0 indicaría que son
independientes.(Fano, 1961) La PMI Normalizada promedio (NAPMI) en un mensaje dado
puede definirse como:
n
PMI mol xi , y j 
n
NAPMI mol ( xi , y j )  
i 1 j 0
(2.20)
n


  log Pxi , y j    K aj 


j 1




En caso de que este índice tenga un valor de 1 para determinado mensaje, significa que los
símbolos que conforman el mismo, tienen un comportamiento totalmente binario (de
aparecer, solo lo hacen una vez).
Los nuevos IFIs propuestos quedan recogidos en la Tabla 2.4.
Tabla 2.4. Nuevos IFIs propuestos.
Moléculas
I(X)mol
NR(X)
I(Y)mol
NR(Y)
PMI mol(X,Y)
NAPMImol(X,Y)
mol.1
ix1
nrx1
iy1
nry1
pmimol1
napmimol1
mol.2
ix2
nrx2
iy2
nry2
pmimol2
napmimol2
mol.3
ix3
nrx3
iy3
nry3
pmimol3
napmimol3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ixm
nrxm
iym
nrym
pmimol.m
napmimol.m
mol.m
2.2
Implementación del algoritmo para el cálculo de los nuevos IFIs.
Los IFIs propuestos en este trabajo han sido implementados y automatizados en un
algoritmo de varias funciones auxiliares llamado ITD.m (Information Theory Descriptors)
41
MATERIALES Y MÉTODOS
usando el lenguaje de programación del software MATLABR2010a (acrónimo de MATrix
LABoratory).El algoritmo procesa uno o varios ficheros de datos (Bases de datos de
moléculas según distintos criterios de partición) separados por comas, con extensión *.csv y
devuelve una Hoja de cálculo de Excel, con extensión *.xls, donde se recogen los IFIs
propuestos para cada molécula de la Base. El diagrama de flujo del algoritmo ITD es el que
se muestra a continuación:
Figura 2.1. Diagrama de flujo del algoritmo ITD.m.
Para el cálculo de los nuevos IFIs se desarrollaron 10 funciones auxiliares (Ver Anexos). A
continuación se muestra el diagrama donde se puede observar la jerarquía funcional del
algoritmo creado.
findmq.m
lltítulos.m
llenado.m
ITD.m
IFIs.m
lldatos.m
match.m
títulos.m
Figura 2.2. Jerarquía Funcional ITD.
probvector.m
putIFnames.m
arreglar.m
42
MATERIALES Y MÉTODOS
2.3
Análisis a posteriori de las propiedades de los IFIs obtenidos.
Después de definidos los nuevos IFIs, es necesario analizar si cumplen con los
requerimientos básicos para un DM planteados por Randić(Randić, 1991) , para esto se
realizaron algunos estudios estadísticos de naturaleza distinta con el objetivo de comprobar
su calidad y cuán bien codifican la información estructural química, además se realiza una
comparación con los otros IFIs definidos en la literatura. Para la comparación se usaron los
índices implementados en el software DRAGON,(Todeschini et al., 2002) el DRAGON es
un software representativo en el campo de los DMs ya que posee una colección diversa y
numerosa de DMs entre los que se encuentran definidos los únicos 47 IFIs existentes en la
actualidad.
2.3.1 Estudio basado en el AV.
Una forma de comprobar la calidad de los 6 IFIs propuestos es medir de alguna forma la
variabilidad de los mismos, para esto se puede hallar la Entropía de Shannon al conjunto de
IFIs calculados a una Base molecular lo suficientemente grande. Se empleó un AV por
medio del software IMMAN(Barigye et al., 2011). Con esta técnica se estimó la cantidad
de información codificada por los diferentes parámetros moleculares, como entidades
independientes y luego se compararon los valores entrópicos de estos. Es importante en
este método definir el número de intervalos discretos a emplear (esquema de binning), el
cual es único para todas las variables que se comparen, en este caso se analizó una Base
molecular de 1940 moléculas (Spectrum), por lo que el esquema de binning usado fue
precisamente de 1940 intervalos, esta técnica permite que los DMs de diferentes unidades y
rangos de valores sean comparables. Adicionalmente, para comparaciones lógicas, es
deseable que los conjuntos de datos que se comparen tengan el mismo número de variables,
de no ser así, es necesario aplicar puntos de corte según la cantidad mínima de
variables.(Barigye, 2013). Finalmente los mejores 5 IFIs en cuanto a variabilidad fueron
seleccionados para validarlos en análisis estadísticos posteriores.
2.3.2 Estudio basado en el ACP.
El método de ACP fue desarrollado con la ayuda del software STATISTICA
(StatSoft, 2011) y la estrategia rotacional usada para obtener la carga de los factores a partir
del análisis de factores fue la de „‟varianza máxima normalizada‟‟, el objetivo de este
43
MATERIALES Y MÉTODOS
procedimiento rotacional es obtener un patrón lo más claro posible de cargas( Por ejemplo:
factores marcados con alta carga para algunas variables y baja carga para otras) sin que se
pierda la ortogonalidad entre los factores. Para hallar el número máximo de factores se usó
el criterio de Kaiser(Kaiser, 1960 ), este criterio es el más comúnmente usado y plantea
que: ‘’Se deben retener solo los factores con valores propios mayores a 1, esto es que
logren representar al menos el contenido de una variable original ‘’, para este estudio se
hallaron solamente 10 factores. La Base molecular utilizada fue PrimScreen15, con 15000
moléculas originalmente, las cuales, después de un proceso de limpieza quedaron en 13750.
Las comunalidades (carga de factores) que se tuvieron en consideración fueron las mayores
a 0.7. Fueron comparados los 5 nuevos IFIs escogidos del AV con el conjunto de 47 IFIs
del software DRAGON en base a la información estructural captada por los mismos, para
ello se calcularon 92 variables(45=9 criterios de partición *5 IFIs nuevos escogidos+47
IFIs del DRAGON).
2.3.3 Estudio basado en la Modelación QSPR usando RLM-AG.
Para esta modelación se utilizó la Base de Datos de 34 moléculas derivadas del compuesto
2-Furiletileno, esta base de moléculas ha sido utilizada por muchos autores para validar los
IFIs propuestos en la literatura. Se definieron 90 variables independientes(18 criterios de
partición*5 IFIs) y una variable dependiente (propiedad experimental LogP) con el objetivo
de evaluar la capacidad predictiva del coeficiente de partición octanol/agua (LogP)
partiendo de los IFIs propuestos, los modelos predictivos se calcularon usando el software
Moby-Digs(Todeschini et al., 2004). La herramienta de optimización estocástica usada fue
la Regresión Lineal Múltiple con Algoritmo Genético (RLM-AG) y la configuración del
AG empleada fue:

Tamaño inicial de la población: 100 cromosomas (variables). El AG converge
rápidamente (200 generaciones).

Probabilidad de cruzamiento/mutación: 0.7.

Número de iteraciones: Los modelos QSPR convergieron en este caso en un número
5
6
elevado de iteraciones comprendido entre: 5  10  iteraciones  1  10
44
MATERIALES Y MÉTODOS
Los modelos obtenidos del AG fueron optimizados evaluando su poder predictivo usando
el método de Validación Cruzada „‟dejando uno fuera‟‟:Q2loo, la validación de los modelos
finales se realizó por medio de las técnicas de Remuestreo o bootstrapping (Q2boot) y
revuelto o Y-Scrambling [a (R2), a (Q2)]. La búsqueda de los mejores modelos finales
puede basarse en términos del coeficiente de correlación más elevado (R2), o en ecuaciones
de la razón F (razón de Fisher) más elevada. Muchos autores consideran elevados valores
de Q2loo (por ejemplo, Q2loo > 0.5) como un indicador de elevado poder predictivo de un
modelo QSAR/QSPR. Sin embargo, es conocido que esta afirmación es solo cierta para
datas pequeñas (< de 100 casos), y que en datas de gran dimensionalidad solo es una
condición necesaria pero no suficiente para afirmar que un modelo posee un adecuado
poder predictivo.(Golbraikh and Tropsha, 2002)
Finalmente se escogieron los modelos de 7, 6, 5, 4, 3 y 2 variables independientes con
mejor poder predictivo Q2 , mejor poder predictivo promedio Q2boot, coeficiente R2 más
elevado y valores más bajos de a (R2) y a (Q2). Hay que destacar que todos estos
parámetros para elegir el modelo varían de forma distinta y por lo tanto es necesario
mantener un nivel de compromiso a la hora de elegir los mejores modelos.
45
3. RESULTADOS Y
DISCUSIÓN
RESULTADOS Y DISCUSIÓN
CAPÍTULO 3. RESULTADOS Y DISCUSIÓN
En este Capítulo se recogen los resultados de distintos métodos estadísticos realizados a
los nuevos IFIs propuestos y calculados a distintas bases moleculares, se analizan los
valores entrópicos calculados para las 9 fuentes de información modeladas; se comparan los
resultados obtenidos con otros IFIs definidos anteriormente en la literatura y se realiza una
modelación QSPR con modelos de regresión obtenidos a partir del cálculo de los mismos.
3.1
Análisis de los resultados obtenidos según las fuentes de información analizadas.
Con el cálculo de los IFIs a distintas bases moleculares se obtuvieron además las entropías
de intersección, unión y condicionales de la distribución conjunta de probabilidad entre las
2 variables definidas X e Y, lo cual da una idea de la relación real entre las mismas.
Como se muestra en la tabla 3.1, de los valores obtenidos para las entropías de las 9 bases
moleculares (9 criterios) se puede concluir que:
1.
En la fuente de información basada en la base molecular del criterio PubChem, la
cantidad de incertidumbre acerca de una variable después de conocida la otra es nula, por lo
que la cantidad de incertidumbre reducida sobre una variable con el conocimiento previo de
la otra es máximo y en este caso:
H(X) = H (Y) = I(X; Y) = H(X, Y)
Es decir que el valor promedio de la información de cada una de las variables coincide, esto
se debe a que en realidad los símbolos que produce esta fuente solo aparecen en forma
booleana dentro de un mensaje, lo cual hace que los valores para las variables X e Y
definidas anteriormente sean exactamente iguales.
2.
En todas las fuentes de información analizadas, la cantidad de incertidumbre acerca
de la variable X después de conocida la Y es mayor que la cantidad de incertidumbre acerca
46
RESULTADOS Y DISCUSIÓN
de la variable Y después de conocida la X, nótese que precisamente la entropía H (Y/X)
presenta en todos los casos un valor inferior a la unidad debido a la propia naturaleza de las
variables Y e X (ver epígrafe 2.1).
Tabla 3.1. Entropías mutuas de (X, Y) para 9 Fuentes de Información distintas.
Criterios de partición
I(X;Y)
H(X,Y)
H(X/Y)
H(Y/X)
AlogP
2.45050124
5.24497505
2.07763195
0.71684186
Elements
0.51056413
1.80615358
0.8102189
0.48537056
Estate
2.07762711
4.09402116
1.17974996
0.83664408
Klekota
2.91865198
8.17899667
4.54037699
0.7199677
MACC
1.15441139
5.66877494
4.02000135
0.4943622
PubChem
8.23163316
8.23163316
0
0
Subestructure
1.14291561
4.08929091
2.35929836
0.58707694
TPSA
2.76569182
4.20200696
0.68259061
0.75372454
XlogP
2.84427307
5.26091561
1.64446146
0.77218108
3.2
Análisis de Variabilidad (AV) de los nuevos IFIs.
Es necesario comparar los nuevos IFIs propuestos entre sí en base a seleccionar los 5 IFIs
con patrones de distribución más variables, para esto fueron calculadas 18 variables (una
por cada criterio de partición utilizado) a cada nuevo IFI, se usó una Base molecular de
1940 moléculas, por lo que a partir del esquema de binning propuesto, la entropía máxima
alcanzable (suponiendo equiprobabilidad para cada intervalo) se calcula como:
H M  log 2 1940  10.92[bits]
Como se puede observar en la Figura 3.1, los IFIs resultado de la normalización: NR (Y),
NR(X) y NAPMI presentan una entropía máxima de 9.395, 8.94 y 9.39 bits
47
RESULTADOS Y DISCUSIÓN
respectivamente, a su vez los índices I (Y), I(X) y PMI presentan valores de entropía
máxima de 9.2935, 9.2135 y 9.4382 bits respectivamente; a medida que aumenta el número
de variables, los patrones de distribución de los índices resultados de la normalización
disminuyen su entropía, por lo que presentan una variabilidad menor a los otros IFIs
propuestos; del total de índices, el que presenta peor variabilidad es el NAPMI debido a
que existen criterios de partición en los que el comportamiento de los símbolos es
booleano, por lo que de las 18 variables calculadas para este IFI hay algunas que tienen el
mismo valor de 1 para todas las moléculas de la base molecular analizada. Finalmente se
seleccionan los otros 5 IFIs: NR(X), NR (Y), I(X), I (Y) y PMI para llevar a cabo los otros
análisis estadísticos de esta investigación.
Figura 3.1. Distribución de Shannon de los 6 nuevos IFIs propuestos.
3.3
Análisis del contenido de Información estructural captada por los nuevos IFIs.
Comparación con los índices del DRAGON.
A partir del Análisis de Componentes Principales aplicado a los nuevos IFIs escogidos y a
los del DRAGON usando la data PrimScreen15, se obtuvieron 10 factores, los cuales
explican aproximadamente el 89.09 % de la varianza acumulada de las variables. En la
48
RESULTADOS Y DISCUSIÓN
Tabla 3.2 se muestran los valores propios y los porcientos de la varianza explicada por los
10 factores.
Tabla 3.2. Resultado del análisis de factores usando el método de componentes
principales para los 5 nuevos IFIs y los definidos en el DRAGON.
Valor
% Varianza
Valor Propio
%Varianza
Propio
Total
Acumulativo
Acumulativa
1
32.36643
35.18091
32.36643
35.18091
2
20.53164
22.31701
52.89808
57.49791
3
9.19296
9.99235
62.09104
67.49026
4
4.72999
5.14129
66.82103
72.63155
5
4.21439
4.58086
71.03542
77.21242
6
2.80252
3.04621
73.83794
80.25863
7
2.51346
2.73203
76.35140
82.99065
8
2.31116
2.51213
78.66256
85.50278
9
1.87768
2.04096
80.54024
87.54374
10
1.43001
1.55436
81.97026
89.09810
Factor
Analizando los componentes principales (factores) se tiene que: aproximadamente el 74.5%
de los índices del DRAGON están fuertemente cargados en los Factores 1 y 2, explicando
en conjunto el 57.49% de la varianza total, el 4.25% de los IFIs del DRAGON están
cargados en el factor 4 explicando solo el 5.14% de la varianza total y hay un 21,28% de
estos índices que no tiene carga significativa en ningún factor ; por otro lado, el 8.88% de
los nuevos IFIs están fuertemente cargados en el Factor 1 (35.18%) , el 40.00% en los
Factores 3 al 9(20.05%) y hay un 42.22% de estos índices que no tienen carga significativa
en ningún factor . Más específicamente, de los IFIs del DRAGON: las familias de índices
49
RESULTADOS Y DISCUSIÓN
basadas en la composición atómica de la molécula y en la distancia entre los grafos
moleculares dentro de la representación topológica de la molécula, están en su totalidad
cargados en el Factor 1(32.72%). En el Factor 1 aparecen cargados además, los descriptores
derivados del grado de los vértices de los átomos en la estructura, de la matriz de distancias
topológicas entre pares de átomos, los IFIs Balaban (U, V, Y, X) y los índices de simetría
de vecindad de orden 0. Los IFIs basados en la simetría de vecindad de orden 1 y 2 están
fuertemente cargados en el Factor 1 y el Factor 3 (9.99235%). Los índices basados en la
simetría de vecindad de orden 3, 4 y 5 están fuertemente cargados en el Factor 1 y el Factor
2 (57.49791%).
A su vez, de los nuevos IFIs propuestos, las familias de índices de los criterios AlogP y
XlogP están fuertemente cargados en el Factor 1 y el Factor 4(5.14129%), además la
familia de índices basada en el criterio TPSA aparece cargada en los Factores 5(4.58086%)
y 8(2.51213%), por último las familias de índices basados en los criterios: Elements, Estate,
Klekota, MACC, PubChem y Substructure están fuertemente cargados en los Factores 3, 5,
6(3.04621%), 8, 7(2.73203%) y 9(2.04096%) respectivamente.
3.4
Modelación QSPR basada en los nuevos IFIs. Comparación con los modelos
obtenidos de los IFIs del DRAGON.
A partir de los resultados obtenidos de la modelación QSPR, las mejores variables fueron
agrupadas y se seleccionaron los mejores modelos predictivos de la propiedad Log P con
7, 6, 5, 4, 3, y 2 variables para cada grupo de índices. Los resultados de la comparación son
mostrados en la tabla 3.3. Como puede apreciarse en la tabla 3.3, los modelos obtenidos en
base a los nuevos IFIs propuestos, poseen todos mejores indicadores que los respectivos
modelos obtenidos a partir del software DRAGON.
Cabe destacar que todos los modelos de regresión obtenidos a partir de los nuevos IFIs son
mucho más confiables que los derivados de los índices de información definidos hasta
ahora en la literatura, esto se debe a que la razón F entre la varianza explicada por los
modelos para cada valor de N y la varianza residual (varianza del error), presenta valores
bastante mayores a los respectivos modelos basados en los IFIs del software DRAGON.
50
RESULTADOS Y DISCUSIÓN
En la tabla 3.3 se ve como los modelos derivados de los nuevos IFIs presentan coeficientes
respectivos de Q2 (Poder predictivo o Varianza total de la validación cruzada) y Q2boot
(Poder predictivo promedio) superiores al mejor modelo obtenido a partir de los 47 IFIs
definidos actualmente en la literatura.
Es relevante también el hecho de que todos los modelos predictivos finales para los nuevos
IFIs presentan un poder predictivo promedio superior al 70%( por encima de la condición
de 50 %), a diferencia de los IFIs implementados en el software DRAGON.
51
RESULTADOS Y DISCUSIÓN
52
Tabla 3.3. Comparación de los indicadores para los mejores modelos de la propiedad Log P en la base de moléculas 2furietiletilenos.
IFIs
N
R2
Q2loo
Q2boot
Nuevos IFIs
7
0.9791
0.9627
0.9467
F
174.14
Modelo
Log P = 0.1123(±0.99923) + 0.05429 (±0.00549)
I_X_Fi_KA_ES -1.98401(±0.31836)
NR_I_X_Fi_KA_H_S +0.02419(±0.00514)
PMI_Fi_KA_H_S -3.36944(±0.55761)
NR_I_X_Fi_KA_H_T -0.00495(±0.00061)
I_X_Fi_KA_P +4.53851(±0.73336)
NR_I_Y_Fi_KA_S -0.14997(±0.02394)
PMI_Fi_KA_T
6
0.9770
0.9571
0.9510
191.25
Log P = 0.23842(±1.05066) + 0.08389(±0.00467)
I_X_Fi_KA_ES -0.05331(±0.00701)
I_X_Fi_KA_H_ES + 2.18896(±0.37388)
NR_I_X_Fi_KA_H_ES -0.00578(±0.00052)
PMI_Fi_KA_H_P -6.5002(±0.29554)
NR_I_X_Fi_KA_H_T +4.24179(±0.6706)
NR_I_Y_Fi_KA_S
RESULTADOS Y DISCUSIÓN
53
Tabla 3.3.(Continuación)
IFIs
Nuevos IFIs
N
R2
Q2loo
Q2boot
5
0.968
0.9488
0.9344
F
168.60
Modelo
Log P = 0.40334(±1.18498) + 0.07465(±0.00473)
I_X_Fi_KA_ES -4.76991(±0.43988)
NR_I_X_Fi_KA_H_T -0.00502(±0.00061)
PMI_Fi_KA_P +4.30219(±0.72883)
NR_I_Y_Fi_KA_S -0.08598(±0.01448)
I_X_Fi_KA_T
4
0.9274
0.8980
0.8886
92.57
Log P = -2.01298(±1.64319) + 0.06113 (±0.00612)
I_X_Fi_KA_ES -0.00576(±0.00088)
I_Y_Fi_KA_H_P +6.40351(±0.94055)
NR_I_Y_Fi_KA_S -6.46507(±0.49397)
NR_I_X_Fi_KA_T
3
0.8619
0.8276
0.7324
62.40
Log P = 2.96247(±0.8934) + 0.02675(±0.00237)
I_X_Fi_KA_A +0.1387(±0.01941)
PMI_Fi_KA_EL -0.00521(±0.0011)
I_Y_Fi_KA_P
RESULTADOS Y DISCUSIÓN
54
Tabla 3.3.(Continuación)
IFIs
Nuevos IFIs
N
R2
Q2loo
Q2boot
F
2
0.8040
0.7635
0.7595
63.5646
Modelo
Log P = 3.42083(±0.69914) + 0.04813(±0.0056)
PMI_Fi_KA_H_S -5.73286(±0.61973)
NR_I_X_Fi_KA_H_T
IFIs DRAGON
7
0.884
0.747
0.628
28.22
Log P = - 66.0347 (±7.8796) -59.6957 (±5.7647)
AAC + 0.9001 (±0.3971)
IDDE + 20.3886 (±2.7804)
IDDM - 0.3027 (±0.0597)
Uindex + 254.7160 (±23.7811)
BIC0 + 0.0883 (±0.0088)
TIC2 + 1.9215 (±0.3232)
CIC5
RESULTADOS Y DISCUSIÓN
55
Tabla 3.3.(Continuación)
IFIs
IFIs DRAGON
N
R2
6
0.859
Q2loo
0.728
Q2boot
0.646
F
27.37
Modelo
Log P = - 51.0329 (±6.2716) -56.6744 (±6.1604)
AAC + 18.2024 (±2.1853)
IDDM - 0.0014 (±2.7804)
IDMT + 239.1162 (±25.0312)
BIC0 + 0.1131 (±0.0128)
TIC3 - 2.6285 (±0.4250)
IC5
5
0.816
0. 678
0.510
24.8
Log P = - 66.2169 (±9.5872) + 0.3208 (±0.0418)
IAC - 68.5296 (±8.0362)
AAC + 23.9184 (±3.4520)
IDDM - 0.4121 (±0.0770)
Uindex + 267.1489 (±31.2452)
BIC0
RESULTADOS Y DISCUSIÓN
56
Tabla 3.3.(Continuación)
IFIs
IFIs DRAGON
N
R2
Q2loo
4
0.718
0. 555
Q2boot
0.330
F
18.44
Modelo
Log P = - 66.0088 (±10.2806) - 33.3703 (±5.7960)
AAC + 26.4569 (±5.7758)
HDcpx + 7.5201 (±1.2782)
CIC0 + 182.0227 (±28.0688)
BIC0
3
0.502
0. 317
0.265
10.07
Log P = 23.7391 (±4.6790) - 135.7864 (±28.3305)
Vindex + 32.9117 (±7.1460)
Yindex -1.1398 (±0.5066)
IC1
2
0.456
0. 318
0.306
13.02
Log P = 23.1775 (±4.5021) - 64.9841 (±14.7787)
Xindex + 17.0750 (±4.2112)
Yindex
RESULTADOS Y DISCUSIÓN
Según los resultados obtenidos en los estudios 3.3 y 3.4 se puede concluir que: los nuevos
IFIs logran captar información codificada dentro de la estructura química que hasta el
momento no era captada por los índices existentes y los modelos de RLM obtenidos del
estudio QSPR a partir de los nuevos IFIs, presentan propiedades predictivas muy superiores
a los derivados de los índices de información implementados en el software DRAGON.
57
CONCLUSIONES Y RECOMENDACIONES
CONCLUSIONES Y RECOMENDACIONES
Conclusiones
La realización de este trabajo permitió arribar a las siguientes conclusiones:
1.
Es posible obtener novedosos índices de información a partir del modelado de las
bases de datos moleculares como fuentes de información, los nuevos IFIs derivados
del análisis de un patrón estadístico de la estructura química y de las ecuaciones de
Shannon logran captar gran parte de la información química codificada dentro de la
estructura molecular.
2.
Los nuevos IFIs, basados en los criterios de partición de la estructura química:
Elements, Estate, Klekota, MACC, PubChem y Substructure son ortogonales entre
ellos y ortogonales a cualquier otro IFI definido anteriormente, por lo que codifican
información estructural completamente distinta al resto.
3.
De los índices del DRAGON solamente los basados en la simetría de vecindad de
orden 3, 4 y 5 captan información estructural que no captan los nuevos IFIs.
4.
Los índices basados en los criterios de partición AlogP y XlogP son colineales entre
sí, por lo tanto captan la misma información estructural.
5.
Los resultados obtenidos en la modelación QSPR sugieren que los nuevos IFIs
podrían ser importantes para predecir propiedades físico-químicas, biológicas o
químicas de determinadas moléculas, los poderes predictivos calculados de los
modelos para la propiedad Log P(de cierta importancia en descubrimientos
farmacéuticos) así lo demuestran.
58
CONCLUSIONES Y RECOMENDACIONES
Recomendaciones
Ya concluido este trabajo, sería pertinente hacer la siguientes recomendaciones.
1.
Profundizar en el estudio y la creación de nuevos IFIs para explotar las
potencialidades y futuro que tiene esta área de investigación, así como validar la
calidad de los índices propuestos en otras bases de datos no usadas en esta
investigación.
2.
Programar una aplicación visual o interfaz de usuario para el algoritmo creado en
MATLAB, con el objetivo de lograr una mejor interacción en el cálculo de los
nuevos IFIs.
3.
Usar este documento como una guía para el estudio de futuras definiciones de
descriptores moleculares basados en la aplicación de patrones estadísticos y en las
ecuaciones de información de Shannon, así como para la validación de la calidad de
los IFIs usando diversos métodos estadísticos.
59
REFERENCIAS BIBLIOGRÁFICAS
REFERENCIAS BIBLIOGRÁFICAS
1.
ALZINA, R. B. 1989. Introducción conceptual al análisis multivariable. Un enfoque
informático con los paquetes SPSS-X, BMDP, LISREL Y SPAD. Barcelona.
2.
ARKHANGEL'SKII, A. V. & PONTRYAGIN, L. S. 1990. General Topology I:
Basic Concepts and Constructions Dimension Theory, Springer.
3.
BARIGYE, S. J. 2013. Teoria de Información en la codificación de la estructura
química. Tesis Doctoral, UCLV.
4.
BARIGYE, S. J., MARRERO-PONCE, Y., MARTINEZ-LOPEZ, Y., ARTILES-
MARTINEZ, L. M., PINO-URIAS, R. W., MARTINEZ-SANTIAGO, O. & TORRENS, F.
2013. Relations Frequency Hypermatrices in Mutual, Conditional and Joint Entropy-Based
Information Indices. . Comput. Chem., 34, 259-274.
5.
BARIGYE, S. J., PINO URIAS, R. W. & MARRERO-PONCE, Y. 2011. IMMAN
(Information Theory based Chemometric Analysis). 1.0 ed. Universidad Central de Las
Villas(UCLV): CAMD-BIR Unit.
6.
BASILEVSKY, A. 1994. Statistical Factor Analysis and Related Methods. New
York: Wiley.
7.
BRICEÑO MÁRQUEZ, J. E. 2005. Principios de las Comunicaciones. In: ULA (ed.)
3 ed. Mérida Facultad de Ingeniería.ULA.
8.
CARLSON, A. B. 1992. Sistemas de Comunicaciones. Introducción a las señales y al
ruido en las comunicaciones electricas. In: EDITORIAL-REVOLUCIÓN (ed.) Segunda
Edición en Español ed.
60
REFERENCIAS BIBLIOGRÁFICAS
9.
CARLSON, A. B., CRILLY, P. B. & RUTLEDGE, J. C. 2002. Communication
Systems. In: MC-GRAW-HILL (ed.) An Introduction to Signal and Noise in Electrical
Communication. 4 ed.
10.
DEVIJVER, P. A. & KITTLER, J. 1982. Pattern Recognition: A Statistical
Approach, London, Prentice-Hall.
11.
EFRON, B. 1982. The Jackknife: the Bootstrap and Other Resampling Planes.
Journal of American Statistical Association, 77, 160-172.
12.
EFRON, B. 1987. Journal of American Statistical Association, 82, 171-200.
13.
F.LINDGREN, B.HANSEN, W.KARCHER, M.SJÖSTRÖM & L.ERIKSSON 1996.
Chemometrics, 10, 521-532.
14.
FANO, R. M. 1961. Transmission of Information: A Statistical Theory of
Communications. Cambridge, MA: MIT Press.
15.
FRANK, I. E. & FRIEDMAN, J. H. 1993. A Statistical View of Some Chemometrics
Regression Tools. Technometrics., 35, 109-135.
16.
FRANK, I. E. & TODESCHINI, R. 1994. The Data Analysis Handbook.
Amsterdam.The Netherlands: Elsevier.
17.
FRANKE, R. 1984. Theoretical Drug Design Methods. Amsterdam, Elsevier.
18.
GODDEN, J. W., STAHURA, F. L. & BAJORATH, J. 2000. Variability of
Molecular Descriptors in Compound Databases Revealed by Shannon Entropy
Calculations. J. Chem. Inf. Comput. Sci., 40, 796-800.
19.
GOLBRAIKH, A. 2000. Molecular Dataset Diversity Indices and Their Applications
to Comparison of Chemical Databases and QSAR Analysis. Chem. Inf. Comput. Sci., 40,
414-425.
20.
GOLBRAIKH, A. & TROPSHA, A. 2002. Beware of Q2 ! Journal of Molecular
Graphics and Modelling, 20, 269-276.
21.
GOLDBERG, D. E. 1989. Genetic Algorithms in Search, Optimization and Machine
Learning. Massachusetts: Addison-Wesley.
22.
GOOD, P. 2005 Introduction to Statistics Through Resampling Methods and R/S-
PLUS.: Wiley
23.
KAISER, H. F. 1960 The application of electronic computers to factor analysis.
Educational and Psychological Measurement.
61
REFERENCIAS BIBLIOGRÁFICAS
24.
KORNAI, A. 2001. Mathematical Linguistics. Available: http://www.helsinki.fi.
25.
KUBINYI, H. 1996. Evolutionary variable selection in regression and PLS analyses.
J. Chemom., 10, 119-133.
26.
KULLBACK, S. & LEIBLER, R. A. 1951. On information and sufficiency. Ann.
Math. Stat., 22, 79-86.
27.
LI, W. 1990. Mutual Information functions versus correlations functions. Journal of
Statistical Physics, 60, 823-837.
28.
MALINOWSKI, E. R. & HOWERY, D. G. 1980. Factor Analysis in Chemistry New
York Wiley-Interscience.
29.
MATHWORKS 2010. MATLAB. 7.10.0.499 ed.
30.
MATTELART, ARMAND & MICHELLE. 1988. Historia de las Teorías de la
Comunicación. Available: http://carmonje.wikispaces.com.
31.
MERHAV, N. 2010. Statistical Physics and Information Theory. Foundations and
Trends in Communications and Information Theory, 6, 1-212.
32.
NAKANO, T. & LIU, J.-Q. 2010. Design and Analysis of Molecular Relay Channels:
An Information Theoretic Approach. IEEE Transactions on Nanobioscience, 9.
33.
PUZYN, T., LESZCZYNSKI, J. & CRONIN, M. T. D. 2010. Recent Advances in
QSAR Studies. In: LESZCZYNSKI, J. (ed.) Methods and Applications. Springer.
34.
PYLE, D. 1999. Data Preparation for Data Mining. In: HERSHEY (ed.).
35.
RANDIĆ, M. 1991. Generalized molecular descriptors. . Math. Chem. , 7, 155-168.
36.
REFAEILZADEH, P., TANG, L. & LUI, H. 2008. k-fold Cross-Validation.
37.
SHANNON, C. E. 1948. A Mathematical Theory of Communication.
The Bell
System Technical Journal, 27, 379-423,623-656.
38.
STATSOFT, I. 2011. STATISTICA (data analysis software system). 10 ed.
39.
TODESCHINI, R., BALLABIAO, D., CONSONNI, V., MAURI, A. & PAVAN, M.
2004. MobyDigs. 1.0 ed.: Talete.
40.
TODESCHINI,
R.
&
CONSONNI,
V.
2009.
Molecular
descriptors
for
ChemoInformatics. 2 ed.: Wiley-VCH.
41.
TODESCHINI, R., CONSONNI, V. & PAVAN, M. 2002. DRAGON Talete. 5.5 ed.
Milano.Italy: Milano Chemometric and QSAR Research Group.
62
REFERENCIAS BIBLIOGRÁFICAS
42.
VAN MARLEN, G. & DIJKSTRA, A. 1976. Information Theory Applied to
Selection of Peaks for Retrieval of Mass Spectra ANALYTICAL CHEMISTRY, 48.
63
ANEXOS
ANEXOS
Anexo I
Implementación en MatlabR2010a de la función principal ITD.m
function ITD
global IF Nl DATAr DATAc TEXTc ct;
%Función ITD (Information Theory Descriptors) para calcular los IFIs definidos a una
base de moléculas según distintos criterios
%La tabla con los resultados quedara en la carpeta IFIs Universales del Desktop
disp ('Coloque la Base de datos de moléculas en C:\Users\feyt\Desktop\Base de Datos');
disp ('Coloque la(s) Base de moléculas para Espacio Muestral en E:\TESIS\Bases de datos
de moléculas');
cd ('C: \Users\feyt\Desktop\Base de Datos');
IF=
{'I_X','NR_X','I_Y','NR_Y','PMI','NA_PMI'};
%Nombres
de
los
índices
de
información definidos
R=dir ('*.csv');
N= {R.name};
l=length (N);
[DATAr, ct]=findmq (N, l);
mn =ct (:, 1);
TEXTc=7*l;
DATAc=6*l;
vp=input ('Espacio muestral: \n 1-propio\n 2-spectrum\n 3-PRINT SCREEN 15\n 4-dRUG
BANK all\n :');
if vp==2
Base='E: \TESIS\Bases de datos de moléculas\spectrum';
elseif vp==3
64
ANEXOS
Base='E: \TESIS\Bases de datos de moléculas\PRINT SCREEN15';
elseif vp==4
Base='E: \TESIS\Bases de datos de moléculas\dRUG BANK all';
elseif vp==1
Base='C: \Users\feyt\Desktop\Base de Datos';
end
%Salida
[Rowtitle]=títulos(N);
[DATAIMPo]=llenado (Base);
[DATAIMPFIXED]=match (ct, DATAIMPo);
cd ('C: \Users\feyt\Desktop\IFIs Universales');
xlswrite ('tablaalg3.xls', Rowtitle,'Hoja','B1');
xlswrite ('tablaalg3.xls', mn,'Hoja','A1');
xlswrite ('tablaalg3.xls', DATAIMPFIXED,'Hoja','B2');
end
Anexo II Implementación en MatlabR2010a de la función findmq.m
function [u, Tref] =findmq (V, Vt)
%Función para hallar la cantidad máxima de moléculas que tendrá la base de datos
x=zeros (1, Vt);
y=zeros (1, Vt);
TITLES=num2cell (zeros (1, Vt));
for i=1:1: Vt
A=importdata (V {1, i},',',1);
B=A.data;
[m, n]=size (B);
x (i) =m;
T=A.textdata;
TITLES {i} =T;
[m, n]=size (T);
y (i) =m;
65
ANEXOS
end
[u, I]=max(x); %Esta función devuelve en ''I'' el valor máximo de x y en ''C'' su posición
% u es la máxima cantidad de moléculas en la base.
[C, Trefi]=max (y);
Tref=TITLES {1, Trefi}; %Referencia para comparar y arreglar los nombres de las
moléculas para cada criterio
end
Anexo III Implementación en MatlabR2010a de la función títulos.m
function [CAT] =títulos.m(X)
global IF;
t=strtok(X,'.csv'); %Quitarle la extensión .csv
t= strrep (t, 'Fi_KA', ''); %Quitarle la cabecera 'Fi_KA'
[nombres]=putIFnames.m (t);
CAT=zeros (1, length (IF)*length (nombres));
CAT=num2cell (CAT);
x=0;
for i=1:1: length (nombres)
for j=1:1: length (IF)
x=x+1;
CAT {1, x} =horzcat (IF {1, j},'_Fi_KA', nombres {1, i});
end
end
66
ANEXOS
Anexo IV Implementación en MatlabR2010a de la función llenado.m
function [LLo, h1, h2, h3, h4]=llenado(X)
global DATAr DATAc TEXTc l;
DATA=num2cell (zeros (DATAr, DATAc));
TEXT=num2cell (zeros (DATAr+1, TEXTc));
DATAIMP=num2cell (zeros (size (TEXT)));
B=X;
%Hallar vector de probabilidades y Llenado de Datos
[DATAo, h1, h2, h3, h4]=lldatos (DATA, B);
%Llenado de Títulos;
TEXTo=lltitulos (TEXT);
x=0;
y=0;
%Llenado de Datos + Títulos
for i=1:1: l
x=x+7;
y=y+6;
DATAIMP (: , x-6)=TEXTo (: , x-6);
DATAIMP (2: DATAr+1, x-5: x) =DATAo (: , y-5: y);
end
x=0;
y=0;
LLo=DATAIMP;
return
end
67
ANEXOS
Anexo V
Implementación en MatlabR2010a de la función match.m
function[DATF]=match(J,DAT)
%Función para encontrar los desparejos en los nombres de las moléculas de la base de
datos(para cada criterio) y rellenarlos con -999
C=strcmp (DAT,'Molecules');
[m1, n1]=size (J);
T=zeros (1, n1);
p=find(C (1, :) ==1) ;
q=p+1;
for i=1:1: length (p)
x=p (i);
y=q (i);
T=DAT (: , x);
D=DAT (: , y:y+5);
D=cell2mat (D);
hard;
DAT (: , x)=T;
DAT (: , y:y+5)=num2cell(D);
end
DAT (: , p)=[];
DAT (1, :) = [] ;
DATF=DAT;
function hard
f=zeros (1, m1);
k=0;
while ~strcmp(J(m1,1),T(m1,1))
for i=k+1:1:m1
f(i)=strcmp(J(i,1),T(i,1));
if f(i)==1
T{i,1}=J{i,1};
continue
68
ANEXOS
else
k=i;
break
end
end
%another cycle
for i=m1:-1:k+1
T (i, 1) =T (i-1, 1);
D (i, :) =D (i-1, :);
end
T {k, 1} =-999;
D (k, :) =-999;
end
end
end
Anexo VI Implementación en MatlabR2010a de la función putIFnames.m
function[FIXED]= putIFnames(t)
hs=strmatch ('H_',t);%Encontrar los 'H_'
H=t (hs); %Guardar los 'H_'
t(hs)=[]; %Borrar las 'H_'
SH=t; %Guardar los sin 'H_'
[nombresH]=arreglar (H);
[nombresSH]=arreglar (SH);
FIXED=horzcat (nombresSH, nombresH);
end
69
ANEXOS
Anexo VII Implementación en MatlabR2010a de la función arreglar.m
function [F]=arreglar(TF)
l=length (TF);
TFchar=char (TF);
for i=1:1:l
x=TF (i);
xchar=char(x);
for j=1:1:length(xchar)
ychar=xchar(1:j);
if length(strmatch(ychar,TFchar))==1
TF{i}=ychar;
break
end
end
end
F=TF;
end
Anexo VIII
Implementación en MatlabR2010a de la función lldatos.m
function [Do,h1,h2,h3,h4]=lldatos(Di,Ba)
global N l;
x=0;
y=0;
for i=1:1:l
%Hallar vector de Probabilidades
cd (Ba);
R1=dir ('*.csv');
N1= {R1.name};
A1=importdata (N1 {1, i},',',1);
[P_X, P_Y, P_Ya, P_X_Yo, P_X_Y]=probvector (A1);
70
ANEXOS
%Llenado de Datos;
cd ('C:\Users\feyt\Desktop\Base de Datos');
A=importdata (N {1, i},',',1);
D=A.data;
[a,b,c,d,e,f,h1,h2,h3,h4]=IFIs (D, P_X, P_Y, P_Ya, P_X_Yo, P_X_Y);
x=x+6;
y=x-5;
a=num2cell(a);
Di (1: length(a), y)=a;
y=x-4;
b=num2cell (b);
Di (1: length (b), y) =b;
y=x-3;
c=num2cell(c);
Di (1: length(c), y)=c;
y=x-2;
d=num2cell (d);
Di (1: length (d), y) =d;
y=x-1;
e=num2cell (e);
Di (1: length (e), y)=e;
y=x;
f=num2cell (f);
Di (1: length (f), y) =f;
end
Do=Di;
return
end
71
ANEXOS
Anexo IX Implementación en MatlabR2010a de la función lltitulos.m
function[To]=lltitulos(Ti)
global l N;
x=0;
y=0;
for i=1:1:l
A=importdata (N {1, i},',',1);
Titles=A.textdata (: , 1);
x=x+7;
y=x-6;
Ti (1: length (Titles), y) =Titles;
To=Ti;
end
return
end
Anexo X
Implementación en MatlabR2010a de la función probvector.m
function[P_X,P_Y,P_Ya,P_X_Yo,P_X_Y]=probvector(D)
% X es una variable que describe la Frecuencia Natural de aparición de cada
% fragmento en la data e Y describe si el fragmento aparece o no dentro de
% cada molécula en particular.
X=D.data; %Variable X
N=sum (sum(X)); % N es el tamaño del Espacio Muestral.
Yb=X;
Yb (Yb~=0)=1; %Variable Y binaria
Yo=sum ((X-Yb)')';
Y=horzcat (Yb, Yo); % Variable Y para Inf Mutua
X_Yo=sum(X-Yb);
X_Yb=diag (sum (Yb));
X_Y=vertcat (X_Yb, X_Yo); % Distribución probabilística conjunta de X e Y.
72
ANEXOS
P_X= (sum(X)). /N; %Distribución probabilística de la variable X.
P_Y= (sum (Y)). /N; %Distribución probabilística de la variable Y.
P_Ya=P_Y (1: end-1); %Distribución probabilística auxiliar de la variable Ya.
P_X_Yo=X_Yo. /N;
P_X_Y=vertcat (diag (P_Y (1: end-1)), P_X_Yo);
end
Anexo XI Implementación en MatlabR2010a de la función IFIs.m
function[I_X,NR_I_X,I_Y,NR_I_Y,PMI,NA_PMI,H_X_Y,I_X_Y,Hc_X_Y,Hc_Y_X]=
IFIs(X,P_X,P_Y,P_Ya,P_X_Yo,P_X_Y)
[m, n]=size(X); %m es la cantidad de moléculas en la data.
Yb=X;
Yb (Yb~=0)=1; %Variable Y booleana auxiliar.
X_res=X-Yb; %Variable Auxiliar.
Yo=sum (X_res')';
Y=horzcat (Yb, Yo); %Variable Y.
SI_X=-log2 (P_X); %Vector de Autoinformacion (Self-Information) de cada símbolo
según X.
SI_X (SI_X==Inf)=0;
SI_Y=-log2 (P_Y); %Vector de Autoinformacion de cada símbolo según Y.
SI_Y (SI_Y==Inf)=0;
SI_Ya=-log2 (P_Ya); %Vector de Autoinformacion de cada símbolo según Ya
SI_Ya (SI_Ya==Inf)=0;
SI_X_Y=-log2 (P_X_Y); %Matriz de Autoinformacion de la dupla (Xi, Yj).
SI_X_Y (SI_X_Y==Inf)=0;
SI_X_Yo=-log2 (P_X_Yo); %Vector de Autoinformacion de la Dupla (Xi,Yo).
SI_X_Yo (SI_X_Yo==Inf)=0;
H_X=sum (P_X.*SI_X); %Entropía de la data según X.
H_Y=sum (P_Y.*SI_Y); %Entropía de la data según Y.
I_X=zeros (m, 1);
NR_I_X=zeros (m, 1);
73
ANEXOS
I_Y=zeros (m, 1);
NR_I_Y=zeros (m, 1);
PMI=zeros (m, 1);
NA_PMI=zeros (m, 1);
for j=1:1:m
mol=X(j,:);
moly=Y(j,:);
molbin=Yb(j,:);
molres=X_res(j,:);
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
I_X (j, 1)=sum (mol.*SI_X); %Hallar la información de una molécula especifica según X.
NR_I_X (j, 1)=I_X (j, 1)/ (sum (mol)*H_X); %El término NR es la razón entre la
información normalizada de cada molécula (NI) y la Entropía de la data según X.
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
I_Y (j, 1)=sum (moly.*SI_Y); %Hallar la información de una molécula especifica según Y.
NR_I_Y (j, 1)=I_Y (j, 1)/ (sum (moly)*H_Y); %El término NR es la razón entre la
información normalizada de cada molécula (NI) y la Entropía de la data según Y.
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
PMI_Xi_Yi=molbin.*SI_X;
PMI_X_Yo=molres.*(SI_X+SI_Y (end)-SI_X_Yo);
PMI_Xi_Yj=horzcat (PMI_Xi_Yi, PMI_X_Yo);
PMI (j, 1)=sum (sum (PMI_Xi_Yj)); %El termino PMI es la Sumatoria de la Información
Mutua Puntual de la dupla (Xi, Yj) en cada molécula.
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
SI_YA=SI_Ya;
SI_X_YO=SI_X_Yo;
PMI_X_Yo (SI_X_YO==0)= []; %Limpieza de ceros para prevenir valores Inf
74
ANEXOS
PMI_Xi_Yi (SI_YA==0)= []; %Limpieza de ceros para prevenir valores Inf
SI_YA (SI_YA==0)= []; %Limpieza de ceros para prevenir valores Inf
SI_X_YO (SI_X_YO==0)= []; %Limpieza de ceros para prevenir valores Inf
SI_YA (PMI_Xi_Yi==0)= []; % Limpieza de ceros para prevenir valores Inf
SI_X_YO (PMI_X_Yo==0)= []; %Limpieza de ceros para prevenir valores Inf
PMI_Xi_Yi (PMI_Xi_Yi==0)= []; %Limpieza de ceros para prevenir valores Inf
PMI_X_Yo (PMI_X_Yo==0)= []; %Limpieza de ceros para prevenir valores Inf
N_PMI_Xi_Yi=PMI_Xi_Yi. /SI_YA;
N_PMI_X_Yo=PMI_X_Yo. /SI_X_YO;
N_PMI_Xi_Yj=horzcat (N_PMI_Xi_Yi, N_PMI_X_Yo);
NA_PMI (j, 1)=sum (N_PMI_Xi_Yj)/sum (mol); % El termino NA_PMI es el promedio de
la Sumatoria de la PMI normalizada en base a 1 de la dupla (Xi, Yj) en cada molécula.
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
end
H_X_Y=sum (sum (SI_X_Y.*P_X_Y)); % El termino H_X_Y es la Entropía de unión de
X e Y.
I_X_Y=H_X+H_Y-H_X_Y; % El termino I_X_Y es la Información Mutua Promedio
I(X; Y) de X e Y, o lo que es lo mismo: la Entropía de la intersección H(X; Y)
Hc_X_Y=H_X-I_X_Y; % El termino Hc_X_Y es la Entropía condicional H(X/Y).
Hc_Y_X=H_Y-I_X_Y; % El termino Hc_Y_X es la Entropía condicional H (Y/X).
NR_I_X (I_X==0)=0; %Prevenir espacios vacíos en la tabla de salida
NR_I_Y (I_X==0)=0; %Prevenir espacios vacíos en la tabla de salida
NA_PMI (PMI==0)=0; %Prevenir espacios vacíos en la tabla de salida
end
75
GLOSARIO
GLOSARIO
ACP
Análisis de Componentes Principales
AG
Algoritmo Genético
ANOVA
ANalysis Of VAriance. Análisis de Varianza
AV
Análisis de Variabilidad
CP
Componente Principal
DM
Descriptor Molecular
F
Razón de Fisher
IFI
InFormation Index. Índice de información
IMMAN
Information Theory based CheMoMetric ANalysis. Análisis de la
Informática Química basado en la Teoría de información.
IMP
Información Mutua Promedio
Imol
Information of a molecule. Información de una molécula
IT
Índice Topológico
ITD
Information Theory Descriptors. Descriptores de Teoría de la
Información
Log P
Coeficiente de partición octanol/agua
LOO
Leave One Out. Dejar-Uno-Fuera
NAPMI
Normalized Average Pointwise Mutual Information. Información
Mutua Puntual Promedio Normalizada
NR
Normalized Ratio. Razón Normalizada
PMI
Pointwise Mutual Information. Información Mutua Puntual
Q2boot
Varianza de la validación cruzada “bootstrapping”.
Q2LOO
Varianza de la validación cruzada LOO
QSAR
Quantitative Structure Activity Relationship. Relación Cuantitativa
Estructura-Actividad
76
GLOSARIO
GLOSARIO(Continuación)
QSPR
Quantitative Structure Property Relationship. Relación Cuantitativa
Estructura-Propiedad
R2
Coeficiente de Correlación al Cuadrado
RLM
Regresión Linear Múltiple
SE
Shannon’s Entropy. Entropía de Shannon
STI
Sistema de Transmisión de la Información
77
Descargar