Angeles, F. Cálculo de la cantidad de información de

Anuncio
Cálculo de la cantidad de información de biomoléculas y la
Catástrofe Informática de la Biología
F. Angeles1
Instituto de Astronomía
Universidad Nacional Autónoma de México
Resumen
Es de suma importancia conocer la cantidad de información contenida en las
biomoléculas básicas para establecer las bases de un análisis crítico sobre la manera
en que la información es expresada a través de los mecanismos biomoleculares. En el
presente trabajo expongo algunos resultados sencillos sobre la cantidad de
información contenida en el ADN, proteínas y cómo diferentes análisis llevan a
resultados totalmente opuestos.
Sea S un sistema dentro del cual puede ocurrir algún evento Ei. Sea Pi la probabilidad de que
tal evento ocurra. Si alguna entidad ya sea material y/o energética arriva a S y la probabilidad
del evento Ei cambia a Pi', la cantidad de información en bits recibida por S se define como
P'
H =log 2 i
Pi
Un ejemplo de su interpretación física es como sigue: supongamos que una roca (S ) se
encuentra en la orilla de un barranco. Si nada perturba su estabilidad, la probabilidad (Pi) de
que caiga (Ei) es ridículamente pequeña, sin embargo, si una pequeña piedra (portador) la
golpea en la línea de su centro de masas en la dirección adecuada, la probabilidad de que caiga
(Pi') se hace muy alta. Supongamos que la roca cae en un tiempo de 30 segundos, entonces
Pi'=1 y Pi puede ser calculada como la razón de los tiempos correspondientes. Supongamos
ahora que hubiesen pasado al menos un millón de años para que por razones inevitables la
roca cayese, luego entonces
P i = 30 =9.5129×10
 
−13
3.1536×1013
de donde
H =log 2


1
=39.935
9.5129×10−13
normalmente no se manejan fracciones de bits, luego entonces, si la parte fraccionaria es
distinta de cero, se toma el siguiente entero, por lo que H=40 bits.
Setlow y Pollard [1] le dan un enfoque distinto a este cálculo utilizando un ejemplo donde hay
que elegir una de 16 letras. Según esto, la probabilidad de elegir una letra específica es
P i = 161 , y una vez elegida es Pi'=1, por lo que la cantidad de información recibida es
H =log 2
 
1
=log 2 16=4
1/16
de donde es fácil y tentador extender el ejemplo a cualquier conjunto de N símbolos
disponibles y asegurar que la combinación de m cualesquiera de ellos “lleva” la cantidad de
información
H =m×log 2 N
y más aun suponer que si un sistema puede ocupar uno de N estados posibles, entonces la
cantidad de información provista por cada estado está dada por H=log2N.
Este enfoque, que llamaré binario2, presenta varios problemas:
i. Un símbolo es parte de un mensaje, y si bien un mensaje puede ser utilizado como portador
de información, el mensaje y sus partes no representan un evento por sí mismas.
ii. En el cálculo anterior se supuso que la probabilidad de elegir alguno de las 16 letras
1
2
[email protected]
En realidad es de elección binaria, pero esto no modifica el contenido.
disponibles era la misma para todas las letras. Un mensaje que forma parte de un lenguaje
(o al menos de un dialecto) está constituido por letras que generalmente no tienen la misma
probabilidad de ocurrir a lo largo del mismo, y esto afecta severamente el cálculo de la
información contenida.
iii.En realidad, debería medirse el cambio en la probabilidad de algún evento para cuantificar
H del mensaje.
No obstante, este enfoque está ampliamente difundido y puede llevar a serias
contradicciones como se verá más adelante.
Análisis binario para ADN y proteínas
Dada una secuencia de ADN compuesta de 3m bases, cada base puede tener uno de cuatro
estados posibles, por lo que cada base contribuye con
AAA Lys ACA Thr AGA Arg ATA Ile
H =log 2 4=2 bits por lo que la cadena completa
AAC Asn ACC Thr AGC Ser ATC Ile
AAG Lys ACG Thr AGG Arg ATG Met/start
contribuye con 6×m bits en total. La cadena está
AAT Asn ACT Thr AGT Ser ATT Ile
duplicada, y precisamente es por esto que no se
CAA Gln CCA Pro CGA Arg CTA Leu
CAC His CCC Pro CGC Arg CTC Leu
añade la información de la cadena complementaria.
CAG Gln CCG Pro CGG Arg CTG Leu
Al ser transcrita, la cadena de ADN se convierte en
CAT His CCT Pro CGT Arg CTT Leu
GAA Glu GCA Ala GGA Gly GTA Val
una cadena de ARNm sin aparear. La base Timina es
GAC Asp GCC Ala GGC Gly GTC Val
sustituida por el Uracilo y la información se
GAG Glu GCG Ala GGG Gly GTG Val
mantiene intacta. Al ser expresada, la información
GAT Asp GCT Ala GGT Gly GTT Val
TAA stop TCA Ser TGA stop TTA Leu
del
ARNm es leída en grupos de tres bases
TAC Tyr TCC Ser TGC Cys TTC Phe
denominadas codones para elegir un aminoácido. La
TAG stop TCG Ser TGG Trp TTG Leu
TAT Tyr TCT Ser TGT Cys TTT Phe
combinación de tres bases arroja un total de 6 bits
Tabla 1
por codón, o sea 26=64 estados posibles pero solo hay
20 aminoácidos. Esto se puede entender al analizar la tabla 1 donde se presenta la
equivalencia de las diferentes combinaciones de bases contra el aminoácido que especifican.
La expresión es redundante ya que diferentes codones pueden especificar un solo aminoácido,
además de algunas señales de control (start y stop en la tabla).
Como sea, para especificar uno de 20 aminoácidos se requieren log220=4.322 bits, por lo
que la cadena polipeptídica de m aminoácidos generada por nuestro código requeriría 4.322
×m bits en lugar de los 6×m bits provistos por el ADN. No obstante, esta redundancia sugiere
para algunos autores la estabilidad ante algunos tipos de mutaciones.
Queda por resolver si la cadena polipeptídica contiene la misma cantidad de información
que la proteína sintetizada, esto es, si durante el proceso de plegamiento el polipéptido no
gana información. Este proceso es bastante complejo y no ha sido posible modelarlo para
determinar la unicidad de las configuraciones finales y menos aún predecir las propiedades de
una proteína a partir de una cadena de ADN cualquiera. No obstante se sabe que, en general,
hay pocos ejemplos de proteínas multivariadas3, por lo que supondré que no hay una
ganancia significativa de información durante el plegamiento.
Análisis posicional para proteínas
El análisis posicional de una molécula es en realidad una variante generalizada del análisis
binario. Para cuantificar H, se consideran las posiciones y naturaleza de cada componente de
una molécula. Para ejemplificar, tomemos la polimerasa del ADN de Escherichia coli
mostrada en la figura 1.
3
Un ejemplo de estas son los Priones
Esta molécula está compuesta por unos 4700 átomos de
C,H,O,N y S. La posición de cada átomo está dada por 3
coordenadas x,y y z en un subespacio de
63.39×87.06×71.23
unidades (arbitrarias) con una resolución de 0.1 por lo
que son necesarios
log2(63.39)+log2(87.06)+log2(71.23)=18.58 bits
por coordenada por átomo o 4700×18.58=87347.31 bits
para la molécula. Si cada átomo debe ser elegido de la
tabla periódica, son necesarios 7 bits para especificarlo, lo
que arroja
4700´7=32900 bits. Por otro lado, debemos especificar
que átomos se encuentran enlazados a que otros al menos
mediante una etiqueta ordenada para todo el conjunto.
Existen en esta molécula 16092 enlaces covalentes que
hay que especificar, Dado un átomo, es suficiente para
cada enlace especificar a qué otro átomo esta unido con
un número de 1 a 4700, y una vez que el átomo A se
Figura 1 Polimerasa del ADN de Escherichia coli. enlaza al B, el B queda automáticamente enlazado a A por
Entrada 1kln en www.pdb.org[2]
lo que el conteo se reduce a la mitad (8046) por lo que
necesitamos 8046×log2(4700)=98148.68 bits
Esta cuantificación resulta en
H=(Información de átomos)+(Información de posición)+(Información de enlaces)
ó
H= (32900 + 87347.31+ 98148.68) bits = 218396 bits
Esta cantidad excede y por mucho la calculada en el primer ejemplo, ya que la polimerasa
del ADN para E. coli está constituida por 605 aminoácidos, que resulta en 6×605=3630 bits
en el ADN para especificarla.
Análisis posicional para proteínas
Para complicar las cosas, en realidad durante el análisis binario no se consideró la
información de cada molécula a nivel posicional, solamente aquella almacenada en la variedad
del mensaje genético. En realidad, dado que la información posicional se repite a lo largo de la
molécula de ADN, no es necesario cuantificar la totalidad de esta.
Adenina, desoxiribosa y fosfato
La figura 2 muestra una molécula de adenina unida a una
molécula de desoxiribosa, componente del ADN en su parte
estructural: cada base se halla unida a una de estas moléculas
las cuales se enlazan entre si mediante el grupo fosfato. La
adenina cuenta con 15 átomos que precisan de 15×7=105 bits
para ser especificados, las coordenadas requieren de 15×3
×10=450 bits y para los enlaces se necesitan 20×log2(15)
=78.1378 bits (hay 40 valencias) lo que da un total de
633.1378 bits. La desoxiribosa está constituida por 17 átomos
Figura 2 Adenina, ribosa y fosfato
por lo que son necesarios 17×7=119 bits para especificarlos
más 3×10×17=510 bits para especificar las coordenadas. Los enlaces (36 valencias) requieren
18×log2(17)=73.574 lo que da un total de 702.574 bits. El grupo fosfato tiene 6 átomos y 14
valencias por lo que, calculado de la misma manera, la cantidad de información necesaria para
especificarlo es de 204.09 bits.
Aplicando el mismo análisis a la timina, guanina y citosina, obtenemos respectivamente
623.37 bits, 676 bits y 543.91 bits.
De lo anterior obtenemos que un sólo nucleótido (p. ej. Adenina) contiene
633.1378+702.574+204.09=1539.8018 bits, valor que claramente excede el calculado con el
análisis binario. Esta aparente paradoja puede ser salvada si notamos que no es necesario
añadir la información contenida en cada molécula al analizar una cadena de ADN, ya que, en
el caso de la ribosa y el fosfato, estas son repetidas y en el caso de las bases púricas y
pirimídicas, solo es necesario elegir uno de cuatro estados posibles. Podríamos decir que la
cantidad de información de una molécula de ADN es el valor calculado por el método binario
más la información de las 6 moléculas involucradas: 2680.5078 bits.
Cantidad de información en una bacteria.
Setlow y Pollard [1] comparan el contenido informático del fenotipo de una bacteria
calculado de diversas maneras y ofrecen un valor de alrededor de 1012 bits. El genoma de
Escherichia coli está constituido por alrededor de 4.6 millones de pares de bases, o según el
análisis binario, 9.2×106 bits, lo que representa un exceso de 1.087×105 veces más información
en el fenotipo que en el genotipo. Recordemos que las bacterias son procariontes y que
ciertamente ningún procarionte puede conformar organismos pluricelulares con morfología
determinista, lo que da una vaga idea de que los organismos pluricelulares deben rebasar este
exceso por mucho más para especificar diferenciación en función y forma.
Catástrofe Informática de la Biología
Este exceso representa lo que llamaré Catástrofe Informática de la Biología (CIB), y
básicamente la pregunta que surge es: si el genotipo determina el fenotipo, ¿de dónde surge el
exceso de información? Distintos experimentos en embriología[3][4] (p. ej. Con Acetabularia)
sugieren que no sólo el núcleo sino también algunas moléculas contenidas en el citoplasma
son importantes para determinar la forma, no obstante, esto no explica ni lejanamente que el
conjunto fenotípico contenga tal cantidad de información. Por supuesto, esta aparente
disparidad ha dado origen a toda una gama de teorías, muchas de ellas con cierto dejo de
vitalismo, que intentan explicar de una u otra manera cómo conformar un organismo con un
código aparentemente tan limitado.
Conclusiones
Del análisis mostrado, se concluye fácilmente que la cantidad de información obtenida
depende del tipo de análisis aplicado, en parte debido al contexto del mensaje genético que es
muy distinto del contexto proteínico. Por otra parte, se requieren de herramientas de análisis
extras para tratar de explicar cómo el fenotipo es generado a partir del genotipo. Esto será
abordado en otro ensayo.
Bibliografía
1.
2.
3.
4.
Setlow-Pollard, Molecular Biophysics. Ed. Addison Wesley
Research Collaboratory for Structural Bioinformatics. Protein Data Bank: www.pdb.org
Jacob, F. et al. Biología Molecular. Ediciones Orbis S.A. 1985
Wessells, N. Rutter, W. Fases de la diferenciación celular. Sc. Am. Marzo 1969
Descargar