Cálculo de la cantidad de información de biomoléculas y la Catástrofe Informática de la Biología F. Angeles1 Instituto de Astronomía Universidad Nacional Autónoma de México Resumen Es de suma importancia conocer la cantidad de información contenida en las biomoléculas básicas para establecer las bases de un análisis crítico sobre la manera en que la información es expresada a través de los mecanismos biomoleculares. En el presente trabajo expongo algunos resultados sencillos sobre la cantidad de información contenida en el ADN, proteínas y cómo diferentes análisis llevan a resultados totalmente opuestos. Sea S un sistema dentro del cual puede ocurrir algún evento Ei. Sea Pi la probabilidad de que tal evento ocurra. Si alguna entidad ya sea material y/o energética arriva a S y la probabilidad del evento Ei cambia a Pi', la cantidad de información en bits recibida por S se define como P' H =log 2 i Pi Un ejemplo de su interpretación física es como sigue: supongamos que una roca (S ) se encuentra en la orilla de un barranco. Si nada perturba su estabilidad, la probabilidad (Pi) de que caiga (Ei) es ridículamente pequeña, sin embargo, si una pequeña piedra (portador) la golpea en la línea de su centro de masas en la dirección adecuada, la probabilidad de que caiga (Pi') se hace muy alta. Supongamos que la roca cae en un tiempo de 30 segundos, entonces Pi'=1 y Pi puede ser calculada como la razón de los tiempos correspondientes. Supongamos ahora que hubiesen pasado al menos un millón de años para que por razones inevitables la roca cayese, luego entonces P i = 30 =9.5129×10 −13 3.1536×1013 de donde H =log 2 1 =39.935 9.5129×10−13 normalmente no se manejan fracciones de bits, luego entonces, si la parte fraccionaria es distinta de cero, se toma el siguiente entero, por lo que H=40 bits. Setlow y Pollard [1] le dan un enfoque distinto a este cálculo utilizando un ejemplo donde hay que elegir una de 16 letras. Según esto, la probabilidad de elegir una letra específica es P i = 161 , y una vez elegida es Pi'=1, por lo que la cantidad de información recibida es H =log 2 1 =log 2 16=4 1/16 de donde es fácil y tentador extender el ejemplo a cualquier conjunto de N símbolos disponibles y asegurar que la combinación de m cualesquiera de ellos “lleva” la cantidad de información H =m×log 2 N y más aun suponer que si un sistema puede ocupar uno de N estados posibles, entonces la cantidad de información provista por cada estado está dada por H=log2N. Este enfoque, que llamaré binario2, presenta varios problemas: i. Un símbolo es parte de un mensaje, y si bien un mensaje puede ser utilizado como portador de información, el mensaje y sus partes no representan un evento por sí mismas. ii. En el cálculo anterior se supuso que la probabilidad de elegir alguno de las 16 letras 1 2 [email protected] En realidad es de elección binaria, pero esto no modifica el contenido. disponibles era la misma para todas las letras. Un mensaje que forma parte de un lenguaje (o al menos de un dialecto) está constituido por letras que generalmente no tienen la misma probabilidad de ocurrir a lo largo del mismo, y esto afecta severamente el cálculo de la información contenida. iii.En realidad, debería medirse el cambio en la probabilidad de algún evento para cuantificar H del mensaje. No obstante, este enfoque está ampliamente difundido y puede llevar a serias contradicciones como se verá más adelante. Análisis binario para ADN y proteínas Dada una secuencia de ADN compuesta de 3m bases, cada base puede tener uno de cuatro estados posibles, por lo que cada base contribuye con AAA Lys ACA Thr AGA Arg ATA Ile H =log 2 4=2 bits por lo que la cadena completa AAC Asn ACC Thr AGC Ser ATC Ile AAG Lys ACG Thr AGG Arg ATG Met/start contribuye con 6×m bits en total. La cadena está AAT Asn ACT Thr AGT Ser ATT Ile duplicada, y precisamente es por esto que no se CAA Gln CCA Pro CGA Arg CTA Leu CAC His CCC Pro CGC Arg CTC Leu añade la información de la cadena complementaria. CAG Gln CCG Pro CGG Arg CTG Leu Al ser transcrita, la cadena de ADN se convierte en CAT His CCT Pro CGT Arg CTT Leu GAA Glu GCA Ala GGA Gly GTA Val una cadena de ARNm sin aparear. La base Timina es GAC Asp GCC Ala GGC Gly GTC Val sustituida por el Uracilo y la información se GAG Glu GCG Ala GGG Gly GTG Val mantiene intacta. Al ser expresada, la información GAT Asp GCT Ala GGT Gly GTT Val TAA stop TCA Ser TGA stop TTA Leu del ARNm es leída en grupos de tres bases TAC Tyr TCC Ser TGC Cys TTC Phe denominadas codones para elegir un aminoácido. La TAG stop TCG Ser TGG Trp TTG Leu TAT Tyr TCT Ser TGT Cys TTT Phe combinación de tres bases arroja un total de 6 bits Tabla 1 por codón, o sea 26=64 estados posibles pero solo hay 20 aminoácidos. Esto se puede entender al analizar la tabla 1 donde se presenta la equivalencia de las diferentes combinaciones de bases contra el aminoácido que especifican. La expresión es redundante ya que diferentes codones pueden especificar un solo aminoácido, además de algunas señales de control (start y stop en la tabla). Como sea, para especificar uno de 20 aminoácidos se requieren log220=4.322 bits, por lo que la cadena polipeptídica de m aminoácidos generada por nuestro código requeriría 4.322 ×m bits en lugar de los 6×m bits provistos por el ADN. No obstante, esta redundancia sugiere para algunos autores la estabilidad ante algunos tipos de mutaciones. Queda por resolver si la cadena polipeptídica contiene la misma cantidad de información que la proteína sintetizada, esto es, si durante el proceso de plegamiento el polipéptido no gana información. Este proceso es bastante complejo y no ha sido posible modelarlo para determinar la unicidad de las configuraciones finales y menos aún predecir las propiedades de una proteína a partir de una cadena de ADN cualquiera. No obstante se sabe que, en general, hay pocos ejemplos de proteínas multivariadas3, por lo que supondré que no hay una ganancia significativa de información durante el plegamiento. Análisis posicional para proteínas El análisis posicional de una molécula es en realidad una variante generalizada del análisis binario. Para cuantificar H, se consideran las posiciones y naturaleza de cada componente de una molécula. Para ejemplificar, tomemos la polimerasa del ADN de Escherichia coli mostrada en la figura 1. 3 Un ejemplo de estas son los Priones Esta molécula está compuesta por unos 4700 átomos de C,H,O,N y S. La posición de cada átomo está dada por 3 coordenadas x,y y z en un subespacio de 63.39×87.06×71.23 unidades (arbitrarias) con una resolución de 0.1 por lo que son necesarios log2(63.39)+log2(87.06)+log2(71.23)=18.58 bits por coordenada por átomo o 4700×18.58=87347.31 bits para la molécula. Si cada átomo debe ser elegido de la tabla periódica, son necesarios 7 bits para especificarlo, lo que arroja 4700´7=32900 bits. Por otro lado, debemos especificar que átomos se encuentran enlazados a que otros al menos mediante una etiqueta ordenada para todo el conjunto. Existen en esta molécula 16092 enlaces covalentes que hay que especificar, Dado un átomo, es suficiente para cada enlace especificar a qué otro átomo esta unido con un número de 1 a 4700, y una vez que el átomo A se Figura 1 Polimerasa del ADN de Escherichia coli. enlaza al B, el B queda automáticamente enlazado a A por Entrada 1kln en www.pdb.org[2] lo que el conteo se reduce a la mitad (8046) por lo que necesitamos 8046×log2(4700)=98148.68 bits Esta cuantificación resulta en H=(Información de átomos)+(Información de posición)+(Información de enlaces) ó H= (32900 + 87347.31+ 98148.68) bits = 218396 bits Esta cantidad excede y por mucho la calculada en el primer ejemplo, ya que la polimerasa del ADN para E. coli está constituida por 605 aminoácidos, que resulta en 6×605=3630 bits en el ADN para especificarla. Análisis posicional para proteínas Para complicar las cosas, en realidad durante el análisis binario no se consideró la información de cada molécula a nivel posicional, solamente aquella almacenada en la variedad del mensaje genético. En realidad, dado que la información posicional se repite a lo largo de la molécula de ADN, no es necesario cuantificar la totalidad de esta. Adenina, desoxiribosa y fosfato La figura 2 muestra una molécula de adenina unida a una molécula de desoxiribosa, componente del ADN en su parte estructural: cada base se halla unida a una de estas moléculas las cuales se enlazan entre si mediante el grupo fosfato. La adenina cuenta con 15 átomos que precisan de 15×7=105 bits para ser especificados, las coordenadas requieren de 15×3 ×10=450 bits y para los enlaces se necesitan 20×log2(15) =78.1378 bits (hay 40 valencias) lo que da un total de 633.1378 bits. La desoxiribosa está constituida por 17 átomos Figura 2 Adenina, ribosa y fosfato por lo que son necesarios 17×7=119 bits para especificarlos más 3×10×17=510 bits para especificar las coordenadas. Los enlaces (36 valencias) requieren 18×log2(17)=73.574 lo que da un total de 702.574 bits. El grupo fosfato tiene 6 átomos y 14 valencias por lo que, calculado de la misma manera, la cantidad de información necesaria para especificarlo es de 204.09 bits. Aplicando el mismo análisis a la timina, guanina y citosina, obtenemos respectivamente 623.37 bits, 676 bits y 543.91 bits. De lo anterior obtenemos que un sólo nucleótido (p. ej. Adenina) contiene 633.1378+702.574+204.09=1539.8018 bits, valor que claramente excede el calculado con el análisis binario. Esta aparente paradoja puede ser salvada si notamos que no es necesario añadir la información contenida en cada molécula al analizar una cadena de ADN, ya que, en el caso de la ribosa y el fosfato, estas son repetidas y en el caso de las bases púricas y pirimídicas, solo es necesario elegir uno de cuatro estados posibles. Podríamos decir que la cantidad de información de una molécula de ADN es el valor calculado por el método binario más la información de las 6 moléculas involucradas: 2680.5078 bits. Cantidad de información en una bacteria. Setlow y Pollard [1] comparan el contenido informático del fenotipo de una bacteria calculado de diversas maneras y ofrecen un valor de alrededor de 1012 bits. El genoma de Escherichia coli está constituido por alrededor de 4.6 millones de pares de bases, o según el análisis binario, 9.2×106 bits, lo que representa un exceso de 1.087×105 veces más información en el fenotipo que en el genotipo. Recordemos que las bacterias son procariontes y que ciertamente ningún procarionte puede conformar organismos pluricelulares con morfología determinista, lo que da una vaga idea de que los organismos pluricelulares deben rebasar este exceso por mucho más para especificar diferenciación en función y forma. Catástrofe Informática de la Biología Este exceso representa lo que llamaré Catástrofe Informática de la Biología (CIB), y básicamente la pregunta que surge es: si el genotipo determina el fenotipo, ¿de dónde surge el exceso de información? Distintos experimentos en embriología[3][4] (p. ej. Con Acetabularia) sugieren que no sólo el núcleo sino también algunas moléculas contenidas en el citoplasma son importantes para determinar la forma, no obstante, esto no explica ni lejanamente que el conjunto fenotípico contenga tal cantidad de información. Por supuesto, esta aparente disparidad ha dado origen a toda una gama de teorías, muchas de ellas con cierto dejo de vitalismo, que intentan explicar de una u otra manera cómo conformar un organismo con un código aparentemente tan limitado. Conclusiones Del análisis mostrado, se concluye fácilmente que la cantidad de información obtenida depende del tipo de análisis aplicado, en parte debido al contexto del mensaje genético que es muy distinto del contexto proteínico. Por otra parte, se requieren de herramientas de análisis extras para tratar de explicar cómo el fenotipo es generado a partir del genotipo. Esto será abordado en otro ensayo. Bibliografía 1. 2. 3. 4. Setlow-Pollard, Molecular Biophysics. Ed. Addison Wesley Research Collaboratory for Structural Bioinformatics. Protein Data Bank: www.pdb.org Jacob, F. et al. Biología Molecular. Ediciones Orbis S.A. 1985 Wessells, N. Rutter, W. Fases de la diferenciación celular. Sc. Am. Marzo 1969