“CREACIÓN DE ALGORITMOS PARA LA PROGRAMACIÓN DE BACTERIAS POR MEDIO DEL ADN” Autor: Gabriel Jiménez Domínguez INSA de Lyon, Francia Laboratorio IBISC de la universidad de Evry Val d’Essonne Tutor: Frank Delaplace 1.- Introducción La creación de genes artificiales es un procedimiento llevado a la práctica por parte de la biología sintética. Dichos genes son concebidos con la finalidad de dotar a microrganismos con comportamientos que no están presentes de manera natural en ellos siendo el propósito primordial el responder a una problemática actual. El empleo de bacterias y hongos modificados genéticamente como herramientas para la eliminación de compuestos tóxicos en los ecosistemas y el diseño de microrganismos que detectan cambios en la concentración de biomoléculas para el tratamiento de enfermedades son ejemplos de algunos de los métodos empleados por la biología sintética. Para ello, esta ciencia se apoya en el uso de técnicas de ingeniería genética que permiten la síntesis de biomoléculas para generar nuevos sistemas de activación e inhibición de comportamientos propios de la célula o para inducir la aparición de nuevas funciones no naturales. De esta manera, se logra la creación de nuevos organismos programables, es decir, microrganismos a la carta que se comportan como pequeños ordenadores. Los circuitos genéticos formados por genes y sus reguladores se comportan de forma equivalente a circuitos electrónicos realizando operaciones booleanas o lógicas. En concreto, los circuitos genéticos se describen mediante diagramas semejantes a los que se emplean en los circuitos eléctricos, con nodos que representan a determinados genes y flechas que indican otros genes a los que regulan los primeros. La activación de estos genes oscila entre los estados de encendido y apagado a medida que la señal se propaga por el circuito, produciendo a su vez oscilaciones periódicas en la concentración de las proteínas que codifican. La creación de nuevos comportamientos bajo el control de diversos tipos de señales es realizada mediante la inserción de ADN recombinante dentro de una célula huésped. Esto se lleva a cabo mediante el ensamblaje de secuencias de ADN clave que regulan la producción de los biocomponentes, a través de métodos de biología molecular como la creación de clones recombinantes y la selección de estos por medio de genes resistentes a antibióticos. Estos procedimientos requieren el uso de rigurosos y precisos protocolos de laboratorio cuyo mínimo error puede ocasionar la pérdida total o parcial de las moléculas utilizadas generando costos adicionales y pérdida de tiempo. 2.- ¿Cómo se programa una bacteria? Actualmente la biología sintética aprovecha las características de una molécula de ADN presente en el genoma bacteriano llamada “plásmido”. Dicho componente tiene la propiedad de operar de manera independiente con respecto a la maquinaria genética de la célula así como de duplicarse por si mismo durante la división celular. Estas propiedades actualmente son manipuladas para producir biomoléculas de interés mediante la clonación de genes recombinantes, por ejemplo, la producción de insulina a partir de la introducción del gen que codifica dicha proteína dentro de la bacteria E. coli. Esto requiere un correcto ensamblaje de los elementos que constituirán el gen de interés y una correcta selección de las bacterias transformadas, es decir, aquellas que en el que el plásmido fue integrado. Dentro de la secuencia de ADN (sucesión de bases nucleicas: A por Adenina, T por Timina, G por Guanina y C por Citosina) cercana a la región de un gen existen pequeñas secuencias clave necesarias para que este pueda ser transcrito y traducido en una proteína funcional. Estas secuencias son señales que permiten el reclutamiento o el desprendimiento de diferentes moléculas que se fijan a la cadena nucleica (polimerasas, ARNt, ribosomas, etc) y que actúan en el proceso de transcribir el ADN en ARN y en el proceso de traducción del ARN en proteínas. Cada una de estas señales puede ser representada por “bloques” (bricks) funcionales cuyas diferentes y correctas combinaciones da origen a nuevos elementos de control de expresión de los genes sintéticos. De la misma manera, la secuencia de un gen puede ser modificada para la obtención de proteínas nativas o transformadas introduciendo así la aparición de nuevos mecanismos de regulación que activen o inhiban la producción de estos elementos. El siguiente esquema ejemplifica una secuencia de ADN representada por bloques funcionales que integran una unidad genética funcional llamada “operón” formada por un grupo de genes capaces de ejercer una regulación de su propia expresión dentro de una bacteria. Figura 1: Operón lac y su representación en bloques funcionales. El bloque promotor + operador es la secuencia necesaria para el posicionamiento de las molécula precursora del proceso de transcripción. El operador permite la fijación de la proteína reguladora para activar o inhibir la transcripción de los genes estructurales. El bloque RBS permite la fijación del ribosoma sobre la copia de ARN para su traducción en proteína. El bloque CDS está compuesto por el codón de iniciación de la traducción, la secuencia que codifica la proteína (ORF) y el codón de stop de la traducción. Es posible encontrar más de un CDS en el operón siempre y cuando se agregue un RBS antes de cada bloque. El bloque stop de la transcripción permite el desprendimiento de la ARN polimerasa de la cadena de ADN finalizando así la transcripción. De esta manera, el correcto ensamblaje de bloques funcionales da origen a la creación de plásmidos sintéticos (vectores) conectados de tal manera que produzcan los biocomponentes necesarios para la aparición de un comportamiento determinado, controlado por mecanismos de señalización propios del diseño del programa biológico. Gracias al avance en materia de secuenciación del ADN y al desarrollo de bases de datos bioinformáticos hoy es posible obtener la secuencia de genes y de proteínas funcionales provenientes de diferentes organismos accediendo directamente a la información que se encuentra disponible en diversos sitios en internet. Esto permite, entre otros análisis, reconocer las secuencias clave que conforman cada uno de los bloques funcionales. El evento más demostrativo en cuanto a trabajos de programación de microrganismos por medio de biología sintética es el iGEM (International Genetically Engineered Machine), la primera competición mundial en biología sintética dirigida a estudiantes no graduados, patrocinada por el MIT (Instituto Tecnológico de Massachusetts). Los equipos son grupos de estudiantes y profesores de diferentes universidades del mundo y de diversas áreas como biología, matemáticas, informática o física. Esto es debido a que la multidisciplinaridad es un elemento fundamental para el diseño y la implementación de un proyecto de biología sintética. Tras inscribirse, los equipos reciben al principio del verano un kit con una serie de partes biológicas intercambiables, también llamadas “biobricks”, enviadas desde el Registro de Partes Biológicas Estándar. Durante el periodo estival, cada uno de los equipos trabaja en sus respectivos centros educativos, empleando tanto las partes que han recibido como nuevas partes de diseño propio, para la construcción de sistemas genéticos y biológicos, y con objeto de hacerlos funcionar en organismos vivos. 3.- Un lenguaje de programación para la biología sintética. El laboratorio IBISC de la universidad de Evry Val d’Essonne en Francia trabaja actualmente en un proyecto llamado “Synbiotic” el cual tiene como objetivo desarrollar herramientas informáticas que permitan especificar un comportamiento biológico espacial y global y de compilarlo automáticamente a través de una serie de lenguajes intermediarios y de procesos locales de regulación celular (regulación genética, metabólica y de señalización). La idea es diseñar estos sistemas en un alto nivel de abstracción utilizando herramientas basadas en la ingeniería y lenguajes de programación, pulsar un botón y tener el diseño traducido a secuencias de ADN que pueden ser sintetizados y puestos a trabajar en las células vivas. GUBS1 (Genomic Unified Behavior Specification) es una propuesta de lenguaje de programación destinado a la especificación comportamental de dispositivos sintéticos desde el punto de vista de sistemas dinámicos discretos abiertos, es decir que factores externos pueden modificar el comportamiento del programa. La principal idea de GUBS es escribir programas usando variables que representen entidades biológicas abstractas y que mediante 1 F. Delaplace, A. Basso-Balndin . “GUBS, a behavior-based language for open system dedicated to synthetic biology” IBISC Lab 2012 France. expresiones de causa y efecto se describan relaciones comportamentales que permitan identificar los agentes biológicos naturales (llamados “constantes”) los cuales sustituyan a las variables. Un ejemplo de lenguaje GUBS es la descripción de la activación y la inhibición de un gen, cuya expresión sería: Activación: Inhibición: En este ejemplo se expresa una regla de causalidad entre las constantes g1 y g2: La primera representa la activación de g2 en presencia de g1 y la segunda describe la inhibición de g2 representada por la activación de g2 en ausencia de g1. La compilación del programa consiste en la aplicación de reglas biológicas y teoremas informáticos que permiten obtener la correcta sustitución de las variables por constantes biológicas. Esto puede ser posible a través de algoritmos capaces de encontrar dentro de bases de datos de redes metabólicas o de regulación de genes, las vías que cumplan con las especificaciones del programa. La tarea del siguiente nivel del lenguaje es proceder a la traducción en secuencia de ADN una vez encontrados los elementos (genes, proteínas, bricks, biobricks) conferidos por la etapa de compilación. En el caso de la programación de una bacteria, el algoritmo propuesto para este nivel construye la secuencia deseada basándose en el modelo de “operón” por medio del ensamblaje de los bloques funcionales descritos en la figura 1. Por ejemplo, si el resultado de la compilación de un programa es la activación de la producción de la proteína fluorescente “GFP” (Green Fluorescent Protein) que se encuentra bajo el control de la proteína reguladora LacI, la expresión característica y el digrama en bloques del operón serían los siguientes: [Lactosa] LacI GFP Figura 2: Bloques funcionales que representan las secuencias que conformarán el operón para la activación de la producción de GFP por la acción de la proteína reguladora LacI, la cual se fija a la región operadora del promotor inactivando la transcripción del gen que contiene la secuencia de GFP. Solamente en presencia del elemento “[Lactosa]” la proteína LacI podrá desprenderse de la región operadora activando así la transcripción del gen lo que permite la producción de la proteína GFP. El algoritmo que genera la secuencia de ADN del operón toma en consideración la preferencia que tienen las bacterias en cuanto a la utilización del código genético. Existen datos estadísticos que muestran que las bacterias utilizan preferentemente ciertos codones (sucesión de tres bases nucleicas) que codifican para un mismo aminoácido lo cual, si no es respetado, puede modificar la eficiencia en la producción de los biocomponentes sintéticos. Por ello es necesario utilizar tablas que contengan los datos estadísticos sobre la preferencia en el uso de codones de diferentes especies de bacterias de manera que se logre la producción eficaz de biocomponentes de manera generalizada en ellas. El algoritmo propuesto es también capaz de realizar fusiones de secuencias de genes para formar proteínas modificadas. Si es necesario la fusión total o parcial de una proteína con otra o la adición de una etiqueta representada por un bloque funcional esto puede ser especificado dentro de la expresión de activación e inhibición mediante el uso del símbolo “-“ (por ejemplo GFP-degradation/TAG o OmpA/signal-GFP). Finalmente, en el último nivel de programación se pretende organizar de manera eficiente las secuencias de ADN de los operones creados para la construcción de un plásmido que cumpla con las exigencias biológicas de una determinada especie de bacteria. De esta manera se logra obtener, a partir de un código con expresiones abstractas y una serie de reglas de causalidad, la secuencia de ADN para la síntesis de un plásmido que contiene la información necesaria para la aparición de un comportamiento deseado en una bacteria. 4.- Conclusión La biología sintética requiere de herramientas de software para el modelado de procesos biológicos, su simulación, su almacenamiento y su análisis. Esto permite tener una generalidad sobre la diversidad biológica almacenada en bibliotecas de componentes reutilizables que permita, la modularización y la abstracción de la información. Es este el enfoque en materia de sistemas de construcción que requiere el uso de metodologías de modelado por ordenador y de la síntesis de secuencias de ADN a partir de descripciones funcionales de alto nivel. Las aspiraciones de ciencias emergentes como la biología sintética, la nanobiotecnología y la computación por ADN son el diseño de circuitos biológicos que detecten cambios fisiológicos anormales en las células y den lugar a una respuesta basada en la recombinación del gen anormal con su homólogo normal. Tanto los virus, bacterias y otros microrganismos como los circuitos biológicos sintéticos pueden ser empleados para reconocer y eliminar células anormales, siendo el cáncer la aplicación más inmediata.