Gabriel Jiménez Domínguez

Anuncio
“CREACIÓN DE ALGORITMOS PARA LA PROGRAMACIÓN DE
BACTERIAS POR MEDIO DEL ADN”
Autor: Gabriel Jiménez Domínguez
INSA de Lyon, Francia
Laboratorio IBISC de la universidad de Evry Val d’Essonne
Tutor: Frank Delaplace
1.- Introducción
La creación de genes artificiales es un procedimiento llevado a la práctica por parte de la
biología sintética. Dichos genes son concebidos con la finalidad de dotar a microrganismos
con comportamientos que no están presentes de manera natural en ellos siendo el propósito
primordial el responder a una problemática actual.
El empleo de bacterias y hongos modificados genéticamente como herramientas para la
eliminación de compuestos tóxicos en los ecosistemas y el diseño de microrganismos que
detectan cambios en la concentración de biomoléculas para el tratamiento de enfermedades
son ejemplos de algunos de los métodos empleados por la biología sintética. Para ello, esta
ciencia se apoya en el uso de técnicas de ingeniería genética que permiten la síntesis de
biomoléculas para generar nuevos sistemas de activación e inhibición de comportamientos
propios de la célula o para inducir la aparición de nuevas funciones no naturales. De esta
manera, se logra la creación de nuevos organismos programables, es decir, microrganismos
a la carta que se comportan como pequeños ordenadores.
Los circuitos genéticos formados por genes y sus reguladores se comportan de forma
equivalente a circuitos electrónicos realizando operaciones booleanas o lógicas. En
concreto, los circuitos genéticos se describen mediante diagramas semejantes a los que se
emplean en los circuitos eléctricos, con nodos que representan a determinados genes y
flechas que indican otros genes a los que regulan los primeros. La activación de estos genes
oscila entre los estados de encendido y apagado a medida que la señal se propaga por el
circuito, produciendo a su vez oscilaciones periódicas en la concentración de las proteínas
que codifican.
La creación de nuevos comportamientos bajo el control de diversos tipos de señales es
realizada mediante la inserción de ADN recombinante dentro de una célula huésped. Esto
se lleva a cabo mediante el ensamblaje de secuencias de ADN clave que regulan la
producción de los biocomponentes, a través de métodos de biología molecular como la
creación de clones recombinantes y la selección de estos por medio de genes resistentes a
antibióticos. Estos procedimientos requieren el uso de rigurosos y precisos protocolos de
laboratorio cuyo mínimo error puede ocasionar la pérdida total o parcial de las moléculas
utilizadas generando costos adicionales y pérdida de tiempo.
2.- ¿Cómo se programa una bacteria?
Actualmente la biología sintética aprovecha las características de una molécula de ADN
presente en el genoma bacteriano llamada “plásmido”. Dicho componente tiene la
propiedad de operar de manera independiente con respecto a la maquinaria genética de la
célula así como de duplicarse por si mismo durante la división celular. Estas propiedades
actualmente son manipuladas para producir biomoléculas de interés mediante la clonación
de genes recombinantes, por ejemplo, la producción de insulina a partir de la introducción
del gen que codifica dicha proteína dentro de la bacteria E. coli. Esto requiere un correcto
ensamblaje de los elementos que constituirán el gen de interés y una correcta selección de
las bacterias transformadas, es decir, aquellas que en el que el plásmido fue integrado.
Dentro de la secuencia de ADN (sucesión de bases nucleicas: A por Adenina, T por
Timina, G por Guanina y C por Citosina) cercana a la región de un gen existen pequeñas
secuencias clave necesarias para que este pueda ser transcrito y traducido en una proteína
funcional. Estas secuencias son señales que permiten el reclutamiento o el desprendimiento
de diferentes moléculas que se fijan a la cadena nucleica (polimerasas, ARNt, ribosomas,
etc) y que actúan en el proceso de transcribir el ADN en ARN y en el proceso de
traducción del ARN en proteínas. Cada una de estas señales puede ser representada por
“bloques” (bricks) funcionales cuyas diferentes y correctas combinaciones da origen a
nuevos elementos de control de expresión de los genes sintéticos. De la misma manera, la
secuencia de un gen puede ser modificada para la obtención de proteínas nativas o
transformadas introduciendo así la aparición de nuevos mecanismos de regulación que
activen o inhiban la producción de estos elementos.
El siguiente esquema ejemplifica una secuencia de ADN representada por bloques
funcionales que integran una unidad genética funcional llamada “operón” formada por un
grupo de genes capaces de ejercer una regulación de su propia expresión dentro de una
bacteria.
Figura 1: Operón lac y su representación en bloques funcionales. El bloque promotor + operador es la
secuencia necesaria para el posicionamiento de las molécula precursora del proceso de transcripción. El
operador permite la fijación de la proteína reguladora para activar o inhibir la transcripción de los genes
estructurales. El bloque RBS permite la fijación del ribosoma sobre la copia de ARN para su traducción en
proteína. El bloque CDS está compuesto por el codón de iniciación de la traducción, la secuencia que codifica
la proteína (ORF) y el codón de stop de la traducción. Es posible encontrar más de un CDS en el operón
siempre y cuando se agregue un RBS antes de cada bloque. El bloque stop de la transcripción permite el
desprendimiento de la ARN polimerasa de la cadena de ADN finalizando así la transcripción.
De esta manera, el correcto ensamblaje de bloques funcionales da origen a la creación de
plásmidos sintéticos (vectores) conectados de tal manera que produzcan los
biocomponentes necesarios para la aparición de un comportamiento determinado,
controlado por mecanismos de señalización propios del diseño del programa biológico.
Gracias al avance en materia de secuenciación del ADN y al desarrollo de bases de datos
bioinformáticos hoy es posible obtener la secuencia de genes y de proteínas funcionales
provenientes de diferentes organismos accediendo directamente a la información que se
encuentra disponible en diversos sitios en internet. Esto permite, entre otros análisis,
reconocer las secuencias clave que conforman cada uno de los bloques funcionales.
El evento más demostrativo en cuanto a trabajos de programación de microrganismos por
medio de biología sintética es el iGEM (International Genetically Engineered Machine), la
primera competición mundial en biología sintética dirigida a estudiantes no graduados,
patrocinada por el MIT (Instituto Tecnológico de Massachusetts). Los equipos son grupos
de estudiantes y profesores de diferentes universidades del mundo y de diversas áreas
como biología, matemáticas, informática o física. Esto es debido a que la
multidisciplinaridad es un elemento fundamental para el diseño y la implementación de un
proyecto de biología sintética. Tras inscribirse, los equipos reciben al principio del verano
un kit con una serie de partes biológicas intercambiables, también llamadas “biobricks”,
enviadas desde el Registro de Partes Biológicas Estándar. Durante el periodo estival, cada
uno de los equipos trabaja en sus respectivos centros educativos, empleando tanto las partes
que han recibido como nuevas partes de diseño propio, para la construcción de sistemas
genéticos y biológicos, y con objeto de hacerlos funcionar en organismos vivos.
3.- Un lenguaje de programación para la biología sintética.
El laboratorio IBISC de la universidad de Evry Val d’Essonne en Francia trabaja
actualmente en un proyecto llamado “Synbiotic” el cual tiene como objetivo desarrollar
herramientas informáticas que permitan especificar un comportamiento biológico espacial y
global y de compilarlo automáticamente a través de una serie de lenguajes intermediarios y
de procesos locales de regulación celular (regulación genética, metabólica y de
señalización). La idea es diseñar estos sistemas en un alto nivel de abstracción utilizando
herramientas basadas en la ingeniería y lenguajes de programación, pulsar un botón y tener
el diseño traducido a secuencias de ADN que pueden ser sintetizados y puestos a trabajar
en las células vivas.
GUBS1 (Genomic Unified Behavior Specification) es una propuesta de lenguaje de
programación destinado a la especificación comportamental de dispositivos sintéticos desde
el punto de vista de sistemas dinámicos discretos abiertos, es decir que factores externos
pueden modificar el comportamiento del programa. La principal idea de GUBS es escribir
programas usando variables que representen entidades biológicas abstractas y que mediante
1
F. Delaplace, A. Basso-Balndin . “GUBS, a behavior-based language for open system dedicated to synthetic
biology” IBISC Lab 2012 France.
expresiones de causa y efecto se describan relaciones comportamentales que permitan
identificar los agentes biológicos naturales (llamados “constantes”) los cuales sustituyan a
las variables.
Un ejemplo de lenguaje GUBS es la descripción de la activación y la inhibición de un gen,
cuya expresión sería:
Activación:
Inhibición:
En este ejemplo se expresa una regla de causalidad entre las constantes g1 y g2: La primera
representa la activación de g2 en presencia de g1 y la segunda describe la inhibición de g2
representada por la activación de g2 en ausencia de g1.
La compilación del programa consiste en la aplicación de reglas biológicas y teoremas
informáticos que permiten obtener la correcta sustitución de las variables por constantes
biológicas. Esto puede ser posible a través de algoritmos capaces de encontrar dentro de
bases de datos de redes metabólicas o de regulación de genes, las vías que cumplan con las
especificaciones del programa.
La tarea del siguiente nivel del lenguaje es proceder a la traducción en secuencia de ADN
una vez encontrados los elementos (genes, proteínas, bricks, biobricks) conferidos por la
etapa de compilación. En el caso de la programación de una bacteria, el algoritmo
propuesto para este nivel construye la secuencia deseada basándose en el modelo de
“operón” por medio del ensamblaje de los bloques funcionales descritos en la figura 1. Por
ejemplo, si el resultado de la compilación de un programa es la activación de la producción
de la proteína fluorescente “GFP” (Green Fluorescent Protein) que se encuentra bajo el
control de la proteína reguladora LacI, la expresión característica y el digrama en bloques
del operón serían los siguientes:
[Lactosa] LacI
GFP
Figura 2: Bloques funcionales que representan las secuencias que conformarán el operón para la activación de
la producción de GFP por la acción de la proteína reguladora LacI, la cual se fija a la región operadora del
promotor inactivando la transcripción del gen que contiene la secuencia de GFP. Solamente en presencia del
elemento “[Lactosa]” la proteína LacI podrá desprenderse de la región operadora activando así la
transcripción del gen lo que permite la producción de la proteína GFP.
El algoritmo que genera la secuencia de ADN del operón toma en consideración la
preferencia que tienen las bacterias en cuanto a la utilización del código genético. Existen
datos estadísticos que muestran que las bacterias utilizan preferentemente ciertos codones
(sucesión de tres bases nucleicas) que codifican para un mismo aminoácido lo cual, si no es
respetado, puede modificar la eficiencia en la producción de los biocomponentes sintéticos.
Por ello es necesario utilizar tablas que contengan los datos estadísticos sobre la preferencia
en el uso de codones de diferentes especies de bacterias de manera que se logre la
producción eficaz de biocomponentes de manera generalizada en ellas.
El algoritmo propuesto es también capaz de realizar fusiones de secuencias de genes para
formar proteínas modificadas. Si es necesario la fusión total o parcial de una proteína con
otra o la adición de una etiqueta representada por un bloque funcional esto puede ser
especificado dentro de la expresión de activación e inhibición mediante el uso del símbolo
“-“ (por ejemplo GFP-degradation/TAG o OmpA/signal-GFP).
Finalmente, en el último nivel de programación se pretende organizar de manera eficiente
las secuencias de ADN de los operones creados para la construcción de un plásmido que
cumpla con las exigencias biológicas de una determinada especie de bacteria. De esta
manera se logra obtener, a partir de un código con expresiones abstractas y una serie de
reglas de causalidad, la secuencia de ADN para la síntesis de un plásmido que contiene la
información necesaria para la aparición de un comportamiento deseado en una bacteria.
4.- Conclusión
La biología sintética requiere de herramientas de software para el modelado de procesos
biológicos, su simulación, su almacenamiento y su análisis. Esto permite tener una
generalidad sobre la diversidad biológica almacenada en bibliotecas de componentes
reutilizables que permita, la modularización y la abstracción de la información. Es este el
enfoque en materia de sistemas de construcción que requiere el uso de metodologías de
modelado por ordenador y de la síntesis de secuencias de ADN a partir de descripciones
funcionales de alto nivel.
Las aspiraciones de ciencias emergentes como la biología sintética, la nanobiotecnología y
la computación por ADN son el diseño de circuitos biológicos que detecten cambios
fisiológicos anormales en las células y den lugar a una respuesta basada en la
recombinación del gen anormal con su homólogo normal. Tanto los virus, bacterias y otros
microrganismos como los circuitos biológicos sintéticos pueden ser empleados para
reconocer y eliminar células anormales, siendo el cáncer la aplicación más inmediata.
Descargar