Curso: Introducción a la Bioinformática Introducción al diseño de primers INTRODUCCIÓN Esta guía es una breve aproximación al diseño de primers, utilizando programas bioinformáticos y pretende dar una orientación a aquellas personas que están incursionando por primera vez en esta amplísima disciplina que es la Bioinformática. Si esta guía orienta y ayuda al científico a realizar sus propios primers o cebadores, ha logrado su cometido. En la primera parte de esta guía, revisaremos algunos conceptos generales pertinentes al diseño de primer y a la amplificación enzimática de ADN mediante PCR, y en la segunda se detalla un taller que le permitirá poner en práctica la mayoría de los conceptos revisados. PARTE I Fundamentos teóricos de la amplificación enzimática de ADN mediante la Reacción en Cadena de la Polimerasa (PCR; polymerase chain raction) La Reacción en Cadena de la Polimerasa es una técnica que ha revolucionado el modo de manipular, clonar y detectar fragmentos de ADN, lo que le ha valido a su descubridor K. B. Mullis el Premio Nobel. Después de su descubrimiento en 1983, se ha convertido en una de las técnicas básicas de Biología Molecular, ampliamente utilizada debido a su rapidez, especificidad, flexibilidad y aplicabilidad. Entre sus aplicaciones generales encontramos la generación de sondas, clonación, secuenciación, diagnóstico clínico y tipificación de individuos y microorganismos, siendo entonces muy utilizada en medicina forense y en estudios filogenéticos. Un ciclo de PCR comienza con un calentamiento inicial que desnaturaliza el ADN blanco a 94-95 °C o más. Este primer paso del ciclo dura en promedio 90 s a 3 minutos. En el proceso de desnaturalización, las dos cadenas del ADN se separan una de la otra y permiten que la matriz (“template”) se encuentre como cadena simple, necesaria para la actividad llevada a cabo por la polimerasa termoestable durante los pasos de amplificación. En el siguiente paso del ciclo, la temperatura se reduce a un valor que oscila en el rango de los 40 °C a los 60 °C. A esta temperatura, cada uno de los oligonucleótidos (primers) hibrida con la secuencia complementaria en cada una de las cadenas simples de ADN, que se han separado en el paso anterior, y sirven como cebadores para la síntesis, por la polimerasa termoestable. La síntesis de ADN se inicia cuando la temperatura de la reacción llega al valor óptimo para la actividad de la polimerasa. Para la mayoría de las polimerasas esta temperatura se encuentra en, aproximadamente los 72 °C. Luego se permite la síntesis durante 30 s a 2 min. Este paso completa un ciclo y el siguiente ciclo se inicia con el retorno a los 94-95 °C para la desnaturalización. La cantidad de amplificado resultante va a depender de la disponibilidad de sustrato para la reacción por eso, los oligonucleótidos y los desoxirribonuclótidos trifosforilados se Lic. en Genética Ernesto Martín Giorgio 1 Curso: Introducción a la Bioinformática añaden en exceso respecto al ADN a amplificar. Como es fácil inferir, la concentración de ADN, oligonucleótidos, de y ADN polimerasa activa disminuyen después de cada ciclo debido a la síntesis que se está produciendo por lo que la reacción lleva a un máximo de amplificación, luego del cual el rendimiento y el número de copias obtenidas no aumentan. A esto se lo conoce como el efecto “Platteau”. En la reacción de PCR ideal, existen tres fragmentos de ácidos nucleicos. El fragmento de ADN de doble cadena a ser amplificado (molécula blanco o target) y dos oligonucleótidos de cadena simple que hibridizan en alguna región del ADN blanco (iniciadores o primers). Además están presentes: un componente proteico (la enzima ADN polimerasa), desoxirribonucleótidos trifosfatos (dATP, dCTP, dTTP y dGTP), buffers y sales. Los primers se añaden en un vasto exceso comparado con el ADN blanco a ser amplificado. Estos se hibridizan a las cadenas opuestas del blanco y se orientan enfrentándose con sus respectivos terminales 3’, de manera tal que la síntesis llevada a cabo por la ADN polimerasa se extiende a través de todo el segmento del ADN blanco situado entre ellos. Recordemos que la enzima ADN polimerasa cataliza el crecimiento de cadenas de ADN nuevas en la dirección 5’ > 3’. La primera ronda de síntesis resulta en la generación de cadenas de ADN nuevas sin una longitud determinada, las cuales como las cadenas parentales, se pueden hibridizar a los primers luego de la desnaturalización e hibridización. Estos productos se acumulan con una progresión aritmética a través de los ciclos siguientes. Sin embargo, el segundo ciclo de desnaturalización, hibridización y síntesis, produce dos productos de cadena simple que componen en conjunto un producto de doble cadena en el cual posee la longitud exacta del fragmento original delimitado entre los primers. Cada cadena de este producto discreto es complementaria a uno de los dos primers incluidos en la reacción y puede en consecuencia participar como blanco en los ciclos subsiguientes. Lic. en Genética Ernesto Martín Giorgio 2 Curso: Introducción a la Bioinformática La cantidad de este producto se duplica con cada ciclo subsiguiente, acumulándose exponencialmente. Así, treinta ciclos de desnaturalización, hibridización y síntesis resultan teóricamente en un factor de amplificación de 236 veces (68 billones de copias) del producto molecular original. Una PCR ideal debería ser altamente específica, fiel y de gran rendimiento. Cada uno de estos parámetros está influido por varios componentes de la propia reacción por lo que muchos casos ajustando las condiciones para la máxima especificidad no se obtiene buen rendimiento, o bien optimizando para la fidelidad no se obtiene buena eficiencia. En consecuencia, cada vez que se optimiza una PCR hay que tener en cuenta distintos aspectos que hacen que dicha reacción sea exitosa. ¿Cuáles son los factores de los que depende una PCR exitosa? Aunque el concepto de la PCR es simple, el desarrollo de una reacción exitosa depende de un número de factores. Algunos de ellos son: - Diseño de los oligonucleótidos iniciadores o cebadores (primers): El diseño cuidadoso de primers es uno de los aspectos más importantes de la PCR. Primers mal diseñados pueden amplificar otros fragmentos de ADN distintos a los buscados (amplificación inespecífica). En el diseño de los mismos algunas reglas se han demostrado como útiles, por ejemplo: I – Cada primer individual debe contar con una longitud de 18-24 bases. II – Se debe mantener un contenido de G:C (Guanina:Citosina) entre 40 y 60 %. III – Los dos primers del par deben de tener temperatura de fusión “Tm” cercanos, dentro de los 5 °C. IV – La secuencia de los primers individuales debe iniciarse y terminarse con 1 o 2 bases púricas. V – Evitar regiones con potencialidad para formar estructuras secundarias internas. VI – Evitar poli X. VII – Secuencias adicionales pueden ser agregadas en el extremo 5’ del primer (no incluir cuando se estima la Tm del primer). VIII – Se pueden agregar degeneraciones en algunas posiciones del primer: a - Se incrementa el riesgo de amplificación inespecífica. b - Se disminuye la concentración en la mezcla de cada uno de los primers posibles c - No se recomienda utilizar más de 64 primers diferentes en la mezcla. d - Código IUPAC/IUB: A C G T N M V adenina citosina guanina timidina en el ADN Uracilo en el ARN AoCoGoT AoC A o C o G; no T Lic. en Genética Ernesto Martín Giorgio R W S Y K H B D AoG AoT CoG CoT GoT A o C o T; no G C o G o T; no A A o G o T; no C 3 Curso: Introducción a la Bioinformática - Concentración del Cloruro de Magnesio: En ausencia de concentraciones adecuadas del ión Mg++ libre la ADN polimerasa es inactiva, por lo tanto, la concentración de Magnesio es un factor crucial que afecta el desarrollo de la PCR. Muchos de los componentes de la reacción unen Magnesio, incluyendo la matriz de ADN, agentes quelantes presentes en la muestra (EDTA o Citrato), dNTP’s y proteínas. Como resultado, se puede ver afectada la cantidad de Mg++ libre presente en la reacción. Por otro lado el exceso de Mg++ disminuye la fidelidad de la enzima y puede incrementar el nivel de amplificación no específica. Por lo tanto, para cada protocolo de amplificación por PCR se deben optimizar las concentraciones de Cl2Mg entre los rangos de 1 a 9 mM finales (esto se logra de manera experimental comparando el nivel de amplificación logrado con diferentes concentraciones de Mg++, proceso conocido como titulación de Mg++). - Elección de las enzimas: La elección de las enzimas para ser usada en PCR depende de varios factores. Entre las ventajas obtenidas mediante la utilización de polimerasas termoestables, comúnmente Taq, esta la habilidad de sintetizar ADN a altas temperaturas (alrededor de 72 C); las cuales permiten principalmente la eliminación de la mayoría de las estructuras secundarias presentes en la molécula blanco. Sin embargo, no todas las polimerasas termoestables son igualmente eficaces a la hora de amplificar. Taq no posee la actividad correctora 3’- 5’ con lo que su tasa de error es del orden de 10-4 errores por par de bases incorporadas, Vent del orden de 10-5 y Pfu del orden 10-7, siempre considerando que una polimerasa normal tiene una tasa de error de 10-6 errores por par de bases incorporadas. - Molde de ADN: Tendremos que cuantificar el DNA para conocer la masa de ácidos nucleicos disuelta, además de tener indicios acerca de su pureza. Varios autores indican la cantidad de matriz de ADN a agregar a la reacción, expresándola en micro, nano o picogramos. Con todo, las condiciones óptimas de la PCR siempre acaban por determinarse empíricamente. Formación de dímeros de cebadores (“primers dimers”) Este artificio ocurre frecuentemente como resultado del apareamiento de bases entre dos cebadores (o eventualmente, un extremo de un cebador sobre sí mismo). Dado que la ADN polimerasa elonga en sentido 5’ > 3’, un oligonucleótido cebador puede permitir a la enzima que a partir de su extremo 3’ continúe polimerizando según el templado constituido por el otro cebador. Los dímeros ocurren frecuentemente cuando la PCR se realiza por más de 30 ciclos o cuando la matriz está en muy baja concentración. Aunque si existe una alta complementariedad entre los primers los primeros cambios de temperatura pueden provocar una predominancia de éstos frente al amplicón deseado, perjudicando enormemente al resultado de la PCR. Lic. en Genética Ernesto Martín Giorgio 4 Curso: Introducción a la Bioinformática PARTE II Primer3 Como la PCR es una herramienta de suma importancia, a la que suelen desembocar muchas investigaciones, es necesario conocerla y utilizarla en cada momento que sea necesario. Aunque siempre tenemos que poner a punto una reacción de PCR antes de hacer uso extensivo de ella, uno de los pasos fundamentales es contar con los “primers” y con las características de los mismos. Esto nos permitirá sortear exitosamente uno de los pasos primordiales para obtener la mejor calidad y cantidad del producto de amplificación. Surge entonces la pregunta: si no existen primers descriptos para amplificar una región dada… ¿cómo los podemos diseñar y analizar? Sin dudas, tendremos que recurrir a los recursos bioinformáticos básicos, muchos de los cuales se encuentran gratuitamente en Internet. Para diseñar y analizar un par de primers para ser usados en una reacción de PCR contamos con varios programas. En éste sencilla guía introductoria, haremos uso de uno denominado Primer3. Primer3 es una aplicación que se encuentra libre para su uso en diferentes servidores web. En esta oportunidad utilizaremos la implementación de éste programa ofrecido por la página JustBio.com. Este software permite especificar un gran número de variables y obtener primers según las indicaciones solicitadas. Además permite agregar el número de acceso de la secuencia, que se halla en las bases de datos internacionales. También permite discriminar las regiones de la secuencia que se deben incluir, las que se deben excluir y el rango de tamaños del producto. Por otra parte, el software incluye la posibilidad de especificar las características mínimas de los primers deseados, como Tm, porcentaje de GC, máxima autocomplementariedad, y otros parámetros. También presenta las mismas facilidades si se está buscando y analizando una sonda, por ejemplo, para utilizarse en trabajos de hibridación. Acceda al programa Primer3 en la siguiente dirección: http://www.justbio.com/. Antes de comenzar con la aplicación deberá registrarse. Luego diríjase a Hosted Tools > Primer3. Después de unos segundos se encontrará con una página web similar a la imagen siguiente: Lic. en Genética Ernesto Martín Giorgio 5 Curso: Introducción a la Bioinformática La página principal del programa consiste en un gran recuadro en blanco, en donde debemos “pegar” la secuencia en formato FASTA. Exactamente debajo de éste recuadro, se encuentran 3 columnas con cuadros de marca permiten seleccionar que es lo que deseamos obtener como salida del programa. Tildando (click) en las columnas de los extremos se obtienen cebadores, y tildando solo la columna del centro se obtiene como salida una sonda. Al mover la ventana del navegador hacia abajo encontrará que Primer3 cuenta con diversas secciones que le permiten controlar una amplia variedad de parámetros relacionados con el diseño de primers. Por favor no se sienta intimidado/a por la cantidad de parámetros modificables por Primer3, la mayoría de estos son rara vez modificados, aún por los “especialistas” del diseño de primers. Por ser este, nuestro primer acercamiento al diseño de primers mediante esta herramienta, utilizaremos un set de condiciones mínimas (por default) y la secuencia correspondiente al ARN mensajero que codifica para el gen Gurken en Drosophila melanogaster, número de acceso NM_057220.3. Abra otra ventana y diríjase a la página del National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov. En la solapa de búsqueda cambie All Database por Nucleotide. A continuación escriba el número de acceso y oprima el botón Search. Visualice y abra la solapa de Display Settings y elija FASTA. Copie la secuencia del gen Gurken y péguela en el Box vacio del Primer3. Lic. en Genética Ernesto Martín Giorgio 6 Curso: Introducción a la Bioinformática Por defecto Primer3 tiene habilitadas las opciones de encontrar tanto un primer corriente arriba (pick left primer or use left primer below) como corriente a bajo de nuestra secuencia. Deshabilitando cualquiera de ellas evitaremos que el programa busque el primer en cuestión. Por otra parte, si tenemos habilitadas estas opciones e ingresamos un primer en la casilla de texto justo debajo de dichas opciones, Primer3 buscará el primer recién ingresado. Por esta vez dejaremos estas opciones tal y como se encuentran. Luego de oprimir el botón PickPrimers y esperar unos segundos, aparecerá ahora la página de resultados de Primer3: Lic. en Genética Ernesto Martín Giorgio 7 Curso: Introducción a la Bioinformática Los resultados se obtienen en pocos segundos y se presentan en una tabla, cuyo título es “Primer3 Output”. Estos incluyen un mapa de los mejores pares de oligonucleótidos (leftizquierdo, right-derecho) de acuerdo a las especificaciones dadas en el formulario. Además, y por defecto, Primer3 muestra 4 opciones de primers opcionales (en la sección “Additional Oligos”). La posición (start), el tamaño (len), la temperatura de melting (Tm) y el porcentaje de GC (GC%) están presentes para cada par de oligonucleótidos. Si bien, la mayoría de estos datos arrojados en la página de resultados son bastante explícitos, tal vez los más confusos sean las columnas denotadas como “any” y “3'”. “any”: Máxima Complementariedad (o denominada Autocomplementariedad Local): refleja el máximo alineamiento local permisible. Se toma como predictora de la tendencia de los primers a hibridar entre ellos. “3’“: Máxima Complementariedad 3’ (ó denominado Alineamiento Global Anclado en 3’) es un puntaje máximo permisible cuando se testea la complementariedad entre los primers izquierdo y derecho. Se toma para predecir la probabilidad de generación de dímeros de primers durante la reacción de PCR. Como habrá notado el programa resulta bastante sencillo de utilizar, la clave para su utilización se encuentra en el conocimiento que tengamos acerca de los diferentes parámetros que van a guiar nuestra reacción de PCR. La manera de operar con Primer3 es básicamente la misma para cualquiera de las otras 70 opciones disponibles. Varíe las diferentes opciones disponibles en Primer3 y familiarícese con algunas de ellas, y aplique las diferentes “reglas” o consejos generales que se encuentran al comienzo de esta guía para el diseño de primers. Lamentablemente no es posible asegurar con un 100% de certeza que un primer diseñado mediante una herramienta bioinformática va a ser completamente efectivo, pero sin duda le ayudará a aproximarse a la solución más óptima de una manera muy rápida y sencilla. CODEHOP CODEHOP (COnsensus – DEgenerate Hybrid Oligonucleotide Primers) es un programa interactivo que ha sido desarrollado para el diseño de primers degenerados provenientes de bloques conservados de aminoácidos dentro de un alineamiento múltiple de secuencias proteicas. El programa se encuentra libre para su uso. Acceda al programa CODEHOP por medio de la siguiente dirección: http://blocks.fhcrc.org/codehop.html. Después de unos segundos se encontrará con una página web similar a la imagen siguiente: Lic. en Genética Ernesto Martín Giorgio 8 Curso: Introducción a la Bioinformática Al mover la ventana del navegador hacia abajo, encontrará algunas secciones (muchas menos en este caso) que le permitirá controlar una variedad de parámetros relacionados con el diseño de primers. De forma similar al programa visto anteriormente, por ser este, nuestro primer acercamiento al diseño de primers degenerados mediante esta herramienta, utilizaremos un set de condiciones mínimas (por default) y las secuencia correspondientes a los ARN mensajeros que codifican para la proteína del gen Gurken en distintas especies de Drosophila. Los números de acceso son los siguientes NP_476568.2 perteneciente a D. melanogaster, XP_001962566.1 D. ananassae, XP_002018718.1 D. persimilis y XP_002132416.1 D. pseudoobscura pseudoobscura. Abra otra ventana y diríjase a la página del National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov. En la solapa de búsqueda cambie All Database por Protein. A continuación escriba el número de acceso y oprima el botón Search. Visualice la solapa de Display Settings y elija FASTA. Copie las secuencias de los genes y péguelas en un Bloc de notas. Realice un alineamiento múltiple con estas secuencias y guarde el archivo con extensión *.clustalw. Vuelva a la página principal de CODEHOP y abra el hipervínculo Multiple Alignement Processor. Después de unos segundos se encontrará con una página web similar a la imagen siguiente: Lic. en Genética Ernesto Martín Giorgio 9 Curso: Introducción a la Bioinformática Desplazándose sobre la ventana hacia abajo se encontrará con la siguiente imagen, aquí podrá cargar la ruta de acceso de su archivo *.clustalw obtenido por medio del programa que utilizó para el alineamiento múltiple. Una vez cargado el archivo, oprima el botón Submit, luego de unos segundos aparecerá la siguiente ventana: Lic. en Genética Ernesto Martín Giorgio 10 Curso: Introducción a la Bioinformática En esta página diríjase a la sección Primers y abra el hipervínculo CODEHOP. Este hipervínculo regresa a la ventana principal del programa y, que en este momento se encuentra cargada con los distintos blocks generados por el programa. Luego de oprimir el botón Look for primers y esperar unos segundos, aparecerá ahora la página de resultados de CODEHOP: Lic. en Genética Ernesto Martín Giorgio 11 Curso: Introducción a la Bioinformática Los resultados se obtienen en pocos segundos. Estos incluyen el primer sentido y el antisentido, el índice de degeneración, el tamaño del core, el tamaño de clamp, la puntuación o el score y la temperatura de melting. De igual forma que Primer3, la manera de operar con CODEHOP, es básicamente la misma para cualquiera de las otras opciones disponibles. Como podrá notarlo el programa resulta bastante sencillo de utilizar, y no se olvide que la clave para su utilización se encuentra en el conocimiento que tengamos acerca de los diferentes parámetros que van a guiar nuestra selección de los primers degenerados. Una vez que haya obtenido sus primers, su responsabilidad final es verificar que ellos no hibridicen en cualquier parte – excepto en el lugar que Ud. quiere que hibridicen. Por lo tanto, es muy recomendable que realice un análisis BLAST, con los primers recién diseñados, de tal manera que se asegure que dichos primers no sean complementarios a ninguna de las “posibles secuencias” involucradas en su reacción de PCR (por ejemplo, vectores de clonación). La metodología para realizar dicho análisis es la misma que se sigue para cualquier análisis BLAST, para este propósito puede visitar el servidor NCBI BLAST. Lic. en Genética Ernesto Martín Giorgio 12