GENÓMICA (Una guía de lectura introductoria al tema) La genómica es el campo de la genética que intenta comprender el contenido, la organización, la función y la evolución de la información genética contenidos en el genoma completo. Su principal objetivo de estudio es la caracterización molecular de los genomas completos. La genómica integra las disciplinas tradicionales: citología, genética mendeliana, cuantitativa, molecular, de poblaciones y nuevas disciplinas como la bioinformática. Para identificar y cartografiar de manera sistemática todos los genes del genoma de un organismo se procedió a: Identificar mutaciones espontáneas o generar colecciones de mutantes usando agentes químicos o físicos. Generar mapas genéticos mediante análisis de ligamiento utilizando las cepas mutantes. 1 2 Figura 1. Organismos modelo utilizados para identificar mutaciones y generar 5 mapas genéticos: 1. Maíz, 2. Drosophila, 3 3. E. coli, 4. Ratón y 5. Levadura. 4 Durante la década de 1980 los genetistas comenzaron a utilizar la tecnología del ADN recombinante como una aproximación al análisis genético, cartografiando secuencias de ADN clonadas en cromosomas específicos. La mayor parte de estas secuencias no eran genes, sino marcadores como polimorfismos de longitud de fragmentos de restricción (RFLP), polimorfismo de un único nucleótido (SNP) y otros. Una vez asignados a un cromosoma, estos marcadores se utilizaban en árboles genealógicos para establecer un ligamiento entre los marcadores y enfermedades genéticas. Este método denominado clonación posicional se utilizó para cartografiar, aislar, clonar y secuenciar los genes de distintas enfermedades. 1 A mediados de 1980 ya se habían asignado más de 3.500 genes y marcadores a cromosomas humanos. Actualmente se han secuenciado centenares de genomas de procariotas y eucariotas, y hay más de mil proyectos en ejecución. La Genómica incluye diversos campos Genómica Estructural Genómica Funcional Genómica Comparativa La Genómica Estructural incluye la construcción de los datos de la secuencia del genoma, el descubrimiento de los genes y su localización y la construcción de mapas genéticos. La Genómica Funcional estudia la función biológica de los genes, su regulación y sus productos. La Genómica Comparativa compara secuencias de genes y proteínas de diferentes genomas para elucidar las relaciones funcionales y evolutivas. 2 La Proteómica es una extensión de la Genómica y su objetivo es el estudio de las proteínas presentes en una célula, en un tejido, en un fluido en un momento dado bajo determinadas condiciones. Define el conjunto completo de proteínas codificadas por un genoma. Incluye: Identificación de todas las proteínas expresadas en una célula bajo determinadas condiciones. La naturaleza y el alcance de cualquier modificación pos-traduccional de las proteínas. Las interacciones proteína-proteína. La localización subcelular de las proteínas. 3 GENÓMICA ESTRUCTURAL La Genómica estructural se ocupa de la secuenciación y la comprensión del contenido del genoma. A menudo, uno de los primeros pasos en la caracterización de un genoma es preparar mapas genéticos y físicos de sus cromosomas. Estos mapas proporcionan información sobre las localizaciones relativas de genes, los marcadores moleculares y los segmentos cromosómicos, que suelen ser esenciales para posicionar los segmentos cromosómicos y alinear tramos del ADN secuenciado en una secuencia del genoma completo. MAPAS GENÉTICOS Los mapas genéticos (mapas de ligamiento) proporcionan una aproximación a grandes rasgos de las localizaciones de los genes en relación con las de otros genes conocidos. Estos mapas se basan en la función genética de recombinación. Para la construcción de los mapas se cruzan individuos heterocigotos en dos o más loci genéticos y se determina la frecuencia de recombinación mediante el examen de la progenie. Si la frecuencia de recombinación entre dos loci es del 50%, entonces los loci están ubicados en cromosomas diferentes o están muy separados en el mismo cromosoma. Si la frecuencia de recombinación es menos del 50%, los loci están localizados muy próximos en el mismo cromosoma (pertenecen al mismo grupo de ligamiento). Para los genes ligados, la frecuencia de recombinación es proporcional a la distancia física entre los loci. Las distancias genéticos son porcentaje de en los mapas medidas en recombinación (centimorgans, cM) o unidades de mapa (um). Figura 2. Los mapas genéticos se basan en la frecuencia de recombinación. Marcadores de ADN Distancia en un mapa genético 4 Durante muchos años, los genes podían detectarse sólo observando su influencia en un rasgo (fenotipo) y la construcción de mapas genéticos estaba limitada por la disponibilidad de rasgos de un locus individual que podrían examinarse por la evidencia de la recombinación. Al final, esta limitación se superó con el desarrollo de técnicas moleculares, como el análisis de polimorfismos de la longitud del fragmento de restricción, la reacción en cadena de la polimerasa (PCR) y la secuenciación de ADN, mejorando los mapas genéticos. Los mapas genéticos tienen varias limitaciones, la primera es la baja resolución o el detalle. Segundo, no siempre se corresponden con precisión a las distancias físicas entre los genes. Los mapas genéticos se basan en las frecuencias de entrecruzamiento o recombinación, que varían de un cromosoma a otro, de modo que las distancias de un mapa genético son sólo aproximaciones de distancias físicas reales a lo largo de un cromosoma. A pesar de estas limitaciones, los mapas genéticos han sido fundamentales para el desarrollo de los mapas físicos y la secuenciación de genomas completos. MAPAS CITOGENÉTICOS Los mapas citogenéticos o cromosómicos constituyen una etapa intermedia entre los mapas genéticos y los mapas físicos. Figura 3. Comparación del mapa citogenético del cromosoma 1 del búfalo (BBU1) a la izquierda y la alineación con la secuencia de montaje del cromosoma 1 y 27 del bovino (BTA1 BTA27) a la derecha. Los marcadores comunes a ambos están unidos por una línea o una línea roja sólida sólida de color (circulo). Las negro líneas rojas indican los marcadores que se orientan de forma secuencial pero invertida. 5 Con el avance de las técnicas de bandeo cromosómico, la citogenética cuenta con una herramienta de mayor precisión en la individualización de los cromosomas, facilitando su agrupamiento y clasificación morfológica. El estudio citogenético en animales domésticos se ha desarrollado rápidamente en los últimos años. Hoy en día es utilizado como elemento de diagnóstico que permiten detectar un gran número de patologías. A su vez el bandeo cromosómico, ha permitido precisar la localización de genes aportando información al mapa genético. Por otro lado permiten realizar estudios evolutivos de especies relacionadas entre sí. La construcción de los mapas citogenéticos o cromosómicos se realizan utilizando técnicas que no incluyen la reproducción sexual (meiosis) y, por lo tanto, asignan una localización según las regiones citogenéticas (además, estos mapas presentan la ventaja de no requerir del uso de marcadores polimórficos). Esas técnicas son: Hibridación in situ, Híbridos de células somáticas Híbridos de radiación. Hibridación In Situ. Cuando una secuencia de ADN, en este caso referida como una “sonda” de ADN (en inglés, probe), es marcada con isótopos radioactivos o fluorescencia, podemos hibridarla con su secuencia complementaria en el ADN genómico de un cromosoma específico y observar la marca directamente sobre el extendido cromosómico con un microscopio óptico. Las células deben estar fijas y los cromosomas esparcidos en un portaobjetos y expuestos a una solución de pH elevado para romper el apareamiento de bases y permitir el acceso a las sondas. La hibridación in situ fluorescente (FISH) es una técnica muy sensible siempre que se cuente con sondas lo suficientemente grandes (y homólogas) y que se suprima la fluorescencia de fondo. La sensibilidad de esta variante de la técnica de hibridación in situ es que permite localizar una secuencia con una precisión de hasta 30 Mb y de detectar anormalidades cariotípicas en cromosomas metafásicos tanto como interfásicos. Los fluorocromos más empleados son: fluoresceína (FITC), rodamina (XRITC) y Texas Red. Figura 4. Cromosoma 4 que presenta una duplicación de la banda q21 detectado con la técnica FISH La hibridación in situ es la técnica de elección para la localización rápida de los transgenes. 6 Por último, el pintado de cromosomas (del inglés chromosome painting) es una variante del FISH que emplea una mezcla de sondas de ADN derivada de un cromosoma entero o de una región cromosómica de interés. Se utiliza para obtener patrones de regiones homólogas entre diferentes especies y es una forma muy directa de evaluar la cantidad de rearreglos que se produjeron entre dos especies en el curso de la evolución. Híbridos de Células Somáticas Fibroblasto humano Célula tumoral del ratón Para esta técnica se utilizan células híbridas (viables) derivadas de la fusión in vitro de células Los fibroblastos humanos y las células tumorales de ratón se mezclaron en presencia de polietilenglicol somáticas de especies diferentes de mamíferos. Aunque se desconoce la razón, se observa que los cromosomas que se van Heterocarion …y dan origen a células híbridas denominadas heterocarion perdiendo en las células híbridas pertenecen exclusivamente a uno de los conjuntos parentales. Por Célula híbrida con núcleos fusionados Figura 5. La hibridación de células somáticas puede utilizarse para determinar cuál es el cromosoma que contiene el gen de interés. ejemplo, los híbridos humano/roedor tienden a perder (a través de los sucesivos cultivos y en forma preferencial) los cromosomas humanos y quedarse con una mayoría de cromosomas Líneas celulares de roedor. Debido a esto, es posible derivar un panel de células híbridas que representen cada cromosoma humano en forma única, sobre un conjunto de cromosomas de roedor. Por lo tanto, todos los genes de origen roedor son retenidos (y se expresan normalmente), mientras que sólo los genes presentes en el único cromosoma humano que quedó retenido en ese híbrido podrán ser localizados por medio del uso de sondas moleculares o el análisis de expresión. De esta manera, detectando patrones de presencia o ausencia de marcadores (o expresión de genes) y correlacionando con los cromosomas presentes en el híbrido, se puede asignar un gen humano a un cromosoma en particular. Los híbridos de células somáticas humano/ratón, con un complemento limitado de cromosomas humanos (intactos), han sido muy usados para localizar genes humanos en los últimos 20 años, a pesar de ser muy inestables. 7 Híbridos de Radiación (HR) Otra técnica desarrollada para obtener mapas de alta resolución son los paneles de híbridos de radiación (Radiation Hybrid –RH), enfoque descripto por Goss y Harris en 1975. Las dos grandes ventajas de este sistema son que pueden mapearse marcadores o genes no polimórficos (se evalúa sólo la presencia o ausencia de un marcador) y que se logra una resolución mayor que con los mapas de ligamiento, constituyendo un puente entre éstos y los mapas físicos. Estos paneles de células híbridas se construyen a partir de células donantes (de la especie a ser mapeada) que han sido irradiadas letalmente (ya sea con rayos g o X) para causar la fragmentación de sus cromosomas (por roturas de doble cadena). Las células así irradiadas son fusionadas con líneas celulares receptoras deficientes para un marcador de selección, como ser la timidina quinasa (TK–) o la hipoxantina fosforibosil transferasa (HPRT–). Usando condiciones de selección con medios apropiados, sobrevivirán sólo aquellas células que contengan, por lo menos, algún fragmento cromosómico proveniente de las células dadoras. El concepto teórico es que aquellos loci que se encuentran muy próximos unos de otros serán retenidos en el mismo fragmento cromosómico después de la radiación. Esta característica es similar al principio de ligamiento genético que hemos visto en los mapas meióticos. Como en los paneles de ADN obtenidos con cruzas de animales, la información de los paneles HR es acumulativa y puede proveer datos para el ordenamiento (de alta resolución) de regiones no polimórficas o no separables por los mapas de ligamiento. Figura 6. Híbridos de radiación. Construcción de clones de híbridos de radiación (HR) a partir de células donantes con un único cromosoma humano (híbrido mono-cromosómico) y células receptoras de hámster. Cada clon (abajo) presenta una colección diferente (al azar) de fragmentos del cromosoma humano original. Los 6 loci hipotéticos (A a F) se marcan como + (presencia) o - (ausencia), dando una idea del ordenamiento en el cromosoma original 8 Cuando se evalúa un marcador (por Southern blot, FISH o PCR), el patrón de presencia (+) o ausencia (–) a través del panel, define el emplazamiento del mismo: aquellos marcadores con el mismo patrón de + y – estarán localizados en el mismo “bin” o posición. Estos estudios se conocen como “patrones de retención de marcadores” y nos ayudan a determinar la ubicación de un gen o marcador. En estos casos, la unidad para medir la distancia en el mapa es el Ray o el centiRay (cR). MAPAS FÍSICOS Los mapas físicos están basados en el análisis directo del ADN y ponen los genes respecto a distancias medidas en el número de pares de bases, kilobases o megabases. Un tipo común de mapa físico es el que conecta piezas aisladas de ADN genómico que fue clonado en bacterias o levaduras. Una de las ventajas es que, por lo general, los mapas físicos tienen resolución mayor y son más exactos que los mapas genéticos. Clones de ADN alineados Figura mapas 7. físicos Los a menudo se utilizan para ordenar los fragmentos de ADN clonados. Mapa genético Cromosoma Mapa físico Secuencia de ADN Hay varias técnicas para crear mapas físicos, entre las que se incluyen el mapeo de restricción, que determina las posiciones de sitios de restricción en el ADN; el mapeo del sitio de secuencia específica (sequence-tagged site, STS), que localiza las posiciones de secuencias cortas únicas de ADN en un cromosoma; la hibridación in situ fluorescente (fluorescent in situ hybridization, FISH), por el cual pueden mapearse los marcadores visualmente en sus localizaciones cromosómicas y la secuenciación de ADN. 9 VISUALIZACION DE LOS FRAGMENTOS DE ADN Para la visualización de fragmentos de ADN se encuentran disponibles numerosas técnicas, entre las que se pueden mencionar: 1. La electroforesis es una técnica bioquímica estándar para la separación de moléculas sobre la base del tamaño y la carga eléctrica. Hay varios tipos. Se prepara un gel poroso de agarosa que se funde en una solución buffer. Al enfriarse se solidifica. En uno de los extremos del gel se realizan indentaciones (pocillos) para contener las soluciones con fragmentos de ADN y se somete a una corriente eléctrica que pasa a través del gel. Dado que el grupo fosfato del ADN tiene carga negativa, los fragmentos de ADN migran hacia el extremo positivo del gel. La distancia que recorre cada fragmento depende de su tamaño. Luego se produce la tinción del gel con un colorante específico como bromuro de etidio. La electroforesis es muy utilizada en la tecnología de ADN recombinante. 2. Otra técnica es la Southern blot, sirve para transferir los fragmentos desnaturalizados monocatenarios provenientes de un gel a un medio sólido delgado. Estos fragmentos son cortados por una o más enzimas de restricción. Se puede identificar que clones de una biblioteca contienen una determinada secuencia de ADN y para caracterizar el tamaño de los fragmentos. También se puede utilizar para determinar si un clon contiene todo un gen o solo parte de el. Los fragmentos se separan por electroforesis en gel, lo que produce una serie de bandas. Se tiñe el ADN en el gel con bromuro de etidio y se fotografía o escanea para determinar el número y peso molecular de los fragmentos. El ADN se debe desnaturalizar en fragmentos de cadena sencilla con un tratamiento alcalino. Se cubre el gel con una membrana de nitrocelulosa. Los fragmentos de ADN del gel se transfieren a la membrana colocando la membrana y el gel sobre un pabilo (esponja) sumergida parcialmente en una solución tampón. Se colocan varias capas de papel de celulosa secante. La acción capilar arrastra el tampón por el gel y de esta manera se transfieren los fragmentos de ADN del gel al filtro de nitrocelulosa. Después de la transferencia al gel se coloca en una solución de hibridación de una sonda marcada en forma radiactiva o química. La sonda se unirá a todos los fragmentos de ADN en la membrana que posee secuencias complementarias. Luego se lava la membrana para sacar la sonda no unida y la sonda unida se detecta por autorradiografía u otro método para sondas marcadas. 10 Figura 8. Técnica de Southern blot para transferir los fragmentos desnaturalizados monocatenarios provenientes de un gel a un medio sólido delgado. 3. El Nothern blot es la transferencia de ARN también de un gel a un soporte sólido mediante un proceso denominado. La hibridación puede revelar el tamaño de una molécula de ARN mensajero particular, su abundancia o los tejidos en los que se transcribe. 4. El Western blot es la transferencia de la proteína de un gel a una membrana. La sonda puede ser un anticuerpo, utilizado para determinar el tamaño de una proteína y el patrón de expresión. 5. Hibridación in situ (explicada anteriormente) 6. Footprinting del ADN Muchas secuencias del ADN actúan como sitios de fijación para proteínas por ej. las secuencias consenso en promotores que son los sitios a menudo sitios de fijación para los factores de transcripción. Esta técnica se utiliza para determinar las secuencias de ADN fijadas a estas proteínas. 7. Mutagénesis Una manera muy eficaz para estudiar los genes es provocar mutagénesis y estudiar los efectos en el organismo. 11 8. Animales transgénicos En ratones y otros mamíferos el ovocito es lo suficientemente grande como para inyectar el ADN de manera directa. En el estado de dos pronúcleos antes de la fecundación. Antes de la fecundación se puede inyectar el ADN en uno de ellos y así unas copias de ADN son inyectadas y se integran al azar mediante un proceso denominado recombinación no homóloga. Los embriones se implantan luego en una hembra seudopreñada, madre sustituta. Figura 9. Animales transgénicos. Los animales alterados son transgénicos y el ADN aportado extraño se denomina transgen. 9. Ratones con desactivación génica ¨Knock-out¨ Es una variante que consiste en producir ratones en los que se les desactiva un gen normal. Sus fenotipos ratones con desactivación permiten determinar la función de un gen. La manera habitual es insertar un gen neo que confiere resistencia al antibiótico G418. La inserción rompe el gen blanco y proporciona un marcador conveniente para hallar copias del gen desactivado. Después de transferir el gen desactivado a las células embrionarias se seleccionan mediante el agregado del antibiótico G418. Solo sobrevivirán las células con el gen desactivado. Figura 10. Knock-out. Dentro del ratón la copia normal del gen puede intercambiarse con la desactivada a través de la recombinación. 12 Reacción en Cadena de la Polimerasa para amplificar el ADN (PCR) Permite amplificar los fragmentos de ADN miles a millones de veces en el transcurso de unas pocas horas. Puede utilizarse con cantidades pequeñas de ADN original incluso una sola molécula. La PCR ha revolucionado la biología molecular y es hoy una de las técnicas moleculares más utilizadas. La base de la PCR es la replicación catalizada por una ADN polimerasa, que tiene dos requisitos esenciales: un molde de ADN monocatenario a partir del cual puede copiarse una nueva cadena de ADN y un cebador al que pueden agregarse los nuevos nucleótidos. Debido a que una molécula de ADN consta de 2 cadenas de nucleótidos cada una puede servir como molde para producir una nueva molécula de ADN, la cantidad de ADN se duplica con cada replicación. El punto de partida de la síntesis de ADN en el molde es determinado por la elección de los cebadores. Los cebadores utilizados en la PCR son los fragmentos cortos de ADN, de manera típica de 17 a 25 nucleótidos de longitud, que son complementarios a las secuencias conocidas en el molde. Para cada cadena se utiliza un cebador diferente. Para llevar a cabo la PCR se comienza con: una solución que incluye el ADN blanco (ADN por ser amplificado), la ADN polimerasa, los cuatro desoxirribonucleósidos trifosfatos los cebadores que son complementarios a las secuencias cortas en cada cadena de ADN blanco los iones magnesio y otras sustancias que son necesarias para que se produzca la reacción. Una reacción en cadena de la polimerasa incluye 3 pasos: Paso 1: una solución de ADN se calienta entre 90ºC y 100ºC para romper los puentes de hidrógeno entre las dos cadenas de nucleótidos y producir así los moldes monocatenarios necesarios. La mezcla de la reacción se mantiene a esta temperatura durante sólo uno o dos minutos. Paso 2: la solución de ADN se enfría con rapidez a una temperatura entre 30ºC y 65ºC y se mantiene así durante un minuto o menos. Los cebadores se adhieren a sus secuencias complementarias en las cadenas molde. Paso 3: la solución se calienta entre 60ºC y 70ºC, temperatura a la cual la ADN polimerasa puede sintetizar cadenas nuevas de ADN mediante el agregado de nucleótidos a los cebadores. En el transcurso de unos pocos minutos se producen dos moléculas nuevas de ADN bicatenario por cada molécula original de ADN. Luego se repite cada ciclo completo. Con cada ciclo, la cantidad de ADN se duplica; de modo que éste aumenta en forma geométrica. Una molécula de ADN aumenta a más de 10.000 13 moléculas en 10 ciclos de PCR, a más de un millón de moléculas en 20 ciclos y a más de mil millones de moléculas en 30 ciclos. Cada ciclo se completa en el término de unos pocos minutos; por tanto, en unas pocas horas se obtiene una amplificación grande de ADN. Figura 11. Pasos de la PCR Dos innovaciones importantes facilitaron el uso de la PCR: El descubrimiento de la ADN polimerasa que es estable a las temperaturas elevadas (polimerasa Taq). El desarrollo de cicladores térmicos automatizados, es decir, máquinas que provocan los cambios de temperaturas rápidos requeridos para los diferentes pasos de la PCR. En la actualidad la PCR se utiliza con frecuencia en lugar de la clonación génica, pero tiene varias limitaciones. El uso de PCR requiere el conocimiento previo de parte de la secuencia del ADN para permitir la construcción de cebadores. Otra limitación es que el tamaño de los fragmentos que pueden amplificarse por la polimerasa Taq estándar suele ser menor de 2000 pb. A pesar de sus limitaciones la PCR se utiliza habitualmente en una amplia gama de aplicaciones moleculares. 14 SECUENCIACION SECUENCIACIÓN DEL ADN En cierto sentido, un ADN clonado o no, no está completamente caracterizado hasta que se conoce su secuencia nucleotídica. La capacidad de secuenciar ADN ha permitido grandes avances en el conocimiento de la organización del genoma y de los genes, incluyendo su estructura, función y mecanismos de regulación. Los primeros métodos para la secuenciación rápida de ADN se desarrollaron entre 1975 y 1977. Frederick Sanger y col. crearon el método de secuenciación dideoxi basado en la elongación del ADN; Allan Maxam y Walter Gilbert desarrollaron un segundo método basado en la degradación química del ADN. El método de Sanger se convirtió con rapidez en el procedimiento estándar para la secuenciación de cualquier fragmento purificado de ADN. Método químico de Maxam y Gilbert Un fragmento de ADN se marca radioactivamente en sus extremos con gamma 32P ó gamma 32S dATP por acción de la polinucleótido quinasa. La técnica consiste en romper estas moléculas marcadas con reacciones químicas específicas para cada una de las cuatro bases. Cuatro alícuotas de la misma muestra se tratan bajo condiciones distintas, posteriormente el tratamiento con piperidina rompe la molécula de ADN a nivel de la base modificada. Los productos de estas cuatro reacciones se resuelven en función de su tamaño en geles de poliacrilamida donde la secuencia puede leerse en base al patrón de bandas radioactivas obtenidas. Esta técnica permite la lectura de unas 100 bases de secuencia. 15 Figura 12. Método químico de Maxam y Gilbert. Método enzimático de Sanger En este método se utilizan pocos reactivos tóxicos y cantidades menores de radioactividad que en el método de Maxam-Gilbert, y su característica didesoxinucleótidos particular es el trifosfato (ddNTPs) uso de como terminadores de la cadena de ADN. Los ddNTPs Base nitrogenada son desoxinucleótidos de los 4 nucleótidos diferentes (dATP,dTTP, dCTP y dGTP) que carecen de uno de los grupos hidroxilo, de manera que cuando uno de estos nucleótidos se incorpora a una cadena de ADN en crecimiento, esta cadena no puede continuar elongándose ya que la enzima ADN polimerasa necesita un extremo 3’ OH para añadir el siguiente nucleótido, y el ddNTP, marcado en forma radioactiva o química, incorporado carece de este grupo hidroxilo. Al terminar la elongación de la cadena, se producen varios fragmentos de ADN de longitud variable, los cuales son desnaturalizados por calor y separados por tamaño (con una resolución de un solo nucleótido) mediante electroforesis en gel 16 de poliacrilamida - urea. Cada una de las cuatro reacciones de síntesis se corre en calles individuales (A, T, G y C) y se visualizan las bandas de ADN mediante autorradiografía o luz ultravioleta. Las bandas obtenidas en el gel corresponden a los fragmentos de ADN de diferentes longitudes ADN monocatenario que debe ser secuenciado Figura 13. didesoxi de El de ADN se método Los cuatro ddNTP de secuenciación basa en Autorradiograma de la electroforesis en gel la terminación de la síntesis de ADN. Secuencia de la cadena obtenida complementaria Secuencia de la cadena molde original Una banda en una calle indica un fragmento de ADN que es el resultado de una terminación de la cadena tras la incorporación de un didesoxinucleótido (ddATP, ddGTP, ddCTP o ddTTP). El nucleótido terminal puede ser identificado de acuerdo al didesoxinucleótido que se añadió en la reacción que dio lugar a esa banda. Las posiciones relativas entre las cuatro calles se utilizan entonces para leer la secuencia de ADN. 17 Secuenciación automática de Sanger Durante muchos años, la secuenciación del ADN se realizó sobre todo en forma manual y era una técnica laboriosa y costosa. En la actualidad, la secuenciación se lleva a cabo mediante aparatos automatizados que utilizan colorantes fluorescente y escáneres de láser para los miles de secuencias de pares de bases en unas pocas horas. Figura 14. Esquema de la secuenciación por el método automático de electroforesis capilar con la secuencia obtenida. Los ddNTP utilizados en la reacción automatizada se marcan cada uno con un colorante fluorescente distinto. Las cuatro reacciones pueden tener lugar en el mismo tubo de ensayo y pueden colocarse en el mismo pocillo durante la electroforesis, dado que cada dNTP se marca en forma distintiva. Los aparatos de secuenciación recién desarrollados llevan a cabo la electroforesis en tubos capilares que contienen gel. Los fragmentos de diferentes tamaños producidos por la reacción de secuenciación se separan dentro de un tubo y al migrar pasan por delante de un haz de láser y un detector. Cuando los fragmentos pasan por el láser, sus colorantes fluorescentes se activan y la fluorescencia resultante se detecta por un escáner óptico. Cada colorante emite fluorescencia de una longitud de onda característica que se lee en el escáner óptico. Para la interpretación, la información ingresa en una computadora y los resultados se imprimen como un conjunto de picos 18 en un gráfico (Fig. 14). Los aparatos de secuenciación automatizados pueden contener 96 tubos capilares o más, lo que permite leer secuencias de 50.000 a 60.000 pb en unas pocas horas. Secuenciación automática en geles desnaturalizantes de acrilamida/bisacrilamida La secuenciación automática mediante geles desnaturalizantes, se realiza polimerizando un gel de acrilamida/bisacrilamida entre dos cristales montados adecuadamente sobre el cassette que sirve de soporte para los mismos y que posteriormente se acoplará en el secuenciador automático para proceder a la carga de la muestras. El número de muestras que podemos cargar en cada gel, viene determinado por el número de pocillos que posee el peine (de dientes de tiburón) que utilicemos. Hay peines de cuatro tamaños distintos: de 36, 48, 64 y 96 pocillos. La electroforesis se desarrolla durante 7 horas, y se puede realizar una lectura de unos 700pb aproximadamente, dependiendo siempre de la calidad del ADN, de la correcta cuantificación del mismo, de la utilización del “primer” adecuado, y de la polimerización correcta del gel de acrilamida/bis principalmente. Cuando las muestras a secuenciar tienen una longitud no superior a 400pb, podemos disminuir el tiempo de la electroforesis a 3.5 horas, aumentando la velocidad de barrido del laser, y el resultado es igualmente optimo. Figura 15. Esquema de los geles desnaturalizantes. Secuenciadores automáticos capilares Existen instrumentos de electroforesis capilar que proporcionan una alternativa al sistema basado en geles de acrilamida/bisacrilamida donde el soporte ha sido sustituido por un polímero que se inyecta de forma automática en un capilar antes de cargar la muestra a secuenciar; las muestras se van analizando una a una. Este tipo de secuenciadores se utiliza para lecturas no superiores a unos 450pb. 19 El equipo funciona de forma completamente automática inyectando las muestras (que se preparan exactamente igual que durante la secuenciación en geles y se colocan en una placa de 96 pocillos), en un capilar previamente cargado con un cierto polímero que funciona como lo hace la matriz de acrilamida-bisacrilamida-urea de los geles de secuencia, permitiendo resolver fragmentos de ADN de cadena sencilla que se diferencian en una única base. A una altura determinada el laser detecta la fluorescencia emitida por cada cadena sencilla de ADN fluorescente y traduce esta emisión de fluorescencia en la secuencia correspondiente. Una vez desarrollada la electroforesis de la primera muestra, el capilar se vacía rellenándose nuevamente con polímero fresco. Se inyecta a continuación una segunda muestra, se procede a desarrollar nuevamente la electroforesis y así sucesivamente. Figura 16. Secuenciador ABI Prism 310 LAS PRINCIPALES VENTAJAS DE ESTOS NUEVOS EQUIPOS SON: Automatización completa de todo el proceso, no siendo necesaria siquiera la presencia de un técnico que cargue las muestras en los diferentes capilares del equipo. Rapidez en el análisis de cada muestra: dado el pequeño diámetro de los capilares, se pueden aplicar voltajes mayores que en los geles de acrilamida:bisacrilamida:urea, por lo que pueden leerse del orden de 450 nucleótidos en el plazo de una hora mientras que esta misma longitud de secuencia necesita unas 2-4 horas en un secuenciador en gel. El tiempo necesario del proceso es, para la polimerización del mismo, unas dos horas y para la preelectroforesis, una hora aproximadamente. 20 SECUENCIACIÓN DE TODOS LOS GENES DEL GENOMA El genoma o secuencia completa de ADN de un organismo constituye la información genética heredable de un organismo. Secuenciar es determinar el orden en que se enlazan las bases de dicha secuencia. Ese trozo de ADN puede corresponder a un gen, un genoma, o a una parte de ellos. Los avances de las técnicas de secuenciación del ADN permiten hoy en día leer el ADN a gran velocidad lo que ha llevado a abordar proyectos a gran escala como el Proyecto Genoma Humano. Además se dispone ya de la secuencia completa de ADN de muchos genomas de animales, plantas y microorganismos. Se usan dos métodos diferentes para secuenciar genomas: A- Método clon a clon B- Método Hierarchical Shotgun Sequencing (secuenciación de la perdigonada jerárquica) y Shotgun Sequencing (secuenciación de la perdigonada). A- Método clon a clon: Se realiza la construcción de una biblioteca con fragmentos clonados que incluyen el ADN de todo el genoma de un organismo, que luego se ensamblan en mapas genéticos y físicos. Corte de ADN con enzima de restricción Figura 17. Estrategia general para clonar un gen. Un trozo de ADN es manipulado con enzimas de restricción e introducido en un plásmido el cual a su vez es introducido en una bacteria. Al cultivar la bacteria se obtienen múltiples copias del ADN de Introducción del plásmido recombinante a la bacteria interés. El clonado se realiza con distintos tipos de enzimas de restricción y vectores: Las enzimas de restricción son proteínas aisladas de bacterias cuya función es cortar ADN. Cada enzima reconoce un sitio particular del ADN, es decir que reconoce una secuencia particular de nucleótidos. Esa secuencia específica se denomina “sitio de restricción”. Una vez que la enzima reconoce estos sitios, se posiciona sobre la molécula de ADN y corta dentro o en torno de esa secuencia. 21 Cortes con extremos romos Cortes con extremos cohesivos Figura 18. Las enzimas según el corte se clasifican en: Enzimas que generan “extremos romos” y Enzimas que generan “extremos cohesivos”. Los vectores son moléculas transportadoras que transfieren y replican fragmentos de ADN que llevan insertados. Para que sirva de vector, una molécula debe ser capaz de replicarse junto con el fragmento de ADN que transporta. También tiene que tener secuencias de reconocimiento que permitan la inserción del fragmento de ADN a clonar. Para insertar un fragmento de ADN al vector, se utiliza una enzima de restricción, y se mezcla con fragmentos de ADN producidos con la misma enzima. Los vectores que transportan un fragmento insertado se denominan vectores recombinantes. Hay muchos vectores de clonación, que es una molécula de ADN replicante y estable a la cual puede adherirse un fragmento de ADN extraño para la introducción en una célula. Difieren en la especificidad de la célula huésped, el tamaño de los insertos que pueden transportar y en el número de copias que producen y el número y tipo de genes marcadores que contienen. Tipos de Vectores: Vectores procariotas: 1. Plásmidos: (ADN episómico). Para secuencias cortas de 10.000 bases (10 Kb). Son circulares y existen naturalmente en las bacterias. Contienen orígenes de replicación y pueden por eso replicarse independientemente del cromosoma bacteriano. Figura 19. pUC19 vector plásmido típico de clonación. El método de inserción más sencillo es a través de las enzimas de restricción. Un segundo método para insertar ADN en un plásmido es mediante una cola homopolimérica o tailing donde se crean extremos cohesivos complementarios sobre las piezas del ADN con 22 extremos romos. Primero, se corta el plásmido y el ADN extraño con una enzima de restricción. Si la enzima de restricción produce extremos cohesivos, estos se eliminan por una enzima que digiere el ADN monocatenario. De manera alternativa el plásmido y el ADN extraño pueden cortarse por una enzima de restricción que produce extremos romos. Una vez que el plásmido y el ADN extraño tienen extremos romos, los extremos cohesivos monocatenarios son agregados por una enzima transferasa terminal. Un tercer método de inserción de fragmentos consiste en utilizar la enzima ligasa T4, capaz de conectar dos piezas cualquiera de extremos romos de ADN y se denomina clonación mediante el uso de conectores. Una vez insertado el plásmido debe introducirse en las células bacterianas. Esta tarea suele cumplirse mediante la transformación y que es la capacidad de las bacterias de captar el ADN del ambiente externo. Muchas veces la transformación es un proceso natural, y otros deben tratarse en forma química o física previamente. Los plásmidos dentro de la célula se replican y multiplican. 2. Bacteriófagos: (gran capacidad para invadir bacterias, se utiliza para ADN complementario y genómico). Ofrecen ciertas ventajas y el más común es el bacteriófago λ que infecta E. Coli. Una de sus ventajas es la elevada eficiencia para transferir el ADN a las bacterias. Una segunda ventaja es que cerca de la tercera parte del genoma λ no es esencial para la infección ni para la reproducción. Estos genes no esenciales que comprenden alrededor de 15 Kb pueden ser reemplazados por hasta 23 Kb de ADN extraño. El ADN extraño cortado con EcoRI tendrá extremos cohesivos que son complementarios con los de los extremos de los genes λ esenciales, a los cuales puede conectarse mediante la ligasa. El cromosoma λ posee extremos monocatenarios cortos denominados sitios cos, necesarios para empaquetar en ADN λ dentro de la cabeza de un fago. Los cromosomas del fago recombinante pueden entonces empaquetarse en la cubierta proteica y agregarse a E. coli. Los fagos inyectan su ADN recombinante dentro de la célula, donde se replicará. Sólo los fragmentos de ADN de tamaño adecuado y que contienen genes esenciales se empaquetarán en las cubiertas del fago. 3. Cósmidos: Los cósmicos combinan las propiedades de los vectores plásmidos y los fagos. Los fragmentos de ADN grandes de 44 Kb pueden clonarse en cósmicos. Los cósmicos son plásmidos pequeños que contienen los sitios cos del fago λ; pueden empaquetarse con las cubiertas virales y transferirse a las bacterias por infección viral. Dado que se pierden todos los sitios virales menos los sitios cos, un cósmico puede tener más del doble del ADN extraño que puede transportar el fago vector. 23 El ADN extraño es insertado en los cósmicos del mismo modo que se introduce en los plásmidos. Figura 20. Vector cósmido. 4. Vectores de expresión: Muchas veces es interesante no solo replicar el gen si no también producir la proteína que codifica. Uno de los primeros productos comerciales elaborados por tecnología recombinante fue la proteína insulina. La expresión exitosa es un tema difícil sobre todo las secuencias que regulan la trascripción y la traducción son diferentes en las bacterias y en los eucariontes. Para solucionar este problema suele insertarse un gen extraño en un vector de expresión que, además del origen de replicación, los marcadores seleccionables y los sitios de restricción, contienen secuencias requeridas para los procesos mencionados. Figura 21. Puede insertarse un gen extraño en un vector de expresión; ejemplo un en vector este de expresión E. coli. Vectores eucariotas: 24 1. YACs: (cromosoma artificial de levadura). Es un material bastante inestable. Para secuencias de hasta 1 Mb (1000 Kb o 1 millón de bases). Son moléculas de ADN con un origen de replicación de levadura, que permite que se replique, un par de telómeros que garantizan estabilidad dentro de la célula y un centrómero. Figura 22. Vector YAC 2. BAC: Cromosoma artificial de bacterias. Se utilizan para clonar segmentos grandes desde 100 a 500 Kb (100.000 bases a 500.000 bases). Figura 23. Vector BAC. Cromosoma artificial de bacteria con distintos sitios de corte de enzimas de restricción. El ADN clonado en los BACs es por lo general más pequeño que los YACs. Sin embargo, los BACs ofrecen ventajas importantes como por ejemplo, son más manipulables para ciertos tipos de 25 estudios en el laboratorio. Los BACs se usan a gran escala para construir mapas físicos de alta resolución de los cromosomas, con el fin de establecer la secuencia completa del genoma. PAPEL DE LA CLONACIÓN GÉNICA La manipulación y el análisis de los genes con tecnología de ADN recombinante requiere copias múltiples de las secuencias de ADN utilizadas. La clonación fue un requisito previo para muchos métodos moleculares, En la actualidad los métodos de amplificación del ADN han obviado la necesidad de la clonación, aunque sigue siendo muy utilizada para crear secuencias de genes novedosos y para otras manipulaciones. ¿Como encontrar la secuencia de ADN para ser clonada? Dado que en una célula puede haber millones de pares de bases de ADN es necesario clonar para encontrar un gen. Este enfoque clonar primero y buscar después, se denomina clonación de fragmentos escogidos al azar (Shotgun). Primero se clona un número grande de fragmentos en conocimiento de que uno o más tienen el ADN de interés y entonces se busca el Una biblioteca genómica es un conjunto de clones, cada uno de los cuales contiene un fragmento de un genoma de un organismo dado. Las bibliotecas genómicas se consiguen clonando los fragmentos en vectores. fragmento entre los clones. La colección de clones que contiene todos los fragmentos de ADN provenientes de una fuente se denomina genoteca o biblioteca genómica. Para crear una genoteca genómica se recolectan las células y se rompen. Así se produce la liberación de ADN. Este se puede aislar por diferentes métodos. Uno de ellos utiliza fenol. Una vez extraído el ADN se corta el ADN con enzimas de restricción y debido a que los sitios de corte son al azar las moléculas de ADN se cortan en lugares diferentes y se producirán fragmentos superpuestos. Estos se unen a vectores que pueden transferirse a las bacterias. Esta técnica produce un conjunto de células bacterianas o bacteriófagos que contienen los fragmentos genómicos superpuestos. Una genoteca puede contener un número importante de clones para garantizar que todas las secuencias de ADN estén representadas. B- Método Hierarchical Shotgun Sequencing (secuenciación de la perdigonada jerárquica) y Shotgun Sequencing (secuenciación de la perdigonada) El método de Hierarchical Shotgun Sequencing fue propuesto por James Watson y Francis Collins, entre otros, contando con la mayor parte de la financiación pública. Esta metodología resulta la más compleja, con un conocimiento más exhaustivo del genoma. Básicamente consiste en secuenciar el genoma completo, cromosoma a cromosoma de 26 un extremo al otro. Se hacen 2 o 3 fragmentos del ADN (fragmentos cortos de 2 Kb, fragmentos de 15-20 Kb y también se pueden hacer fragmentos de 200-300 Kb). Luego se construye una biblioteca genómica con cada preparación con la utilización de vectores BAC. Se seleccionan y secuencian clones al azar de estas bibliotecas. Luego se utiliza un programa para ensamblar y superponer largos tramos de secuencia a partir de los fragmentos cortos, usando las secuencias de los clones más largos como marco de referencia. 1 2 Figura 24. Representación esquemática de la estrategia de secuenciación utilizado por 1. El Proyecto Genoma Humano financiado con fondos públicos y 2. Por Celera genomics. El método de Shotgun Sequencing desarrollado por Craig Venter bajo la financiación de “Celera Genomics” y otras compañías biotecnológicas privadas, emplearían una segunda técnica, más práctica. Consistiría en la secuenciación de ¨genes expresados¨ en las células diferenciadas en las que se encuentran activos, partiendo de los ARNm resultantes de su traducción. El método Shotgun Sequencing es más rápido y menos costoso, pero es más propenso a los errores debidos a un montaje incorrecto de la secuencia final. Hasta el momento se han secuenciado 180 eucariotas (17 mamíferos, 3 especies de aves, 2 anfibios, 4 especies de peces, 24 especies de insectos, plantas, etc.) y 17 están en proyecto borrador. También se han secuenciado 2149 bacterias. (Información Marzo 2013) Fuente http://www.genome.jp/kegg/catalog/org_list.html. 27 Tabla 1. Ejemplos de genomas completos o de borradores de secuencias publicadas. 28 NUEVOS MÉTODOS DE SECUENCIACIÓN SECUENCIACIÓN DE ALTO RENDIMIENTO La elevada demanda de secuenciación de bajo costo ha dado lugar a las distintas tecnologías de secuenciación de alto rendimiento. Estos esfuerzos han sido financiados por instituciones públicas y privadas así como desarrolladas y comercializadas dentro de la empresa privada por las compañías de biotecnología. Se pretende que las tecnologías de secuenciación de alto rendimiento disminuyan los costos de secuenciación de las bibliotecas de ADN más allá de lo que se puede hacer con el método corriente del terminador marcado basado en la separación del ADN por electroforesis capilar. Muchos de los nuevos métodos de alto rendimiento usan métodos que paralelizan el proceso de secuenciación, produciendo miles o millones de secuencias a la vez. Figura 25. Evolución de las tecnologías de alto rendimiento. ABI-3730 de Applied Biosystems, posiblemente el más utilizado en la secuenciación del genoma Humano, con una capacidad de 1 Mb por día (Un millón de bases). El AB-SOLID actual, en menos de 10 años ha multiplicado por 1000 la capacidad de secuenciación. 29 Amplificación clonal in vitro Ya que los métodos de detección molecular frecuentemente no son lo suficientemente sensibles para la secuenciación de una sola molécula, la mayoría de los métodos utilizan un paso con clonación in vitro para generar muchas copias de cada molécula individual. Uno de los métodos es la PCR de emulsión, en la que se aíslan las moléculas individuales de ADN junto con microesferas recubiertas con cebadores en burbujas acuosas dentro de una fase oleosa. Posteriormente una PCR recubre cada microesfera con copias clonales de la biblioteca de moléculas aisladas y seguidamente se inmovilizan para ser más tarde secuenciadas. La PCR de emulsión (Fig. 26) se usa en los métodos publicados por Margulis y colaboradores (comercializado por 454 Life Sciences, adquirido por Roche), Shendure y Porreca et al. (conocido como "secuenciación polony ", término formado por polimerasa "pol" y colonia "colony"), y la secuenciación SOLiD (desarrollada por Agencourt y adquirida por Applied Biosystems). Otro método para la amplificación clonal in vitro es la "PCR de puente", en la que los fragmentos se amplifican a partir de los cebadores unidos a una superficie sólida, desarrollados y usados por Solexa (de la que ahora es propietaria la empresa Illumina) (Fig. 27). Estos métodos producen ambos muchas localizaciones físicamente aisladas que contienen cada una muchas copias de un solo fragmento. El método con una única molécula desarrollado por el laboratorio de Stephen Quake (y más tarde comercializado por Helicos) se salta este paso de amplificación, fijando directamente las moléculas de ADN a una superficie. Figura 26. Emulsión de PCR. Una molécula de ADN por perla. La amplificación clonal de miles de copias se produce en microrreactores en una emulsión. 30 Figura 27. Amplificación en fase sólida. Una molécula de ADN por Cluster. Secuenciación paralelizada Una vez que las secuencias clonales de ADN se localizan físicamente en posiciones separadas de la superficie, se pueden utilizar varios métodos de secuenciación para determinar las secuencias de ADN de todas las localizaciones en paralelo. 1 2 Figura 28.Terminación reversible. 1. Illumina/Solexa; 2. Helicos BioSciences. 31 La "secuenciación por síntesis", como en la popular secuenciación electroforética con terminador marcado con colorante, usa el proceso de síntesis de ADN por ADN polimerasa para identificar las bases presentes en la molécula complementaria de ADN. Los métodos de terminador reversible (usados por Illumina y Helicos) utilizan versiones reversibles de terminadores marcados con colorante, añadiendo un nucleótido cada vez, y detectando la fluorescencia correspondiente a esa posición y removiendo posteriormente el grupo de bloqueo para permitir la polimerización de otro nucleótido. La Pirosecuenciación (utilizada por Roche/454) también usa la polimerización del ADN para añadir nucleótidos, añadiendo cada vez un tipo diferente y después detectando y cuantificando el número de nucleótidos añadidos a una determinada localización a través de la luz emitida por la liberación de los pirofosfatos unidos a ellos. Figura 29. Roche/454. Pirosecuenciación. La "secuenciación por ligación" es otro método enzimático de secuenciación que emplea una ADN ligasa en lugar de una polimerasa para identificar la secuencia objetivo. Se usa en el método polony y en la tecnología SOLiD que ofrece Applied Biosystems. Este método utiliza un 32 reservorio de todos los oligonucleótidos posibles de una longitud dada, marcados de acuerdo con la posición secuenciada. Los oligonucleótidos se templan y ligan; el ligamiento preferente de las ADN ligasas por su secuencia específica produce una señal correspondiente a la secuencia complementaria en esa posición concreta. Shendure et al., usaron este método para secuenciar el genoma de E. coli MG1655. Figura 30. Life/APG. Secuenciación por Ligación. 33 Real Time (Secuenciación en Tiempo Real) Es un nuevo método de tecnología que está llevando adenlante Pacific Biosciences. En esta técnica, los nucleótidos no detienen el procesos de síntesis de ADN. La secuenciación en tiempo real implica una imagen continua de la incorporación de los nucleótidos marcados durante la síntesis de ADN. En la plataforma de Pacific Biosciences moléculas individuales de ADN polimerasa están unidos a la parte inferior de detectores individuales (ZMW detectors) obteniendo información mientras los nucleótidos son fosforilados mientras el cebador va traduciendo. Otros enfoques han propuesto mejorar la relación de mediciones señal-ruido en la secuenciación en tiempo real con esquemas de detección más convencionales. Por ejemplo, Life/Visiten ha diseñado ADN polimerasas que se adjunta con un colorante fluorescente para producir una señal mejorada por la energía de resonancia de fluorescencia Figura 31. Pacific BioSciences. Secuenciación en Tiempo Real. Genoma de enriquecimiento A pesar de las reducciones de costes sustanciales asociados con tecnologías NGS (Next Generation Sequencing) en comparación con el método automatizado de Sanger, la secuenciación del genoma completo es todavía un esfuerzo costoso. Una solución provisional a este problema puede ser el uso de plataformas de NGS para apuntar a regiones de interés específicas. Esta estrategia se puede utilizar para examinar todos los exones en el genoma, genes específicos de las familias que constituyen dianas farmacológicas conocidas o las regiones que están implicados en enfermedades o en efectos farmacogenéticos. 34 El concepto de focalización de regiones específicas del genoma está bien establecido, con la PCR es el más ampliamente utilizado, aunque en una escala pequeña. PCR acoplado con secuenciación de Sanger está adecuadamente emparejado para analizar unos cuantos candidatos genes, pero el acoplamiento de la PCR con las plataformas NGS de alto rendimiento no es práctico porque la preparación de la muestra requeriría el manejo de decenas de miles de cebadores de forma individual o en grupos multiplex. Un artículo de Frazer y sus colegas en colaboración con RainDance Technologies (2009) informaron la amplificación simultánea de 3.976 productos que utilizan tecnologías de microgotas PCR. La producción de grandes cantidades a bajo costo hace que las plataformas de NGS descritas anteriormente sean útiles para muchas aplicaciones. Estos incluyen el descubrimiento de la variante por resecuenciación de regiones específicas de interés o genomas en su totalidad, el asamblado de novo de bacterias y de genomas eucariotas menores, la catalogación de los transcriptomas de células, tejidos y organismos (ARN-seq), los perfiles en todo el genoma de las marcas epigenéticas y la estructura de la cromatina usando métodos basados en la seq (CHIPseq, metil-seq y ADNsa-seq) y la clasificacion de especies y el descubrimiento de genes pora estudios de la metagenómica. Por ejemplo, las plataformas Illumina/Solexa y LIfe/APG son variantes muy adecuadas para el descubrimiento de resecuenciación de genomas humanos, porque se producen por ciclo volúmenes gigantescos de bases de alta calidad. Además, la plataforma, Helicos BioSciences es muy adecuado para aplicaciones que exigen información cuantitativa de ARN o ARN seq. El rápido ritmo de los avances tecnológicos en el campo podría cambiar esta información en un futuro próximo. Genomas individuales Los estudios del genoma humano tienen por objeto un catálogo de SNV S (variante de un simple nucleótido) y la SVS (variantes estructurales) y su asociación a diferencias fenotípica, con el objetivo final de personalizar la genómica con fines médicos. En 2004, el Consorcio Internacional de Secuenciación del Genoma Humano publicó la primera, y todavía única, referencia terminada del genoma humano (actualmente Centro Nacional de Biotecnología de la Información: NCBI). Su costo fue estimado en US $300 millones. La genómica individual también está siendo aplicada al estudio de la enfermedad. Por ejemplo, Mardis et al., reportaron la secuencia de dos genomas del cáncer de leucemia mieloide agudo mediante la plataforma Illumina/Solexa, y ambos estudios, identificaron mutaciones somáticas que pueden ser asociada con la enfermedad. Gibbs et al., describieron recientemente 35 la elucidación de las dos variantes alélicas en una familia con una forma recesiva de la enfermedad de Charcot-Marie-Tooth utilizando la plataforma Life/APG. Varios proyectos destinados a la secuenciación de más individuos, incluyendo el “Atlas del genoma del cáncer” y “El proyecto de 1000 Genomas”, también están utilizando las plataformas Illumina/Solexa y Life/454 para secuenciar genomas enteros. En comparación con la secuenciación automatizada de Sanger, las plataformas de NGS han aumentado dramáticamente el rendimiento y redujo sustancialmente los gastos, con varios grupos presentando informes de costos de reactivos por debajo de $100.000. Sin embargo, existe una gran variabilidad entre y dentro de plataformas NGS en términos de tamaño del molde y construcción, largo de lectura, rendimiento y la base y la cobertura del genoma, y dicha variabilidad hace que sea difícil evaluar la calidad (es decir, la precisión de la cobertura del genoma y continuidad del genoma) de los genomas basado en consideraciones de costo. En junio de 2009, Illumina anunció la secuenciación del genoma individual por el precio de US$ 48.000. Complete Genomics ofrece un servicio similar a un precio de US$ 5.000. Sin embargo, el logro del ahorro de los costos también puede venir con una disminución de la calidad de la información. Las tecnologías de NGS tienen una impresionante gama de aplicaciones, y actualmente se están desarrollando aún más. Además de las aplicaciones descritas anteriormente, las tecnologías de NGS están siendo utilizadas para caracterizar las relaciones evolutivas de genomas antiguos y para dilucidar el papel de secuencias no codificantes en la salud y enfermedades. En un futuro no muy lejano, es previsible que las tecnologías de NGS pudieran ser utilizadas para obtener datos de alta calidad a partir de la secuencia un genoma aislado de una sola célula, lo que sería un avance importante, sobre todo para la genómica del cáncer. Para que esto ocurra, serán necesarios avances en las técnicas, para aislar eficazmente largas moléculas de ADN intactas, y en los métodos, para la lectura precisa de la secuencia. El campo del desarrollo de NGS y las aplicaciones es un área de rápido movimiento de la investigación, que hace de este un momento emocionante para los estudios genómicos. Análisis de las secuencias de ADN Además de la clonación y amplificación las técnicas moleculares se utilizan para analizar las moléculas de ADN mediante la secuenciación. Secuenciación del ADN: una técnica poderosa que surge de la tecnología del ADN recombinante es la capacidad de secuenciar con rapidez las moléculas de ADN. La secuenciación consiste en determinar la secuencia de bases, permite leer la información brindando información acerca de la estructura y función de los genes. 36 Aplicaciones de la tecnología del ADN recombinante Además de proporcionar información valiosa sobre los genes la Tecnología del ADN recombínate tiene numerosas aplicaciones como la elaboración de productos farmacéuticos (insulina), y otras sustancias, bacterias especializadas (como producción de etanol a partir de plantas), plantas y animales de granja diseñados por ingeniería genética y para corregir defectos genéticos humanos. Algunos fármacos oligonucleótidos (secuencias cortas de ADN sintético o de ARN pueden utilizarse para tratar enfermedades (terapia génica). Los oligonucleótidos antisentido son complementarios a los ARN no deseados, como el ARN viral. Cuando se agrega a una célula, estos ADN antisentido se unen al ARNm viral e inhiben su traducción. Varios fármacos han sido probados para diferentes tratamientos para el cáncer. También ha permitido el desarrollo de sondas para detectar mutaciones causantes de enfermedades. Se dispone de la comprobación prenatal para varios centenares de enfermedades genéticas. Para muchas enfermedades genéticas las únicas pruebas diagnósticas disponibles son las que identifican una mutación predisponerte en el ADN, pero muchas enfermedades genéticas son provocadas por varias mutaciones diferentes y derivar en resultados pueden ser falsos Salvo la completa secuenciación del gen que es costosa no hay manera de identificar a todos los individuos predispuestos. En la terapia génica debían primero localizarse los genes causantes de enfermedades y desarrollarse vectores. Un método de terapia consiste extraer células del cuerpo agregar los virus con los genes recombinantes e reintroducir las células en el cuerpo del paciente. En este caso los vectores se introducen directamente. Figura 32. Evolución de proyectos y publicaciones 37 Generalidades del análisis genómico Los proyectos genoma generan grandes cantidades de información sobre la secuencia del ADN. Estos datos son útiles sólo cuando son analizados. Para identificar y caracterizar las regiones codificantes de los genes de las secuencias anónimas de ADN se necesitan diversos tipos de análisis mediante la utilización de programas y bases de datos, como por ejemplo: Asegurar que la secuencia está completa y es precisa. Identificar los genes encontrando las pautas de lectura abiertas (ORF: Open Reading Frames). Empiezan con una secuencia de iniciación: ATG y terminan con una secuencia de terminación: TAA, TAG o TGA. Encontrar los sitios promotores de inicio de transcripción y de traducción. Encontrar los sitios de empalme, los intrones y los exones. Traducir la secuencia de ADN en una secuencia proteica y compararla con otras proteínas conocidas. Figura 33. Sitios de empalme, intrones y exones. Para asegurar que la secuencia nucleotídica de un genoma está completa y no contiene errores, el genoma se secuencia más de una vez. Este proceso se denomina compilación. Una vez secuenciado, compilado y comprobado la exactitud de un genoma, se realiza una búsqueda de todos los genes que codifican productos (proteínas y ARN) formados por una pauta de lectura abierta, tripletes nucleotídicos que se pueden traducir en la secuencia aminoacídica de una proteína. Este es el primer paso de la anotación, el proceso que identifica los genes, sus secuencias reguladoras y su función o funciones. La anotación también identifica los genes que no codifican proteínas y encuentra y caracteriza los elementos genéticos móviles y las familias de secuencias repetitivas. El objetivo final del análisis de la secuencia es obtener una descripción funcional completa de todos los genes del genoma de un organismo. 38 GENÓMICA FUNCIONAL La Genómica Funcional clasifica los genes de las secuencias dilucidadas por la Genómica Estructural e identifica sus funciones. Algunos genes pueden tener funciones previamente asignadas mediante los métodos clásicos de mutagénesis y de cartografía de ligamiento; pero muchos genes no tienen aún una función asignada. La genómica funcional es el estudio simultáneo de todos los genes involucrados en un estado fisiológico determinado o en un tejido en particular. Permite comprender la organización y los mecanismos genéticos que en conjunto hacen a la fisiología de un organismo. La secuencia de nucleótidos de un gen puede utilizarse para predecir la secuencia de aminoácidos de la proteína que codifica. Entonces, la proteína puede sintetizarse o aislarse y estudiarse sus propiedades para determinar su función. Sin embargo, este enfoque bioquímico para la comprensión de la función génica insume tiempo y es costoso. Un objetivo fundamental de la genómica funcional fue desarrollar métodos informáticos que permitan identificar la función génica a partir de la secuencia de ADN sola, evitando el proceso laborioso de aislar y caracterizar las proteínas individuales. Después de obtener una secuencia genómica, la siguiente tarea es asignar funciones a los genes de la secuencia. Algunos genes pueden tener funciones previamente asignadas mediante los métodos clásicos de mutagénesis y de cartografía de ligamiento; pero muchos genes no tienen una función bien dirigida asignada. Una aproximación para asignar funciones a estos genes es la utilización de búsqueda de homología. Este análisis tiene diversos componentes: búsqueda en bases de datos como GenBank para encontrar genes parecidos aislados en otros organismos, comparar la secuencia de un ORF con la de un gen bien caracterizado de otro organismo, rastrear el ORF en busca de motivos funcionales, regiones del ADN que codifican dominios proteicos como canales de iones, regiones de unión a ADN o señales de secreción/exportación. Aplicaciones de la genómica funcional Caracterizar transcriptomas específico de tejidos. Determinar patrones de expresión génica asociados a procesos celulares tales como diferenciación, proliferación y muerte celular. Estudiar las alteraciones en los perfiles de expresión asociados a procesos patológicos (infecciones; carcinogénesis, etc.) Efectuar inferencias funcionales de genes escasamente caracterizados. 39 Predecir redes “sociales” de genes estrechamente relacionadas con procesos biológicos específicos. Desde el advenimiento de la genómica moderna, se han desarrollado diversas tecnologías de gran cantidad de datos que permiten a los investigadores analizar las interacciones genéticas de miles de genes simultáneamente. Estas tecnologías incluyen de ADN y de expresión proteica, métodos automatizados para el aislamiento y la disección de grandes complejos proteicos y búsquedas de alcance genómico de sitios de interacción proteína-DNA. Dado que estas técnicas se basan en la abundancia de datos proporcionados por la terminación de los proyectos de secuenciación del genoma, a menudo se denominan técnicas de genómica funcional. Métodos de análisis de la Genómica Funcional o Transcriptómica Northern Blot PCR cuantitativa Hibridación substractiva Differential display Microarrays (Microarreglos de ADN) SAGE XX-seq: RNA-Seq, Chl-Seq, CVN-Seq. Northern Blot Es una técnica para transferir fragmentos de ARN desnaturalizados provenientes de un gel a un medio sólido. El ARN es separado en un gel de agarosa, y posteriormente transferido a una membrana de nylon. Después de la transferencia, se agrega una sustancia marcada para permitir la visualización de los genes. Figura 34. Técnica de Northern Blot. 40 PCR cuantitativa o PCR en tiempo real Al igual que la PCR convencional, se utiliza un molde de ADN, cebadores específicos, dNTP y una ADN polimerasa; a esto se le adiciona una sustancia marcada con fluoróforo. Figura 35. PCR en Tiempo Real. A diferencia de la PCR convencional, los ciclos se observan desde el inicio. La PCR cuantitativa se realiza en un termociclador con capacidad de hacer incidir sobre cada muestra un haz de luz de una longitud de onda determinada y de detectar la fluorescencia emitida por el fluoróforo excitado. Tabla 2. Diferencias entre PCR convencional y PRC en tiempo real. Sensibilidad Especificidad Resultados Cuantitativos PCR en Tiempo Real Alta Alta Si – Fluorescentes específicos Método de detección Fluorescencia Rango de detección Tiempo de reacción Amplio rango 1 hs Pasos Post-PCR No Contaminación No PCR Baja Baja No Electroforesis en gel de agarosa Pequeño rango 3-5 hs Electroforesis en gel de agarosa Si Hibridación Substractiva y Differential Display Tanto la hibridación substractiva como el Differential Display son técnicas comparativas que no requieren conocimiento previo de los genes involucrados pero es necesario el clonado y secuenciación para la identificación de los genes expresados diferencialmente. 41 1 2 Figura 36. Expresión diferencial de genes. 1-Hibridación substractiva. 2. Differential Display. Se expresan y comparan como porcentaje muestras de mRNA en el rumen (1) y abomaso (4) a las 3 y 13 semanas de edad y adultos (18 - a 20 meses de edad) en ganado Holstein. Microarrays, Microarreglos o microordenaciones de ADN (chips de ADN) Se utilizan para examinar la expresión de miles de genes simultáneamente. Los microarreglos de ADN son simplemente trozos de vidrio (chips) sobre los que se aplican nuestras de ADN siguiendo un patrón ordenado, es decir, una ordenación. A menudo estas microordenaciones son producidas por máquinas automáticas que ponen gotas microscópicas de muestras específicas de ADN en posiciones específicas del chip. Las muestras de ADN que se pueden aplicar pueden ser cualquier tipo de ADN clonado, pero a menudo son oligonucleótidos cortos sintetizados in vitro. En un microarreglo de ADN se pueden aplicar más de 30.000 muestras diferentes, lo que representa miles de genes distintos. Teóricamente, todos los genes del genoma de un organismo pueden estar presentes en un microarreglo, lo que permite el análisis de la expresión genética de todo el genoma. Los microarreglos de ADN se pueden usar para comparar los patrones de expresión genética en dos o más tejidos diferentes, en un mismo tejido en dos momentos diferentes del desarrollo, o en células normales respecto de enfermas. 42 1. Se construye o compra un microarray o chip, que contiene el ADN de cadena simple que representa miles de genes diferentes. 2. Se obtienen dos muestras de células, luego de aplicar la droga a una muestra y se recogen las moléculas de ARNm. 3. Transcribe el ARNm en ADN complementario más estable y añade etiquetas fluorescentes verde a ADNc derivado de las células no tratadas, y de color rojo a los células tratadas. 4. Se aplica la etiqueta de ADNc al chip, la unión ocurre cuando se encuentra con una secuencia complementaria de bases del chip. 5. Se pone el chip en un escáner y con cálculos computacionales se estiman las tasas de rojo a verde. 6. Se determina si algún gen respondió fuertemente a la droga para promover o reflejar los daños. Figura 37. Microarrays. Análisis en Serie de la Expresión Génica (SAGE) Permite conocer y cuantificar la expresión de genes en la célula o tejido mediante la medición de los ARNm que están presentes en un momento determinado. Esto permite crear perfiles de expresión de cada célula o tejido en determinadas situaciones. De esta manera se pueden comparar estos perfiles y determinar que genes están siendo apagados o activados y así determinar cual puede ser la causa. La base de esta técnica esta en el uso de “tags” de ADNc que son pequeños fragmentos de ARNm que han sido transformadas a ADNc. Se parte de una muestra de ARNm y 43 aprovechando la característica del ARNm de tener una cola de adeninas en el extremo 3´ (poli A), se utiliza un soporte con colas de timinas para provocar la unión de los ARNm al soporte. Estas timinas cumplen la función de primers para poder sintetizar ADNc a partir del ARNm por medio de una transcriptasa inversa. Se corta el ADNc a una distancia determinada a partir del soporte de timinas por medio de una enzima de restricción, dejando extremos adhesivos en el sitio de corte. En el extremo adhesivo se une una molécula llamada “linker” que posee una enzima de restricción tipo II que corta nuevamente el ADNc, esta vez dejando un extremo romo. Aquí se obtiene por primera vez un “tag” de ADN (ARNm), unido a las secuencias que han permitido hibridaciones. Dos tag para formar un “ditag”, es decir, dos tags junto a dos moléculas linkers. Posteriormente se procede a amplificar por PCR para obtener mayor cantidad de ditags y favorecer la secuenciación. Los ditags se cortan con la primer enzima de restricción para eliminar los linkers y dejar a los ditags puros y con un extremo adhesivo, permitiendo la unión de estos a una gran hebra de ADNc (ditags) o concatenado de ADNc. Éste concatenado se pasa luego a un vector de clonamiento para obtener múltiples copias. Por último se procede a secuenciar este concatenado de ditags, identificando cuantos tags hay en total de cada ARNm, y se procede a identificar qué proteína codifican, mediante el uso de una base de datos. Figura 38. SAGE. Luego de la obtención de los ditaq se realiza clonado, secuenciación y análisis bioinformático. 44 Figura 39. Comparación de las secuencias de los Tag con bases de datos específicas como SAGE Genie donde ya se encuentran mapeados los tags con sus respectivos genes y permite la identificación y caracterización de los transcriptos ARN-Seq Figura 40. ARN-Seq. Secuenciación de última generación aplicada al análisis de transcriptomas. 45 El ARN-Seq se refiere al uso de la secuenciación de última generación aplicada al análisis de transcriptomas. Puede realizarse utilizando distintas plataformas: Ilumina, Roche, Solid. Independientemente de la plataforma utilizada la información obtenida es la misma. Permite obtener información, por ejemplo, como lo diferentes alelos de un gen se expresan, detectar mutaciones post-trascriptacional o identificar las funciones de genes. ARN-Seq proporciona una medición mucho mas precisa de los niveles de transcriptos y sus isoformas que otros métodos. La secuenciación a gran escala llevada a cabo en los proyectos genoma constituye la base de partida de la genómica funcional, que tiene como objetivo la caracterización del proteoma, esto es el conjunto completo de genes que determinan proteínas en un genoma, y la caracterización de los patrones de expresión génica. En la actualidad se dispone de numerosas estrategias para identificar el conjunto de genes funcionalmente activos como los microarreglos de ADN, SAGE y mas recientemente la secuenciación de alto rendimiento. 46 GENÓMICA COMPARATIVA La Genómica Comparativa, un nuevo campo de la biología que se desarrolla con rapidez, compara directamente la información genética de un organismo con la de otro. Es un campo con muchas aplicaciones tanto en ciencia básica como aplicada, incluyendo el descubrimiento de genes, el desarrollo de organismos modelo para enfermedades humanas y animales, la elucidación de la historia evolutiva entre los genes, genomas y especies, y la relación entre los organismos y su ambiente. La Genómica Comparativa usa una amplia gama de técnicas y recursos, incluyendo la construcción y utilización de bases de datos que contengan secuencias nucleotídicas y aminoacídicas, técnicas citogenéticas de cartografía génica como hibridación in situ fluorescente (FISH), y métodos experimentales, como mutagénesis. La genómica comparativa utiliza estos recursos para identificar las semejanzas y las diferencias genéticas entre organismos, para determinar como estas diferencias contribuyen a las diferencias fenotípicas, de ciclo vital, y para verificar la historia evolutiva de estas diferencias genéticas. El análisis de un número cada vez mayor de secuencias genómicas confirma que todos los seres vivos están relacionados y descienden de un ancestro en común. Todos los organismos utilizan grupos génicos parecidos para realizar las funciones celulares básicas, como la replicación del ADN, la transcripción y la traducción. A partir de los organismos modelo se pueden comparar estas funciones básicas para estudiar enfermedades hereditarias y analizar la interacción entre los genes. Para estudiar las homologías entre genomas de especies diferentes se usa el pintado cromosómico comparativo que utiliza sondas marcadas con fluorescencia de una especie e hibridando sobre los cromosomas de otra especie. Figura 41. Los genes ortólogos son aquellos que descienden de un gen ancestral común que tienen la misma función en diferentes especies. Las proteínas que surgen a partir de la duplicación de un único gen se denominan parálogas. Definir el número mínimo de genes para la vida es una tarea que implica métodos experimentales. comparativos La y aproximación comparativa se basa en la premisa que es probable que los genes compartidos 47 por organismos alejados sean esenciales para la vida. Comparando los conjuntos de genes compartidos por organismos diferentes sería posible catalogar los compartidos y desarrollar una lista de genes que se considerarían indispensables para la vida. Los genes ortólogos son aquellos que descienden de un gen ancestral común que tienen la misma función en diferentes especies. Así por ejemplo Mycoplasma genitalium comparte 240 genes ortólogos con Haemophilus influenzae además se identificaron 16 genes cuyas secuencias son diferentes pero realizan la misma función. Mycoplasma genitalium tiene un genoma con 480 genes que codifican proteína, lo que representa el genoma bacteriano mas pequeño de entre los casi 150 genomas secuenciados hasta la fecha. Los genes que pertenecen a familias multigénicas comparten secuencias de ADN similares pero no idénticas como resultado de una mutación en linaje con un único gen ancestral. Sus productos a menudo son diferentes con funciones parecidas pero sus genes no siempre se encuentran en una misma localización del cromosoma. Las familias multigénicas permiten aportan conocimientos sobre la evolución del genoma. Las proteínas que surgen a partir de la duplicación de un único gen se denominan parálogas. La familia de la globina es un ejemplo de familia multigénica paráloga que surgió por duplicación y dispersión a diferentes sitios cromosómicos. Las familias multigénicas están presentes en muchos genomas. Además de las amplias y grandes mutaciones de los genes pequeños bloques de genes pueden duplicarse mediante diversos mecanismos. La filogenia molecular ha trazado el linaje y las relaciones entre los miembros de las familias génicas. Uno de los ejemplos mejor estudiados de divergencia es la superfamilia génica de las globinas. En esta familia hace 800 años se produjo la duplicación de un gen ancestral que codificaba a una proteína de transporte de oxígeno. De los dos genes generados, uno evolucionó hasta la mioglobina actual y el otro en el gen de la globina ancestral el que se duplicó y formó los prototipos de las subfamilias génicas de la α y β globina. Otros patrones se observan en otras familias génicas las que son intensamente estudiadas en el genoma humano. Como se observa en la figura 42, en la región media del cromosoma 6 bovino (BTA6) se han mapeado diferentes QTL asociados a rasgos fenotípicos como producción de leche, conformación y rasgos funcionales en animales de tambo y composición corporal y crecimiento en animales de cría. En BTA6, la proporción de los genes de la especie bovina que se han asignado es relativamente pequeña y se distribuye de manera desigual. Estudios comparativos del mapeo cromosómico de alta resolución combinados con la información de las secuencias nucleotídicas pueden ser utilizado para detectar la posición y función, dentro de regiones del cromosoma, de genes candidatos polimórficos que afectan variables fenotípicas de importancia económica y fisiológica en bovinos. La alineación comparativa de las secuencias de los cromosomas ortólogos humanos, de ratón, de gallina y de perro con la secuencia bovina permitió enriquecer mapas previos del cromosoma BTA6 determinando loci nuevos. Utilizando el análisis de RH, incluyeron un total de 63 nuevos genes y EST con precisión en relación con la posición de los 48 loci conocidos, por lo tanto, aumentaron la densidad de los genes y ESTs integrados en el mapa de BTA6. Figura 42. Mapeo comparativo entre cromosomas de pollo, bovino, humano, ratón y perro. 49 LA PROTEÓMICA Esta rama se ocupa de Identificar y analizar las proteínas de una célula. El Proteoma define el conjunto completo de proteínas codificadas por un genoma. En la mayoría de los genomas secuenciados se desconoce la función de muchos de los genes recién descubiertos. Muchas veces se le asigna una función por su homología con genes conocidos. En E coli y S cerevisiae se desconoce la mayor parte de la función de los genes codificados al igual que en humanos. A medida que se dispone de más datos de las secuencias de los eucariotas se hace evidente que su complejidad no esta necesariamente correlacionada con la cantidad de genes. Por ejemplo Drosophila tiene menos genes que C. elegans pero no es menos complejo que el nemátodo. La relación entre gen y producto génico es compleja. Los genes pueden tener sitios múltiples de inicio de la transcripción que produce varios transcriptos distintos. El corte y empalme alternativo y la edición de las moléculas generan docenas de proteínas diferentes a partir de un único gen. En humanos se estima que el 40 – 60% producen más de una proteína por ese motivo. El análisis de la función proteica se ve dificultado por el hecho de que muchas proteínas trabajan vía interacciones proteína – proteína o como parte integrante de un gran complejo molecular. La proteómica se utiliza para reconciliar las diferencias entre el número de genes de un genoma y el número de proteínas (producto final) observadas en la célula. Proporciona información sobre la función de las proteínas, su estructura, las modificaciones posttraduccionales, las interacciones proteínicas sus variantes y las relaciones con otras proteínas del genoma. La proteómica utiliza técnicas para separar e identificar las proteínas aisladas. La combinación de técnicas implica un gel de electroforesis bidimensional (2DGE) y espectrometría de masas. En la primera las proteínas extraídas de una célula se cargan en un gel de poliacrilamida y se separa según su carga eléctrica. El gel se rota 90º y las proteínas se separan según su peso molecular. Las modernas técnicas de espectrometría de masas permiten determinar con precisión la masa de moléculas. Uno de estos métodos se denomina ionización por láser asistida por matriz (MALDI). Se pueden identificar cientos de proteínas por día y los bancos de espectrómetros pueden procesar cientos de muestras en un solo día. Nuevos instrumentos se están desarrollando para el procesado de muestras con más rapidez, sensibilidad y precisión. 50