Resumen: A-039 UNIVERSIDAD NACIONAL DEL NORDEST E Comunicaciones Científicas y Tecnológicas 2004 Proyecto Internacional de Secuenciación del Genoma de Arroz: Su utilidad para el mapeo de alta densidad y el clonado posicional de genes en trigo. 1 2 Olmos, Sofía - Echenique, Viviana 1.Cátedra de Cultivos II, Facultad de Ciencias Agrarias, UNNE 2.CONICET, Departamento de Agronomía, Universidad Nacional del Sur. Email: [email protected] Antecedentes Los estudios genéticos de Devos y Gale, (1997) entre otros, revelaron que la organización y el orden de los genes (colinearidad) dentro de los genomas ha permanecido muy conservada a través de la evolución, existiendo estrechas relaciones entre los genomas de casi todas las gramíneas cultivadas, entre las Solanáceas, entre las Brasicáceas cultivadas y Arabidopsis, entre los pinos, Rosáceas y varias leguminosas. En función de este conocimiento los emprendimientos genómicos en vegetales tomaron especies modelo representativas de un genoma vegetal. Los cereales varían en cuanto a su contenido de ADN, desde aproximadamente 400 Mb en los genomas de arroz y Panicoideas, hasta 17.000 Mb en el trigo pan (Triticum aestivum L. em Tell). Esta enorme diferencia en contenido de ADN no se debe a la presencia de mayor cantidad de genes en el trigo sino a la abundancia de secuencias de ADN repetitivas, que no son genes y que en muchos casos son específicas de cada especie. Debido a que el genoma del arroz es el más pequeño entre los cereales utilizados en alimentación humana, siendo solamente cuatro veces más grande que el de Arabidopsis, ha sido considerado como un modelo para estudiar a otras especies de cereales. La secuenciación de este genoma ha sido llevada a cabo por el International Rice Genome Sequencing Project (IRGSP). Este organismo está formado por varios centros de investigación privados y públicos de Japón, USA, China, Taiwán, Corea, Francia, India y Tailandia. Cada uno de los centros de investigación tuvo a cargo la tarea de secuenciar 1 ó más de los 12 cromosomas del genoma de arroz. Los resultados obtenidos de cada centro de investigación, luego ser verificados para la búsqueda de posibles errores de secuencias, son depositados en la base de datos pública del Genbank. Estas secuencias representan actualmente 546,247,895 bp, y cubrirían aproximadamente el 126,7 % del genoma de arroz. El porcentaje final sobrestima la cobertura real debido a la redundancia de secuencias debida al solapamiento de algunas de ellas. En lo que respecta al trigo pan (2n= 6x= 42; AABBDD) su genética resulta compleja, ya que es de naturaleza hexaploide, con tres genomas homeólogos denominados A, B y D, que aportan 7 pares de cromosomas cada uno. Los genes redundantes son una norma, con sets homoalélicos triplicados en la mayoría de ellos. Dentro de los cereales, el genoma de trigo pan es el de mayor tamaño (17000 Mb trigo, 2800 Mb maíz, 800 Mb sorgo). Más del 80% del genoma de trigo lo constituyen secuencias de ADN altamente repetitivo. El restante 20% está compuesto por ADN de bajo número de copias o copia única, donde se encuentran la mayoría de los genes. Otro trigo cultivado, el trigo fideo o candeal (T. turgidum) es un tetraploide (2n= 4x= 28) constituído por dos genomas (AABB). La especie diploide más estudiadas es T. monococcum, uno de los ancestros del trigo pan y que posee dos copias del genoma A. Objetivos El presente trabajo describe los procedimientos que posibilitan el aislamiento de genes en trigo mediante el clonado posicional basado en el mapeo genético de alta densidad y el desarrollo de marcadores facilitado por el mapeo comparativo entre los genomas de arroz y trigo. Materiales y Métodos Conceptos Se definen a continuación algunos conceptos de las herramientas genéticas necesarias para lograr el objetivo propuesto: Marcadores moleculares: son secuencias de ADN que resultan variables (polimórficas) entre los individuos de una población. Los más utilizados son los polimorfismos en la longitud de los fragmentos de restricción (RFLP), microsatélites, y los ADNc (ESTs, Expressed Sequence Tag Sites). Población de mapeo: es una población de individuos que se encuentra segregando para un gen. Las más empleadas son las obtenidas por retrocruzas (BC1F1), las semillas F2, las líneas isogénicas recombinantes obtenidas por la autofecundación de cada semilla F2 (RILs), y los dobles haploides (DHs) obtenidos por el cultivo de anteras o por cruzamientos interespecíficos con maíz. Las poblaciones más adecuadas para el estudio de genes de herencia cuantitativa son las RILs y DHs debido a que permiten hacer ensayos a campo con gran cantidad de individuos homocigotas y magnificar así la varianza genotípica. Mapa genético: mediante el empleo de los marcadores moleculares y una población de mapeo que difiera marcadamente en un carácter es posible establecer la proximidad entre un marcador molecular y el gen responsable del Resumen: A-039 UNIVERSIDAD NACIONAL DEL NORDEST E Comunicaciones Científicas y Tecnológicas 2004 mismo para la especie vegetal en estudio. Esta proximidad, medida en unidades de mapa (cM), es una consecuencia del ligamiento genético existente entre el/los gen/es y los marcadores moleculares, y es la base sobre la que se fundamenta el uso de estas herramientas. En el mapeo genético se emplea a los marcadores moleculares como puntos de referencia y se basa en la frecuencia de recombinación entre los cromosomas homólogos. Esto se logra estableciendo la asociación entre los datos genotípicos (la contabilización de los alelos de los progenitores de cada individuo) y los datos fenotípicos (midiendo el carácter de interés agronómico) mediante programas como por ejemplo el Mapmaker (Lander et al., 1987). Mapa físico: permite conocer la posición exacta de cada marcador dentro de los cromosomas. Se basan en distancias moleculares, resultantes de mapas de fragmentos de restricción pracialmente superpuestos. La distancia entre dos marcadores puede ser medida determinando el tamaño de los fragmentos de restricción que los contienen, siendo el fragmentos más pequeño que lleva ambos marcadores una estimación de la distancia entre ellos. Utilizando combinaciones de sondas y enzimas de restricción puede construirse un mapa físico determinando que fragmentos poseen marcadores en común. Las distancias físicas entre marcadores se miden en kilobases o megabases. Los marcadores utilizados para este fin son los RFLP y los ESTs. Otro método emplea un stock citogenético de líneas de deleción, formado por un conjunto de cromosomas de la especie en estudio que se diferencian por tener combinaciones de intervalos cromosómicos delecionados (llamados BIN) en distintas posiciones. La comparación de la presencia/ausencia del marcador en cada stock indicaría la posición física del mismo. Mapeo in silico: se denomina así a la comparación computacional de secuencias y al establecimiento de similitud entre el ADN de los marcadores moleculares y los fragmentos de ADN genómicos secuenciados. Este procedimiento se realiza con programas como el BLAST (http://www.ncbi.nlm.nih.gov). El paso final consiste en anclar el mapa genético (formado por un ordenamiento relativo de marcadores basados en su frecuencia de recombinación) en el mapa físico obtenido a partir de la secuencia del ADN genómico. Secuenciación y anotación del genoma: para secuenciar el genoma, el ADN genómico aislado se trata con enzimas de restricción a fin de cortarlo en fragmentos grandes, que luego son insertados y clonados en vectores que aceptan insertos de gran tamaño como los cromosomas artificiales de bacterias (BACs). El conjunto de BACs que contiene una colección del genoma de una especie se denomina biblioteca genómica o genoteca. Para el caso de trigo existen genotecas para los genomas A y B. Una vez finalizada la secuenciación de un genoma se realiza la anotación, procedimiento por el cual se procede al análisis de las secuencias de manera de predecir la estructura del o de los genes contenidos en un fragmento genómico secuenciado mediante el empleo de programas de computación como el FgenesH (http://www.gramene.org) o el GenScan (Burge y Karlin, 1998), luego de lo cual la secuencia se deposita en la base de datos. Las secuencias codificantes predichas se comparan con las secuencias de proteínas conocidas a fin de asignarles una función probable. Clonado posicional: consiste en aislar un gen de interés dentro de los fragmentos de ADN genómicos clonados facilitado esto por un mapeo genético de alta densidad. Para ubicar un gen cuya secuencia se desconoce se puede partir de un marcador conocido que esté estrechamente ligado al mismo. Este marcador actúa como punto de partida para el caminado cromosómico, por el cual los fragmentos finales de del marcador ligado son utilizados como sondas para seleccionar otros clones de la genoteca. Del segundo grupo de clones (los que solapan con el inicial) se hacen mapas de restricción y los fragmentos obtenidos son utilizados para hacer una nueva ronda de selección de clones superpuestos. Así el proceso de caminado se mueve hacia ambos lados a partir del sitio inicial, que culmina cuando se llega el clon de interés. En Triticum monococcum (genoma A) recientemente se ha logrado el clonado posicional del gen VRN1(Yan et al., 2003). y del gen VRN2 (Yan et al., 2004) basados en el mapeo comparativo con arroz y cebada, los genes VRN1 y VRN2 son los principales responsables de los requerimientos de vernalización para la floración en los trigos invernales. Procedimientos Desarrollo de mapas genéticos de alta densidad: Muchos caracteres de interés agronómico (como rendimiento, contenido de nitrógeno en el grano, resistencia a enfermedades, etc.), son regulados por un sistema complejo de genes localizados en distintos loci de un mismo cromosoma o en diferentes cromosomas y son altamente influenciados por factores ambientales. La identificación de las regiones cromosómicas asociadas a la variación fenotípica de este tipo de caracteres, y la magnitud en que cada una de dichas regiones afecta al fenotipo, puede establecerse utilizando poblaciones de mapeo para las cuales se disponga de mapas genéticos con marcadores moleculares que se encuentren cubriendo gran parte del genoma. Estas poblaciones de mapeo son luego ensayadas agronómicamente en condiciones de campo a fin de cuantificar la magnitud de la variación fenotípica debida a un genotipo. Las regiones cromosómicas que explican parte de la variación observada en un carácter son llamadas QTLs (Quantitative Trait Loci) o Loci de Herencia Cuantitativa. Una de las principales dificultades para el estudio del genoma del trigo es su gran tamaño y la baja variabilidad genética debida a su sistema de reproducción (autogamia). Esto requiere analizar miles de individuos en una población de mapeo y cientos de marcadores moleculares a fin de obtener mapas genéticos de alta densidad. Un mapeo genético de alta densidad requiere, en primera instancia, del conocimiento previo de la localización cromosómica del gen de interés, en base a la información aportada por los mapas genéticos y del posterior desarrollo de una población de mapeo homocigota recombinante en la región circundante al gen o QTL constituída por un número elevado de individuos. Para ello se emplean las RILs y DHs provenientes de progenitores que difieren en el carácter Resumen: A-039 UNIVERSIDAD NACIONAL DEL NORDEST E Comunicaciones Científicas y Tecnológicas 2004 agronómico en estudio y se requieren marcadores moleculares polimórficos, que permitan obtener resoluciones cercanas a 0,1 cM. Para esto, se pueden emplear los RFLP provenientes de mapas genéticos de los otros genomas homeólogos de trigo o de las regiones homólogas de otras especies de gramíneas aprovechando los estudios de mapeo comparativo. Asimismo, una gran herramienta es el empleo de los ESTs (ADNc). La complejidad del genoma del trigo ha hecho aconsejable abordar los estudios genómicos a través del transcriptoma. Para ello, se han establecido consorcios internacionales. Las bases de datos de EST han crecido exponencialmente en la última década, de manera que en el National Center for Biotechnology Information dbEST database (http://www.ncbi.nlm.nih.gov/dbEST) en Marzo de 2004 había 20 millones de ESTs. Esto incluye cerca de 1 millon de ESTs de trigo hexaploide y sus parientes más cercanos de la tribu Triticeae, que son Hordeum vulgare L., especies diploides y tetraploides de Triticum, Secale cereale L. y Aegilops speltoides Tausch. Mapeo comparativo: Los estudios pioneros de Van Deynze et al., 1995; Devos y Gale, (1997), mostraron que extensas regiones del genoma de arroz contiene grupos de marcadores moleculares cuya composición y orden se encuentran altamente conservados en muchos cereales por lo que el genoma de estos pueden describirse básicamente como conjuntos de “bloques de ligamiento de genes de arroz”. A este fenómeno, visto también en otros grupos de plantas, se denomina colinearidad o sintenía. El mapeo comparativo, esto es el mapeo genético empleando marcadores cruzados entre especies diferentes, de los genomas de trigo y arroz permitió conocer cuales son los cromosomas de arroz homólogos a los de trigo. Por ejemplo, el cromosoma 6B de trigo candeal es homólogo al cromosoma 2 de arroz. De esta manera, la información proveniente del Proyecto Internacional de Secuenciación del Genoma de Arroz facilita el desarrollo de nuevos marcadores moleculares para trigo. El establecimiento de las regiones de homología entre ambos genomas permite determinar la Macrocolinearidad en primer instancia. Los estudios de macrocolinearidad pueden realizarse utilizando los datos depositados en el TIGR (The Institute for Genomic Research, http://www.tigr.org), donde se disponen para cada uno de los 12 cromosomas de arroz, los mapas in silico de anclaje entre las secuencias de los BACs de arroz del proyecto internacional y los marcadores genéticos de arroz provenientes de diversos trabajos publicados. A su vez, para delimitar el intervalo físico de arroz correspondiente a la región de trigo de interés, se buscan dentro del mapa de anclaje in silico del cromosoma respectivo de arroz los marcadores genéticos de arroz que se hubieran mapeado en la región homóloga de trigo. Dichas comparaciones pueden ser realizadas mediante la herramienta CMap Comparative Map Viewer del sitio www.gramene.org. Una vez acotados los BACs homólogos a la región colinear con trigo, se emplean los programas predictores de genes como el FgenesH (del sitio http://www.gramene.org) a fin de predecir las regiones codificantes en cada clon de BAC. Las regiones codificantes predichas (correspondientes a genes probables) se emplean para buscar homologías con los ESTs de trigo mapeados en aquellos BINs (intervalo de deleción, generalmente hay 3-4 BINs por brazo) del mapa físico de trigo que se espera contengan la región del mapa genético delimitando al gen, locus, loci o QTL en estudio. Los ESTs de trigo homólogos se purifican o bien se diseñan primers específicos a partir de sus secuencias a fin de amplificarlos mediante PCR y se emplean como sondas de hibridación en los Southern. Estas sondas son luego mapeadas en la población si previamente resultaron polimórficas entre los progenitores. Con los nuevos marcadores mapeados se construye un nuevo mapa genético de mayor densidad gracias a la microcolinearidad que hubiera entre el genoma de trigo y arroz para la región del gen de trigo estudiado. De esta forma, gracias a la macrocolinearidad y microcolinearidad y a la utilización de los clones de BACs de arroz, y mediante los procedimientos descriptos, es posible desarrollar nuevos marcadores moleculares que facilitan la construcción de mapas genéticos de alta densidad en trigo. Si se encontrara en las secuencias de arroz microcolineares a la de trigo al gen de trigo estudiado, sería entonces una cuestión de muy buena suerte. Aquellos marcadores genéticos que delimitan al gen de interés en trigo y que se encuentren separados a una distancia de aproximadamente 0,1 cM pueden ser usados como sondas de hibridación para hacer el screening de la biblioteca genómica de los gemomas A y B dando inicio al clonado posicional del gen. Conclusiones Debido al tamaño de sus genomas y a la complejidad de los mismos los trabajos de clonado posicional se han encarado en trigo diploide y no en trigo hexaploide o tetraploide. Sin embargo, el establecimiento de la microcolinearidad entre arroz y trigo y la utilización de la información provista por el Proyecto Internacional de Secuenciación del Genoma de Arroz permitió realizar grandes avances en el mapeo de alta densidad y tendiente al clonado posicional del gen Gpc6B1 responsable de altos contenidos de proteína en el trigo tetraploide. Este gen se halla localizado en el brazo corto del cromosoma 6B (Fig. 1, 2) (Olmos et al., 2003; Distelfeld et al., 2004). Estos avances fueron posibles gracias a: 1) el desarrollo de una gran población de mapeo homocigota, 2) el desarrollo de gran cantidad de marcadores moleculares, y 3) la aplicación de un correcto diseño experimental para evaluar el fenotipo (proteína en grano) altamente influenciado por el ambiente. Resumen: A-039 UNIVERSIDAD NACIONAL DEL NORDEST E Comunicaciones Científicas y Tecnológicas 2004 Fig. 1. (Izquierda) Colinearidad entre el mapa genético del brazo corto del cromosoma 2 de arroz (izq: Rice 2S) y el mapa genético del brazo corto del cromosoma 6B de trigo (medio: Wheat 6BS) (Distelfeld et al., 2004). Derecha, Análisis de QTL del contenido de proteína en el grano de trigo tetraploide (Olmos et al., 2003). Fig. 2. (Abajo) Microcolinearidad entre la región del gen Gpc6B1 en el brazo corto del cromosoma 6 de trigo y el brazo corto del cromosoma 2 de arroz ((Distelfeld et al., 2004). Las líneas sobre el cromosoma de arroz representan la posición de los BACs de arroz en el mapa físico de arroz. Las líneas fuera de los rectángulos indican la comparación del mapa genético de trigo y arroz fuera de la región adyacente al gen Gpc-6B1. La determinación del contenido de proteína de las RILs recombinantes en las proximidades del gen Gpc-6B1permitió el mapeo del mismo entre los marcadores Xucw79 y Xucw71 (región gris oscura). Bibliografía Burge CB, Karlin S (1998) Finding the genes in genomic DNA. Current Opinion in Structural Biology 8, 346-354 Devos KM, Gale MD (1997) Comparative genetics in the grasses. Plant Molecular Biology 35: 3–15, 1997. Distelfeld, A, Uauy C, Olmos S, Schlatter AR, Dubcovsky J, Fahima T (2004) Microcolinearity between a 2-cM region encompassing the grain protein content locus Gpc-6B1 on wheat chromosome 6 and a 350-kb region on rice chromosome 2. Funct Integr Genomics 4:59–66 Lander ES, Green P, Abrahamson J, Barlow A, Daly M, Lincoln SE, Newburg L (1987) MAPMAKER: An integrated computer package for construction of primary linkage maps of experimental and natural populations. Genomics 1:174-181 Olmos S, Distelfeld A, Chicaiza O, Schlatter AR, Fahima T, Echenique V, Dubcovsky J (2003). Precise mapping of a locus affecting grain protein content in durum wheat. Theor Appl Genet. 107(7):1243-51. Van Deynze AE, Nelson JC, Yglesis ES, Harrington SE, Braga DP, McCouch SR, Sorrells ME (1995b) Comparative mapping in grasses. Wheat relationships. Molecular and General Genetics 248:744-754 Yan L, Loukoianov A, Blechl A, Tranquilli G, Ramakrishna W, SanMiguel P, Bennetzen JL, Echenique V, Dubcovsky J (2004) The Wheat VRN2 Gene Is a Flowering Repressor Down-Regulated by Vernalization Vol 303 Science: 1641-1643 Yan L, Loukoianov A, Tranquilli G, Helguera M, Fahima T, Dubcovsky J (2003) Positional cloning of wheat vernalization gene Vrn1. Proc Nat Acad Science USA. 100:6263-6268