Marcadores moleculares Una definición El genoma no solamente contiene genes, sino también secuencias no codificantes que sin una función específica definida, pueden ser utilizados como puntos de marca o de anclaje (marcadores) cuando éstas se encuentran unidas o cercanas a las secuencias propias de los genes. Un marcador es una entidad genética que manifiesta polimorfismo y se hereda de manera mendeliana, o es lo mismo decir, un locus con una variación detectable demostrada experimentalmente. Marcadores Genéticos Fenotípicos: los polimorfismos de los genes se detectan a través de sus productos - Morfológicos: por ejemplo, color de flor - Bioquímicos: básicamente perfiles electroforéticos de isoenzimas y de proteínas de reserva Genotípicos o moleculares: Los polimorfismos de genes u otras secuencias no codificantes se detectan a nivel del DNA Marcadores morfológicos Los primeros en usarse (1960). Son características fenotípicas de fácil identificación visual tales como forma, color, tamaño o altura. Ejem. Hay alrededor de 50 caracteres de plántula, tallo, hoja, espiga, espiguilla y cariopside, que se utilizan para inscribir e identificar variedades de trigo en México. Los marcadores morfológicos presentan algunas limitaciones (estado fisiológico, condiciones ambientales, interacciones, etc.) no obstante permanecen como caracteres útiles en la identificación de materiales evaluados con métodos sencillos y a bajo costo. Isoenzimas Después se paso a los marcadores isoenzimáticos o marcadores de proteínas. Ciertos cambios en la secuencia de DNA (mutaciones) que codifica para estas enzimas pueden resultar en cambios en la composición de aminoácidos. Si estos cambios se producen, las proteínas podrían tener la misma actividad biológica, pero como su composición de aminoácidos varía, podrían tener diferente carga neta y por tanto diferentes velocidades de migración en un campo eléctrico (electroforesis). • Deshidrogenasas (alcohol deshidrogenasa ADH, glutamato dehidrogenasa GDH), • Oxidasas (peroxidasas PRX), hidrolasas (fosfatasas ácidas ACP, esterasas EST), • Isomerasas (fosfoglucoisomerasa PGI), transferasas (fosfoglucomutasas PGM). Las isoenzimas usadas en estudios de poblaciones vegetales para determinar variabilidad y estructura genética, sistemática y biología evolutiva así como en descripción de germoplasma e identificación de variedades. Proteínas de reserva El endospermo de los cereales es el principal componente de la semilla, ya que representa aproximadamente el 80-90% de su peso seco, además que el almidón y proteínas son las dos macromoléculas más importantes. La clasificación según la proteínas del endospermo se basa en la solubilidad relativa en diferentes solventes: albúminas solubles en agua, globulinas en solución salina, prolaminas en alcohol y glutelinas en ácidos o álcalis. El uso de proteínas de almacenamiento en estudios de diversidad genética sistemática, se basa en el hecho que las proteínas de diferentes individuos, poblaciones y especies son homólogas, y que al separarse en un gel producirán bandas similares o diferentes. Marcadores moleculares Los marcadores moleculares permiten evidenciar variaciones (polimorfismos) en la secuencia del DNA entre dos individuos, modifiquen estas o no su fenotipo. Esto se debe a que los marcadores moleculares “señalan” tanto regiones codificantes como no-codificantes del genoma. Para que una porción de DNA ligada al carácter de interés sea considerado un marcador genético debe mostrar una variación experimentalmente detectable entre los individuos de la población, y una herencia predecible según las leyes de Mendel Marcadores morfológicos Influencia del ambiente Bajo número Baja cobertura del genoma Bajo nivel de polimorfismo Menos informativos (dominantes o recesivos) Caracteres de madurez Entrenamiento y subjetividad Marcadores moleculares Sin influencia ambiental y neutros Cantidad ilimitada Amplia cobertura del genoma Alto nivel de polimorfismo Más informativos (en general codominantes) Análisis en fases tempranas Sencillos, rápidos y objetivos Polimorfismo de DNA Diversos sucesos pueden causar variantes, más o menos complejas, en la secuencia de nucleótidos del DNA. Tales variantes se describen, generalmente como polimorfismos. El polimorfismo se manifiesta en diferencias del genotipo - lo que se demuestra en los diversos perfiles de bandas que se detectan con un procedimiento apropiado - y quizás del fenotipo. Varios sucesos pueden producir polimorfismos: • Mutaciones puntuales • Inserciones o deleciones • Rearreglos “Polimorfismo de DNA es resultado de la acumulación de mutaciones” Marcadores moleculares de DNA Un marcador de DNA es simplemente un punto de referencia en un cromosoma, que puede o no corresponder a un gen. Existen diversas técnicas de biología molecular disponibles para detectar variabilidad en la secuencia de DNA. La reacción en cadena de la polimerasa (PCR), las enzimas de restricción, la separación electroforética de los fragmentos de DNA, las sondas marcadas y las hibridizaciones. Estas técnicas permiten obtener un número virtualmente ilimitado de marcadores moleculares, para cubrir la totalidad del genoma de un organismo. Clasificacion: de acuerdo al tipo de técnica I De acuerdo al tipo de técnica II • Métodos sin el uso de PCR • RFLP Polimorfismos de longitud de fragmentos de restricción/ Restriction Fragment Length Polymorphism • VNTR Variable Number Tandem Repeat /minisatelites • Métodos con el uso de PCR – PCR con primers arbitrarios • RAPD, AP-PCR, DAF, MAAP • AFLP • ISSR – PCR primers sitio-específico • CAPS, SCAR • SSRs (microsatélites) • TGGE, SSCP, DGGE De acuerdo al número de copias de la secuencia blanco • Secuencia de pocas copias - codificante • RFLP • Secuencia con copias repetidas • VNTR • SSRs (microssatélites) • ISSR (Inter Simple Sequence Repeats) • Secuencia con numero de copias indefinido • RAPD, AP-PCR, DAF, MAAP • AFLP • CAPS, SCAR 1,5% 8,5% altamente repetido 45% moderadamente repetido 45% Segun la fuente de DNA DNA nuclear (nDNA) En eucariontes, la mayor parte de la información genética se encuentra contenida en el núcleo de la célula. El nDNA contiene regiones únicas −de una sola copia− y no únicas −duplicadas o regiones repetitivas. Se considera que los organismos diploides tienen dos copias de cada región genética (locus) en los pares homólogos de los cromosomas, llamadas alelos, sin tener en cuenta si contienen regiones codificantes (exones) o no codificantes (intrones o regiones intergénicas). DNA de cloroplasto (clDNA) En los organismos fotosintéticos con cloroplastos existe un DNA típicamente bacteriano circular, de 120 a 200 kb (Brown et al. 1979), con intrones y exones, muy conservado, ya que se trata fundamentalmente del mismo genoma desde las hepáticas hasta las plantas superiores. Cada cloroplasto contiene varias regiones nucleotídicas, cada una con 8 a 10 moléculas de DNA. Un organismo unicelular como Euglena puede contener de 40 a 50 cloroplastos, por lo que la celula entera puede contener más de 500 copias del genoma del cloroplasto (Stansfield, 1992). DNA mitocondrial (mtDNA) El genoma mitocondrial (mtDNA) tiene un tamaño de 15 a 17 kb (Brown et al. 1979) y su longitud varía considerablemente entre especies: 20 micrómetros en Neurospora; 25 micrómetros en levaduras; 30 micrómetros en plantas superiores; 5 micrómetros en algunos animales metazoarios (multicelulares). Se considera que la mayoría del mtDNA de hongos y plantas no codifica, ya que el mtRNA contiene intrones. El mtRNA de animales carece de intrones y se transcribe como RNA policistrónico y se parte en RNA monocistronico antes de la traducción (Stansfield, 1992). Los polimorfismos del DNA mitocondrial (mtDNA) se han utilizado ampliamente en análisis filogenéticos y de diversidad genética. Son especialmente importantes para trazar historias filogeográficas y de estructura poblacional genética estrechamente relacionada al linaje. También nos permiten inferir cambios demográficos y de dispersión entre especies (Dirienzo y Wilson, 1991). DNA ribosomal (rDNA) El rDNA puede encontrarse en mitocondrias, cloroplasto y núcleo. Contiene la información para el RNA que conforma los ribosomas, por lo que es información que se transcribe pero no se traduce. Útiles para relaciones filogenias. El rDNA se presenta en repeticiones tándem y está formado por tres subunidades altamente conservadas (18 rDNA, 5.8 rDNA y 28 rDNA), separadas por dos espaciadores con elevadas tasas de sustitución (ITS1 e ITS2, marcadores moleculares). Estas repeticiones en tandém se encuentran conservadas a lo largo de todo un genoma y evolucionan concertadamente, lo que se atribuye a eventos recombinatorios como entrecruzamiento desigual y conversión génica. Descripción de los marcadores moleculares Maheswaran M (Aug. 2004) Advanced Biotech Importancia relativa de los marcadores Marcadores basados en DNA RFLP (Restriction fragment length polymorphism o Polimorfismo en la longitud de fragmentos de restricción) AFLP (Amplified fragment length polymorphism o Polimorfismos en la longitud de fragmentos amplificados) RAPD (Random amplification of polymorphic DNA o polimorfismos de DNA amplificados al azar) MINISATELITES VNTR (Variable number tandem repeat o Número variable de repeticiones en tándem) SSR - MICROSATELITES SSR (Short Sequence repeats) STR (Short Tandem repeats) SNP (Single nucleotide polymorphism o polimorfismo de un solo nucleótido) Restriction Fragment Length Polymorphisms (RFLPs) Compara el número y tamaño de fragmentos de DNA producidos por digestión DNA con varias enzimas de restricción Cebadores unidos a varias posiciones del DNA. La ubicación de los sitios de unión es aleatoria. Se utiliza el DNA celular total Requiere el DNA puro de alto peso molecular Metodologia 1 . Digestion DNA en fragmentos pequeños 2. Separacion de los fragmentos en gel de eletroforesis 3. Transferencia de fragmentos de DNA para filtro Nylon o nitrocelulosa. 4. Visualizacion de los fragmentos de DNA – sondas marcadas (32P) o quimioluminiscencia 5. Análisis de los resultados – bandas analizadas para alelos en/o presencia/ausencia – Diferencias en el patron de bandas refleja la diferencias genéticas. La eleccion de la sonda y enzima de restriccion es crucial (RFLP) Interpretacion de resultados 1 1 2 3 4 5 6 2 3 4 5 6 Sitio objetivo de la sonda Sitio de restriccion Insercion RFLP en Caña de Azúcar Sorgo Caña Random Amplified Polymorphic DNA (RAPDs) Cebadores son cortos (10 bp) con una secuencia generada aleatoriamente. Ademas puede contener >50% G+C. Cebadores unidos a varias posiciones del DNA. La ubicación de los sitios de unión es aleatoria. Algunos fragmentos generados son parecidos y otros diferentes de un individuo a otro. Desventaja: Alta variabilidad, dificultad de reconstruir historias evolucionarias (RAPD) RAPD AA AA Aa aa Aa aa Heterocigoto/ Homocigoto Interpretacion • • • • Marcadores RAPD son anonimos Son datos binarios (presencia x ausencia) RAPD son dominantes (AA = Aa) Problemas de co-migracion – misma banda, mismo fragmento? – una banda, un fragmento? • Cuestionamiento para filogenia – banda homólogas? Amplified Fragment Length Polymorphism - AFLP • • • • Combinacion de RFLP y PCR Resulta en patrones bastante informativos Marcador dominante Método cada vez mas usado DNA genomico Digestion con dos enzimas MseI EcoRI adaptadores ligacion pre-amplificacion Amplificacion selectiva MseI EcoRI DNA digestion ligacion preamplificacion primer +1 GAATTCCN CTTAAGCN EcoRI NTTAA NAATT ATTCCN GCN ATTCCN TAA GCN NT NAAT NT TA N AT A ATTCCN TAAGCN NTTA NAAT C AAC Amplificacion primer +3 ATTCCA TAAGCT GTTA CAAT AAC MseI AFLP de frijol gel desnaturalizante coloreado con plata AFLP de caña con 33P El análisis AFLP combina la digestión con enzimas de restricción con el PCR. 1) Digestión del DNA con dos ERs, una de las cuales corta secuencias precisas y la otra corta más frecuentemente. 2) Se agregan adaptadores para que se peguen en los bordes de los fragmentos recién formados y poder amplificar mediante PCR. DNA Repetitivo Microsatélites o Secuencias Simples Repetidas (Simple Sequence Repeats, SSRs) - Mono-, di-, tri-, y tetra-nucleótidos Minisatélites o Short Tandem Repeats (STRs) - 5-10 bp Variable Number of Tandem Repeats - 14-100 bp Microsatélites – Secuencias cortas (1 a 6 bases) repetidas en tandem. – Presentes en procariotos y eucariotos. – Presentes en regiones codificantes y no codificantes. – Mayoria de las repeticiones son dinucleotideos • (AC) n (AG) n (AT)n Los segmentos cortos DNA tienen secuencias repetidas como CACACACA, y se presentan en el DNA no codificante. La unidad repetida CA puede ocurrir 4 veces, o también 7 o 2 o 3. Microsatélites (SSR) ACTTCATTAA TGTCTTAGGT GGCAGAATAC TTTGATGCAA CAATTTCAAG GGGTGCTGAC ATTAAGTTGG CTGCCAATTG GATAATGGGT GATATTGCTG CCTATATGAA AAATGAAAAG CTTTCTATTA ATGAGATCAA ACTTATGCCA GAAGAGCTAG TAGAGCTGAT AGCTTCCATT AAAGGTGGGA CTATCAGTGG AAAGATTGGA AAGGAGGTAA GCATTTGCTT CTTTNACTGA TGCCACTTTC ATGTTCAAAC ATTTGTTAGT AATCCTGTCT ATTTATTTTC ATGGAAGAAT TTTACTAGCT ATTATTCTCC ACTGTGTAGA TGTGATTTTA TAGTTTGTTT GGATATATAA TTATTGTTCG TGTTTTTTTT TTTAATCCAA ACTTTATAAT CTTTCCAAGT GCTTTTCTCC TCCCTGTCTT TTTCCTCTAC CACACACACA CACACACACA CACACTCATA CAGAAAAAGG AAAAAGGAAA GAAAGAGAAC AGGAGATATA AAAACCTTTT TTCTTTATCA ATTAGATAAT TAGTTATAAA AGTTTTTCTC CTGCTTCTTA TCCCTCCGCT AAATGCCTGA TTAACTTTCT GCTGGTAAAG ATTTAAAATA ACTTGTTAAT TTTGGACATG Primer FOR NNNNNNNNNNNNNNNNNNNNN CACACACACACACACACAC NNNNNNNNN NNNNN NNNNNNNNNNNNNNNNNNNNN GTGTGTGTGTGTGTGTGTG NNNNNNNNNNNNNN Repeticion CA Primer REV Obtencion de secuencias: • a partir del banco de datos de genoma se busca un cDNA • Hibridacion con biblioteca genomica, identificacion de clones y secuenciamiento • Construccion de biblioteca enriquecida por afinidad con secuencia de la matriz Digestion DNA genômico total Secuencia microsatélite Ligacion Adaptadores Nicotiana tabacum Adaptadores Amplificacion ssDNA Sonda biotinilada ssDNA Bolilla magnéticaestratividina Enriquecimento y Seleccion Columna Amplificacion despues del enriquecimiento Enriquecimiento y seleccion 95°C / 15 min Sonda biotinilada ssDNA Biotina IIIII(CT)8 o Biotina IIIII(GT)8 Temperatura ambiente / 20 min Coluna Magnética água • Deteccion del polimorfismo – Geles de agarosa – Geles de acrilamida (detecta diferencias hasta de 2pb) • Coloracion direta: nitrato de plata (barato) • Coloracion indireta: marcacion radioativa o fluorescente Dna Total Nicotiana ripanda N. sylvestris N. tabacum “Coker 176” N. tabacum “Ky 14 RMI” Digestion con RsaI Ligacion con adaptadores Amplificacion Amplificacion despues del enriquecimento Todas las placas son evaluadas N. tabacum “Coker 176” N. sylvestris • Problemas – Costo y trabajo involucrados en el desarrollo de los cebadores • Construccion de bibliotecas genomicas • Secuenciamiento • Seleccion de los mejores cebadores Posibilidad de utilizar secuencias depositadas en la base de datos EST – SSR funcional x SSR genomico Una nueva generación: 2006 - 2012 Single Nucleotide Polymorphism: SNPs • • • Pueden representar hasta 90% de la variación genética humana 1.5 millones de posiciones presentan variabilidad Puede ser la base de susceptibilidad a enfermedades comunes (cáncer, diabetes, etc) • Farmacogenética: busca identificar la posible respuesta a las terapias con drogas. Metodos para identificar depende si es un SNP desconocido o conocido • The Next Generation of Molecular Markers From Massively Parallel Sequencing of Pooled DNA Samples 1. Amplificar DNA por PCR y sintetizar el primer upstream de un SNP conocido 2. Alinear primer a la secuencia blanco 3. Primer marcado extendido y terminado ddNTP 4. Separar fragmentos por una plataforma 5. Analizar resultados Insertion Site Based Polymorphism Desarrollo de varios marcadores moleculares basados en elementos transponibles, tales como S-SAP, IRAP, REMAP y RBIP. trigo Marcadores No Polimórficos • STSs (Sitio de secuencia especifica o Sequence Tagged Sites) Secuencia corta de DNA (200 – 500 bp) con una ubicación cromosómica conocida que ocurre una vez en el genoma. Se puede amplificar por PCR y utilizar para construccion de mapas físicos y genéticos. • ESTs (Marcador de Secuencia Expresada o Expressed Sequence Tags) Los EST son producidos por secuenciación sobre un mRNA clonado de una biblioteca de cDNA). La secuencia resultante es un fragmento de baja calidad, generalmente de 500 a 800 nucleotidos, que es la longitud de secuenciación de los secuenciadores automáticos. Como esos clones consisten en DNA que es complementario al mRNA, los ESTs representan porciones de genes expresados. Un marcador ideal debe ser: a) altamente polimórfico o variable dentro y entre especies; b) con herencia mendeliana no epistática (sin interacción entre genes); c) insensible a los efectos ambientales; d) de rápida identificación y simple análisis. Código de Barras de la Vida Código de barras es una metodología estandarizada para identificar plantas y animales mediante un número mínimo de secuencias de DNA, llamado código de barras de ADN (código de barras de la vida). Código de barras de la vida se define como una secuencia corta de DNA de una región estándar del genoma, usada en la identificación de especies (plantas y animales). ¿Por qué determinar el código de barras de la vida de las especies? Diversidad conocida Aprox. 1.7 millones de especies 1 cuadro = 10,000 especies Diversidad estimada 10 millones de especies La región génica en animales, es 648 bp del gen mitocondrial COI. Este gen ha demostrado ser altamente efectivo en la identificación de aves, mariposas, peces, mosquitos y otros. Mayor número de diferencias entre especies. •Número de copias. •En la mayoría de los casos, existen relativamente pocas diferencias entre especies. •Intrones, los cuales son regiones no-codificantes, están ausentes en el ADN mitocondrial. En plantas, 04 regiones de genes codificantes de cloroplasto (rbcL; matK; rpoB y rpoC1) y 03 espaciadores no codificantes (atpF-atpH; trnH-psbA y psbK-psbI). La región del espaciador interno transcrito (ITS) tiene la mayor probabilidad de identificación exitosa “barcode” para la más amplia variedad de hongos. Tipificación de secuencia multilocus ribosomal (rMLST, por sus siglas en ingles): Aprox. 53 genes codifican las subunidades de proteinas ribosomales bacterianas (genes rps). Los genes de la familia RPS, dan las diferentes proteinas que son los componentes de las estructuras celulares llamadas ribosomas. Las comparaciones muestran que entre humanos existen diferencias de 1 a 2 nucleótidos de los 648 evaluados (COI), mientras que somos diferentes de los chimpacés en 60 nucleótidos y de los gorilas en 70 posiciones.