1 2 2013 NGS desarrolladas en AQUAGENET Diseños y principales resultados Manuel Manchado1, Marian Ponce1, Manuel Aparicio1, Nuria Martin1, Ana Manuela Crespo1, Paula Armesto1, Marie Laure Bégout2, Xavier Cousin2, Sylvie Lapégue2, Tristan Renault2, Isabelle Arzul2, David Mazurais2, Jose Luis Zambonino2, Rossana Sussarellu2, Arnaud Huvet2, Pierre Boudry2, Florence Cornette2, Laureana Rebordinos3, Ismael Cross3, Manuel Alejandro Merlo3, Silvia Portela3, Josep Planas4, Mireia Rovira4, Nicolas Bierne5, Christelle Fräisse5, Pierre Alexandre Gagnaire5, François Bonhomme5, Marie-Thérèse Augé5, Alexandra Leitão6, Frederico Batista6 1 IFAPA; 2 IFREMER; 3University of Cadiz; 4University of Barcelona; 5CNRS; 6IPMA Herramientas biotecnológicas para la acuicultura En los últimos años han surgido nuevas tecnologías de análisis genético como las técnicas de secuenciación masiva (NGS) y de nanotecnología, cuyo uso se ha expandido enormemente por el amplio abanico de aplicaciones y oportunidades que ofrecen en el campo de la investigación biológica. En particular, la nanotecnología se considera como un sector económicamente relevante y de rápido crecimiento llamado a liderar una nueva revolución industrial por su increíble espectro de aplicaciones. Aunque mucha de esta investigación está aún en desarrollo, esta tecnología será probablemente de gran utilidad para el diseño de nuevas estrategias para la gestión sanitaria, tratamiento de aguas, mejora animal así como para tecnologías de cosecha y post-cosecha (Rather et al., 2011). De igual forma, las NGS se han convertido en una realidad transformando el modo en que realizamos genética y genómica aplicada para mejora animal. Las diferentes plataformas NGS son capaces de generar un gran volumen de información en un período muy corto de tiempo, incluso para esas especies de las que se dispone escasa o limitada información previa y a un coste razonable (Cerdà y Manchado, 2013). La acuicultura es uno de los principales campos que se pueden beneficiar de este tipo de técnicas, debido a la gran variedad de especies en producción y a la dificultad de implementación de esquemas de selección clásicos. Además, los esfuerzos colaborativos en redes transnacionales especializadas representa un mecanismo muy potente para explotar al máximo la abundante información adquirida mediante NGS y promover una aplicación práctica de resultados. El desarrollo de acciones coordinadas para el intercambio de información, la colaboración científica para abordar cuestiones concretas de interés común y la diseminación de actividades orientadas a un sector productivo específico debería contribuir a mantener y mejorar su productividad y competitividad, como es el caso de la acuicultura en la región SUDOE y la red AQUAGENET. 1 Lorem Ipsum Dolor Spring 2016 ks% llus llus Fish% ks% ILLUMINA% Pathogens% IFAPA% 454% ILLUMINA% Fish% Fish% % ks –2– Mo 454% SOLID% IFREMER% us La caracterización del transcriptoma se considera como un primer paso hacia el descifrado de la complejidad del genoma completo. CNRS% 454% ILLUMINA% ol l De acuerdo con la Convención sobre diversidad biológica, los “recursos genéticos” (artículo 2) son esos materiales genéticos de valor real o potencial. De forma análoga, los recursos genómicos se pueden aplicar a la totalidad o partes del genoma (DNA) o de sus unidades funcionales de valor real o potencial. Bajo esta definición, muchos marcadores, vectores o genes se consideran como parte de este conjunto de moléculas que componen los recursos genéticos. Sin embargo, cuando se considera su importancia por su aplicación en los programas de gestión y mejora en acuicultura, destacan las Expressed Sequence Tags (ESTs), clones BAC y los marcadores moleculares tales como microsatélites (SSRs) y polimorfismos de nucleótidos simple (SNPs). UCA% M Las disponibilidad de herramientas y recursos genéticos y genómicos ha aumentado de forma considerable en especies acuícolas marinas en la última década. Sin embargo, estos esfuerzos no se distribuyen de forma uniforme según la especie considerada y su importancia económica y medioambiental. Mientras se ha realizado una inversión muy significativa en herramientas genéticas para dorada y lubina, las principales especies producidas en el área Mediterránea, son escasos los avances realizados en lenguados (Solea sp.), a pesar de su aceptación en los mercados, sus posibilidades de transformación y su precio elevado. Con respecto a los moluscos, se han hecho importantes esfuerzos en ostras, especialmente con C. gigas, con su genoma publicado recientemente, abriendo nuevas posibilidades en esta especie. Sin embargo, existen recursos limitados para otras especies interesantes del área SUDOE tal como la ostra C. angulata, mejillones y almejas. En patógenos, existe un gran volumen de información genómica derivada de secuenciación masiva de organismos procariotas. Sin embargo, todavía se desconoce las características genéticas de algunos patógenos y sus cepas (incluyendo bacterias, virus y parásitos) que afectan a moluscos y peces de crianza en la región SUDOE. AQUAGENET%NETWORK% Mo Herramientas genómicas y recursos, biotecnología clave para la acuicultura en la región SUDOE IPMA% ILLUMINA% UB% 454% % RED AQUAGENET La red AQUAGENET incluye seis beneficiarios de Francia, España y Portugal que cooperan para el desarrollo y aplicación de biotecnología en la industria acuícola. Esta red ha implementado las más recientes tecnologías NGS para el estudio del genoma y transcriptoma de diferentes especies de peces, moluscos y patógenos. El diseño de estrategias integradoras para conseguir el máximo rendimiento de estas tecnologías NGS ha favorecido importantes avances en el conocimiento de aspectos biológicos de la fisiología larvaria, reproducción y metabolismo de algunos nutrientes. Además, los estudios de genoma de algunos patógenos y peces abre nueva oportunidad para el diseño de herramientas específicas para el control de las enfermedades y diagnóstico, procedimiento de gestión y el uso de la genética como elementos clave para reforzar la productividad del sector. Si la cooperación científica es un elemento clave de AQUAGENET, también lo es la transferencia de tecnología. Todas las tecnologías y conocimientos desarrollados serán transferidos al sector productivo a través de una estrategia de interacción focalizada en la diseminación de materiales, estudios conjuntos y un amplio programa de seminarios y encuentros. Toda la información generada y la estrecha relación con el sector productivo a través de esas acciones coordinadas debería contribuir satisfactoriamente a impulsar la acuicultura en SUDOE. 2 3 Lorem Ipsum Dolor Spring 2016 Las EST no sólo proporcionan información sobre las regiones transcripcionalmente activas del genoma, sino que también representan un recurso muy valioso para el desarrollo de muchas aplicaciones genómicas tales como herramientas de expresión de media y alta densidad (RNA-seq, microarrays, y openarrays) o el hallazgo de nuevos genes y marcadores tales como el descubrimiento de marcadores SSR de tipo I o SNPs. Por ello, el número de ESTs ha aumentado considerablemente en especies acuícolas favorecido por la popularización de las nuevas tecnologías de secuenciación que permiten una secuenciación de DNA a gran escala. El análisis de los recursos de EST o transcriptómica tiene un gran impacto en la mejora del conocimiento de la biología de estas especies y en la optimización de los parámetros de producción especialmente con cuellos de botella tales como el cultivo larvario, reproducción, nutrición así como de salud y bienestar. Los SSR y SNP se han convertido en los marcadores de DNA más populares debido a su utilidad para un amplio rango de aplicaciones. Los SSR son secuencias de DNA muy variables compuestas de repeticiones en tándem de 1-6 nucleótidos. Ellos son marcadores dominantes y tienden a estar distribuidos al azar en el genoma. Por otro lado, los SNP son cambios simples de nucleótidos en una secuencia de DNA que da lugar a diferentes alelos que difieren en una posición específica de nucleótidos. Ellos son los marcadores genéticos más abundantes en el genoma y se consideran más estables que los SSR debido a su menores tasas de mutación. Estos marcadores se han confirmado muy útiles en acuicultura y gestión pesquera para la diferenciación genética de poblaciones, identificación de especies, construcción de mapas genéticos, identificación de QTLs y de factores determinantes del sexo, estudios evolutivos y herramientas de parentesco (Liu y Cordes, 2002; Wenne et al., 2007). La resecuenciación del transcriptoma y las tecnologías adaptadas basadas en NGS como RAD-Tag están aumentando drásticamente la disponibilidad de nuevos marcadores SSR y SNP de una forma rápida y económica. La implementación de NGS a través de consorcios claramente juega un importante papel que traerá el potencial de investigación genómica a la acuicultura promoviendo una investigación aplicada, transferencia de tecnología y mejora de la competitividad de la industria. Los clones BAC se han usado durante varios años como herramientas muy valiosas para los estudios genéticos y genómicos de un amplio rango de especies. Estos destacan por su precisión y coste para el estudio de la organización del genoma y su composición así como para construir mapas físicos citogenéticos. Además, la secuenciación completa o parcial de los extremos del BAC son también una fuente de marcadores moleculares y especialmente SSR de tipo II, que también se pueden utilizar para el desarrollo de mapas genéticos. Principales aplicaciones de las NGS Las NGS tienen un amplio rango de aplicaciones, que incluye la caracterización del genoma, trasncriptoma y caracterización de poblaciones. Dependiendo de la molécula diana y de los objetivos del estudio, éstas reciben nombres específicos que ayudan a identificar de una forma más precisa su aplicación Resecuenciación Secuenciación de genoma de novo RNA-Seq Chip-Seq DNAse-Seq –3– Methyl-Seq Genómica de poblaciones Mapeo genético 2 1 Lorem Ipsum Dolor Spring 2016 Las técnicas NGS y su implementación en AQUAGENET Las NGS tienen en común su capacidad para secuenciar de forma simultánea millones de fragmentos fraccionados al azar del genoma o transcriptoma con la capacidad de lectura in situ a medida que los nucleótidos se incorporan. Las NGS se clasifican en 2 tipos principales: de segunda y tercera generación. La segunda generación de NGS requiere de un paso intermediario de amplificación clonal mientras que la tercera generación es capaz de secuenciar directamente moléculas simples. En este momento, las NGS del primer grupo son las más extendidas incluyendo 4 plataformas (454, Illumina, Solid e Ion Torrent) y que difieren en sus características químicas, metodología de amplificación clonal, longitud de lectura, producción total de información genética y los costes asociados. Las principales características se describen en la Tabla 1. seq y Dnase-seq), mapeo genético (RAD-seq y enriquecimiento dirigido) y genómica de poblaciones (Glenn, 2011). Aunque la mayoría de aplicaciones se pueden realizar en varias plataformas de NGS, la elección más adecuada depende de varios factores, que incluyen los recursos genómicos previamente disponibles para esta especies, la cobertura requerida y los costes asociados. Esas plataformas que producen lecturas largas son óptimas para la caracterización de novo del genoma y transcriptoma ya que estas secuencias son más adecuadas para el análisis computacional y ensamblaje mientras que los que producen lecturas más cortas se orientan a menudo para resecuenciación, perfiles de expresión y estudios poblacionales. Las principales aplicación es de las NGS incluyen la secuenciación de novo de genoma completo, de cromosomas artificiales de bacteria (BACs), el análisis de resecuenciación dirigido, cuantificación de transcriptoma y caracterización de RNA pequeños (RNA-seq), perfiles de marcadores epigenéticos por metilación (Methyl-Seq), estructura de cromatina (ChIP- Tabla 1: Segunda generación de NGS. Se indica la química, tipo de amplificación clonal, longitud de lectura, rendimiento y tiempo para cada plataforma. 454 a Illumina b SOLiD c d IonTorrent Polimerasa pirosecuenciaciónn Polimerasa Terminadores reversibles Ligasa Octameros Polimerasa Detección de H+ Amplificación clonal PCR en emulsión PCR puente PCR en emulsión PCR en emulsión Longitud de lectura Rendimiento 250–500 bp 100 bp 50 bp 100 bp 500 Mb 200 Gb 71 Gb 1 Gb 50 Mb/h ~1000 Mb/h 246 Mb/h 500 Mb/h Química Tiempo a 454 GS FLX Titanium; b HiSeq 2000; c SOLiD – 4; d Ion Torrent – ‘318’ chip; e (Glenn, 2011) –4– 1 2 Lorem Ipsum Dolor Spring 2016 de lenguado, almejas y parásitos. Además, se ha completado el genoma del lenguado y se ha resecuenciado un macho y una hembra de S. senegalensis para la identificación de regiones ligadas al sexo. Además, en mejillones y ostras se ha aplicado la estrategia RAD-Tag para la identificación de especies, estudios de poblaciones y localización de regiones de genoma ligadas a parámetros productivos. Finalmente, la tecnología Solid se ha aplicado al desarrollo de marcadores de genoma para la identificación de especies de ostras. En el proyecto AQUAGENET (Tabla 2) se han implementado diferentes tecnologías NGS según aplicación para alcanzar los principales objetivos del mismo. De esta forma, hemos aplicado principalmente tres tecnologías: 454, Solid e Illumina. La tecnología 454 se ha aplicado principalmente a la secuenciación de novo del genoma, transcriptoma y clones BACs en S. senegalensis. De igual forma, esta tecnología se ha aplicado a la secuenciación de novo de patógenos (bacteria y virus). La tecnología Illumina se ha aplicado con éxito a los análisis de expresión génica (RNA-seq) en ambas especies Tabla 2: Principales NGS desarrolladas en AQUAGENET. Se indica las especies diana, los beneficiarios implicados, las NGS y aplicación y los tejidos/órganos analizados. Grupo Especies Beneficiario NGS Aplicación Organ/tissue S. solea IFREMER Illumina Transcriptómica Embriones y larvas S. senegalensis UB 454 Transcriptómica. IFAPA 454, Illumina Transcriptómica. De novo genome sequencing Gónadas, hipotálamo, hipófisis Embriones y larvas Genoma UCA 454 Mapeo genes Secuenciación de BAC de novo BACs M. galloprovincialis CNRS Illumina, 454 Estudios poblacionales BACs Genoma Crassostrea gigas IFREMER Illumina, 454 Varios tejidos Crassostrea angulata UCA Solid Transcriptómica Secuenciación de genoma Polimorfismos Ruditapes decussatus IPMA Illumina Transcriptómica Manto P. damselae piscicida IFAPA 454 Secuenciación de genoma de novo Aislados Herpesvirus IFREMER 454 Secuenciación de genoma Aislados Bonamia IFREMER Illumina Transcriptómica Aislados PECES MOLUSCOS PATÓGENOS –5– Genoma 1 2 Lorem Ipsum Dolor Spring 2016 NGS aplicada a peces Los lenguados incluyen un grupo de especies de alto valor comercial. Dos son las principales especies que han concentrado los mayores esfuerzos de investigación e institucionales para desarrollar su acuicultura: Solea solea y Solea senegalensis. Cuatro beneficiarios de AQUAGENET (IFREMER, UCA, IFAPA y UB) han coordinado un grupo de trabajo para incrementar los escasos recursos genómicos disponibles hasta ahora para estas especies. Con este fin, se ha establecido una estrategia basada en la generación masiva de recursos genómicos usando el análisis transcriptómico y de genoma integrado con un mapeo físico basado en clones BAC. En relación al análisis de transcriptoma, el principal objetivo consistió en establecer una base de datos amigable y de fácil manejo para Solea sp., denominada SoleaDB (http://www.juntadeandalucia.es/agriculturaypesca/ifap a/soleadb_ifapa/), para incrementar de forma significativa los recursos genómicos (ESTs, SNPs y SSR). Esta estrategia de secuenciación permite la comparación de transcriptomas entre ambas especies de Solea. Además, para avanzar en la aplicación de esta información, se ha usado una planificación experimental y de tratamientos similar para producir muestras de diferentes estadíos de desarrollo y tratadas con compuestos relacionados con el ácido retinoico y metabolismo tiroideo (dos reguladores clave de embriones y desarrollo larvario). Esto permitirá Análisis de transcriptoma en lenguados S.#senegalensis# S.#solea# 454,$Illumina$ Illumina$ Gónadas,$hipotálamo,$ hipófisis$ Desarrollo$larvario$ Tratamientos$hormonales$ Tratamientos$hormonales$ Desarrollo$larvario$ Sistema$inmune$ Osmoregulación$ SOLEADB# –6– descifrar el transcriptoma en estadíos clave del desarrollo larvario y de embriones (pej, desarrollo temprano y metamorfosis) e identificar genes relacionados con la regulación del desarrollo y dos rutas de señalización específicas. Además, se ha realizado un mayor esfuerzo para la identificación de genes expresados implicados en osmoregulación, sistema inmune innato y sistema reproductivo. Este último implicó la construcción de librerías marcadas para cada tejido analizado (hipotálamo, hipófisis y gónadas) de machos y hembras salvajes y criados en cautividad de lenguado senegalés. Toda esta información se ha depositado en la SoleaDB y se ha utilizado para el diseño y la optimización del análisis de expresión de alto rendimiento tales como herramientas de tipo microarray y openarray. La estrategia de secuenciación inicial para el establecimiento de una base de datos de secuencias expresadas en lenguado senegalés incluyó la información generada mediante la plataforma 454. Este tipo de tecnologías se seleccionó por la longitud de las secuencias (> 300 nt) para un mejor ensamblaje y anotación. De esta forma, se realizaron varias carreras en tejidos relacionados con osmoregulación, sistema inmune y eje reproductivo. La tabla 3 muestra las principales cifras para los datos de 454 de algunas librerías y recursos genómicos generados. La secuenciación en lenguado senegalés produjo aproximadamente 672 Mb que cuando se ensamblaron produjeron unos 250.000 contigs, con ~30.000 SSR y más de 430.000 SNPs. Se seleccionaron más de 44.000 unigenes como genes codificantes para el diseño del microarray. Dentro de este gran conjunto de genes, se identificaron algunos relacionados con el proceso reproductivo, crecimiento y desarrollo como la aromatasa, receptor de GnRH, hormona de crecimiento, genes relacionados con el eje hipófisis-tiroides, miostatina, etc. 1 2 Lorem Ipsum Dolor Spring 2016 Tabla 3: Principales recursos genómicos generados mediante 454 e Illumina en S. senegalensis y S. solea NGS Nº de lecturas Longitud media de lectura Nº de unigenes Longitud media contig Gónadas Hipófisis Hipotálamo 454 454 454 934.429 699.765 348.799 Ensamblajev3 S. senegalensis Ensamblajev4 S. senegalensis Ensamblajev4 S. solea 3.379.685 1.800.249.230 2.101.324.072 199 66 64.637 68.254 55.469 252.416 697.125 523.637 374 453 269 336 525 799 194.471 155.163 Estadísticas SNPs Tot. SNPs: 115.083 81.605 82.748 430.570 Unigenes con SNPs Media SNPs por unigene 26.964 11.952 22.541 84.240 4,2 6,8 3,6 5,1 Estadísticas de SSR Tot. SSRs: 11.246 15.811 8.944 30.918 Media SSRs por unigene SSRs di-nucl 1,2 1,2 1,2 1,1 3.424 5.359 3.186 1.0291 SSRs tri-nucl 5.055 6.062 3.523 12.623 SSRs > tri-nucl 2.767 4.390 2.235 8.004 Estadísticas de anotación Anotados 63.940 60.663 54.771 84.763 Descripciones: 42.989 39.705 32.674 53.930 Gos 2.797 2.719 2.415 3.427 Interpros 7.031 6.894 6.131 7.929 Keggs 141 142 140 145 solea and S. senegalensis produjo casi 1 billón de bases con ~500-1000 millones de lecturas para cada especie. Los resultados preliminares del ensamblaje permitió identificar 697.125 y 523.637 unigenes en S. senegalensis y S. solea, respectivamente. En la mayoría de casos, la identificación de genes diana de respuesta específica para los compuestos ensayados indicaron que los tratamientos habían sido efectivos. Aproximadamente, se identificaron unos 30-40.000 genes nuevos. En la Tabla 4 se muestran algunas cifras respecto al número de lecturas por muestra y las lecturas sencillas y pareadas útiles, mostrando la robustez de la estrategia y la similitud entre los análisis realizados en ambas especies. Además de la secuenciación 454, también se ha implementado la tecnología RNA-seq de Illumina en ambas especies de Solea para evaluar los perfiles de expresión durante el desarrollo larvario. Como se comentó anteriormente, este tecnología produce una cantidad mayor de datos que 454 pero de menor longitud, por lo que se considera menos adecuada para secuenciación de novo. No obstante, pudimos beneficiarnos de la primera ronda de la secuenciación 454 (explicada anteriormente) y que permitió establecer un molde de estructura genómica y secuencias expresadas. Esta información se utilizó para el ensamblaje y anotación La secuenciación del transcriptoma de desarrollo para S. –7– Lorem Ipsum Dolor Spring 2016 Tabla 4. Datos de RNA-seq para tres muestras de larvas de S. solea and S. senegalensis. Se indica el número de lecturas totales, rechazadas y útiles sencillas y pareadas Muestra Lecturas (Nº) Rechazadas (todas) (Nº %) Utiles pareadas (Nº %) Utiles sencillas (Nº %) Solea solea wDEAB1 wDEAB2 wDEAB3 52.608.854 50.801.814 55.389.248 8.705.154 12.514.611 9.613.012 16,5 42.103.218 24,6 36.461.034 17,4 43.866.914 Solea senegalensis 80,0 71,8 79,2 1.760.226 1.783.126 1.866.583 3,3 3,5 3,4 H642 45.043.118 7.575.787 16,8 36.029.680 80,0 1.412.595 3,1 H643 37.327.064 6.363.921 17,0 29.816.276 79,9 1.125.885 3,0 H644 47.397.302 8.393.341 17,7 37.398.424 78,9 1.581.817 3,3 Con relación al genoma, se ha generado un importante volumen de lecturas de DNA para construir un mapa de S. senegalensis. Para ello se ha diseñado una estrategia en tres pasos de acuerdo con el tamaño de los fragmentos de DNA analizados: superscaffolding mediante BACs: scaffolding mediante librerías de fragmentos grandes (3-8 kb); análisis shotgun del genoma completo usando fragmentos cortos generados al azar con Illumina. El análisis de datos 454 long-paired produjo 4,790,106 lecturas con una longitud media de 385 nt que producían unas 1,863 Mb. De forma análoga, el análisis de Illumina matepair produjo 1,100 millones de lecturas. El ensamblaje está en curso. Sobre el análisis de BAC, se han secuenciado 20 clones mediante 454. La selección de los clones se basó en una estrategia de PCR 4-D para genes relacionados con la determinación sexual, metamorfosis, reproducción y sistema inmune. Además, los clones BAC se usaron para localización cromosómica con el fin de facilitar el anclaje de las secuencias completas de lenguado a cromosomas específicos, y la integración de los diferentes datos disponibles. Se han realizado FISH dobles y simples y se ha obtenido el primer mapa cromosómico de S. senegalensis (GarciaCegarra et al., en prensa) MAPEO mediante FISH El mapeo BAC-FISH permite una localización física de genes en los cromosomas. Esta técnica es muy útil para validar los ensamblajes obtenidos mediante análisis bioinformático. Además, se considera como integradora y adecuada para avanzar rápidamente en los estudios de genoma sobre estructura y evolución. La FISH puede ser simple como la imagen de arriba indicando la localización de la lisozima de tipo g o doble usando dos tipos de sondas para establecer la posición relativa de algunos genes. En la izquierda, se muestra la localización relativa de la lisozima tipo g y el rRNA 5S en diferentes cromosomas. Además, el rRNA5S da una señal en un par de cromosomas. –8– 1 2 Lorem Ipsum Dolor Spring 2016 Estrategia para la secuenciación del genoma de lenguado BACs 40-200Kb Superscaffolding Lecturas Long paired-end (454) Scaffolding Cobertura 2x Librerías 3-8 (>300 pb) ® Lecturas Matepair (Illumina ) Covertura 2x Librerías 3Kb (2x100) 80X 2x100 Shotgun de genoma completo NGS aplicada a Moluscos Los moluscos más importantes económicamente en la región SUDOE son los mejillones, ostras y almejas. Para avanzar en el conocimiento de su biología, dinámica de poblaciones y el establecimiento de esquemas de mejora genética, se requiere la generación de nuevos recursos genómicos. Las NGS ofrecen una oportunidad única para el estudio de la diversidad del genoma completo en especies no modelo o en especies con un pequeño genoma. Sin embargo, el análisis del genoma completo es muy caro aún para especies no modelo con un genoma grande como es el caso de ostras, almejas y mejillones, aunque permite la realización de estudios de diversidad en amplias regiones del mismo. Cuatro beneficiarios de AQUAGENET (IFREMER, UCA, CNRS e IPMA) han colaborado con la implementación de NGS en ostras (Crassostrea gigas y C. angulata), mejillones (Mytilus galloprovincialis y M. edulis) y una especie de almeja (Ruditapes decussatus) para: 1) desarrollar marcadores para la identificación de regiones del genoma ligadas a la mortalidad del verano de las semillas de ostra; 2) diferenciación de especies (C. angulata y C. gigas; M. galloprovincialis y M. edulis); 3) diferenciación fenotípica, principalmente para éxito reproductivo de dos especies relacionadas de ostras C. angulata y C. gigas; 4) Identificación de nuevos marcadores moleculares para diferenciación de poblaciones y de stocks de mejillones y almejas (M. galloprovincialis, M. edulis y R. decussatus); 5) mapa genético y mapeo de QTL en la ostra C. gigas, 6) Caracterización del genoma de la ostra portuguesa C. angulata. Para implementar las NGS, se han realizado diseños experimentales complejos que permitan cubrir los objetivos del proyecto. En ostras, se produjeron una tercera generación de semillas supervivientes a la enfermedad del verano y se muestrearon para la identificación de regiones del genoma determinantes de esta característica. Además, se analizaron ostras de poblaciones naturales de diferentes localizaciones de Asia y Europa para la identificación de especies. Para investigar los perfiles de expresión de los órganos reproductivos de ostras, se realizaron progenies puras –9– 4 3 Lorem Ipsum Dolor e híbridas mediante cruzamiento de progenitores salvajes. En almejas, se muestrearon poblaciones naturales de diferentes áreas de la región SUDOE para el estudio de la diversidad genética. En mejillones, se han realizado algunos muestreos y análisis previos a la implementación de las NGS. Las dos principales especies cultivadas en Europa, M. galloprovincialis and M. edulis no son dos especies verdaderas ocurriendo hibridaciones en zonas de contacto con intercambio de genes entre especies, a veces con una alta tasa. Menos conocido es la diferenciación entre entidades genéticas diferenciadas, o razas, dentro de especies, tales como M. galloprovincialis del Mar Mediterráneo y el Océano Atlántico (Gosset & Bierne, 2013), o entre M. edulis de la Bahía de Vizcaya y el Mar del Norte (Gosset et al, en prensa). La diferenciación genética entre razas y especies es compleja y muy heterogénea en el genoma. Cada entidad genética es criada localmente, a menudo con métodos diferentes (long-line, raft, “bouchot” etc.) pero también existe un importante comercio, de semillas o de adultos, entre parques de cultivo, y esto permanece sin explorar. Por ello, la diferenciación entre entidades genéticas locales es muy ligera y requiere un monitoreo del genoma más intenso. Stocks de mejillones en Europa Spring 2016 Como paso previo a las NGS, algunas muestras de mejillones de diferentes stocks se analizaron mediante cientos de marcadores Exon-Primed Intron-Crossing (EPIC) and Amplified Fragment Length Polymorphism (AFLP). De esta forma, se seleccionaron las muestras diana que portaban loci muy diferenciados entre stocks. Para el análisis de diversidad genética de stocks de mejillones, se muestrearon 80 ejemplares de diez localizaciones y se secuenció 3 Mb de su genoma mediante un método de enriquecimiento dirigido. A diferencia de los peces, en moluscos se han aplicado 4 plataformas NGS (454, illumina, BeadXpress SNP genotyping technology y Solid). Las principales aplicaciones fueron secuenciación de novo, RNA-Seq, genómica de poblaciones mediante BAC y tecnología RAD-Tag. Este último es una aplicación muy interesante que permite la combinación de secuenciación y genotipado. Para ello, se generan varios miles de secuencias cortas en alto número de familia para mejora genética. Esta tecnología se ha aplicado recientemente con éxito tanto a plantas como animales y su uso está crecimiento de forma muy importante. Sobre los estudios de genoma, RAD-Tag se ha implementado en 200 ejemplares de ostras en una acción coordinada entre IFREMER y CNRS para identificar SNPs para la diferenciación de especies de ostras y la identificación de regiones del genoma vinculadas a la mortalidad del verano. Se produjeron un total de 7 librerías de DNA digerido de 32 animales marcados individualmente que se mezclaron antes de la secuenciación. En total, se generaron 1.192.662.113 secuencias de 100 pb. Para aumentar el número de marcadores de ostras para diferenciación de ostras, la UCA implementó la plataforma Solid para la generación de datos genómicos a partir de un ejemplar de ostra portuguesa C. angulata del suroeste de la península ibérica. Además, estos datos se han comparado con los datos transcriptómicos disponibles para la ostra del Pacífico (C. gigas, con la que comparte un 98% de homología) disponibles en la base –10– 6 5 Lorem Ipsum Dolor de datos SIGENAE. Los datos del genoma de C. angulata se mapearon frente al transcriptoma de referencia (C. gigas) y las variantes se filtraron y anotaron. El número total de lecturas analizadas fue de 737.903.694. Sólo el 8.1% se mapeó en el transcriptoma de referencia (60.045.528) con un 80.6% de bases cubiertas y un 15 de profundidad media. Toda esta información se ha depositado en la OysterGeneDB. Esta base de datos aloja las variantes de nucleótidos localizadas entre C. angulata y C. gigas y permite búsquedas específicas por nombre de secuencias, gen, locus y otras referencias y regiones. La base de datos está diseñada para ser capaz de integrar información genómica adicional de Crassostrea spp. Esto debería ayudar a aumentar el conocimiento del genoma en estas especies acuícolas para avanzar en su cultivo y manejo Sobre los estudios de transcriptoma, la aplicación RNA-Seq se implementó en C. gigas y R. decussatus para estudiar el éxito reproductivo y caracterizar el transcriptoma del manto, respectivamente. En ostras, se construyeron un total de 36 librerías (9 por Spring 2016 progenie) tras la extracción de RNA y purificación. Se obtuvo un total de 1.081 millones de lecturas que produjeron 109 Gb de información. En almejas, los recursos genómicos son todavía escasos. Para descubrir SNPs y SSR candidatos, se aisló RNA del manto de 8 individuos y se mezcló y secuenció mediante Illumina Hiseq2000. En total se obtuvieron 127 millones de lecturas y se identificaron 195.482 unigenes. Sobre los análisis BAC en mejillones, se realizó una librería BAC y se muestreó para 8 marcadores de interés que mostraban una gran diferenciación entre stocks de mejillones. Se analizaron 32 clones BAC positivos y 192 anónimos mediante 454 e Illumina. La mitad de los 32 BAC positivos fueron falso positivos. Finalmente, se obtuvieron BACs para 4 de los 8 loci usados en el rastreo. Respecto a los BACs anónimos, se ensamblaron en 360 contigs con una longitud media de 10 Kb (min 5 Kb, max 80 Kb), que representaban 3.2 Mb del genoma de mejillón. Estos contigs juntos con las 860 EST de una longitud ~1 Kb- (de otros proyectos) se usaron para el diseño de un sistema de captura y enriquecimiento (la longitud total de la secuencia de referencia fue de 4 Mb y se usó una máscara de 1 Mb para elementos repetidos). Estrategia para el análisis de los polimorfismos de genoma en C. angulata tras compararla con C. gigas –11– 7 8 Lorem Ipsum Dolor Spring 2016 Análisis de componentes principales(CPA) de una matriz de genotipos formada por 79,000 SNPs en cuatro poblaciones de M. galloprovincialis y cinco poblaciones de M. edulis M.#galloprovincialis# M.#edulis# Europe) Mediterranean)Sea) Bay)of) North)Sea) Biscay) East) West) Long) Island) Bri/any) Portugal) America) Atlan7c)Ocean) De este análisis se obtuvieron 79.000 SNPs de alta calidad con una frecuencia de alelo menor por encima del 2.5%, que incluían SNPs con alelos fijados diferencialmente entre stocks. El primer plano factorial del análisis CPA mostró la diferenciación genética entre mejilones en el área SUDOE. La secuencia de referencia de las regiones del genoma dirigida y la identificación de SNPs están disponibles en MytilusDB. Posteriormente, se ha diseñado un panel de 384 SNPs informativos bien diagnósticos o que muestran patrones contradictores en la diferenciación genética. Estos SNPs se analizarán en 480 individuos con la tecnología SNP typing BeadXpress y nos permitirá validar el valor diagnóstico de los mismos sobre una muestra de mayor tamaño. Bases de datos MytilusDB http://www.juntadeandalucia.es/agriculturaypesca/ifap a/aquagenet/aquagenet/basesdedatos/moluscos/mytilu sDB OysterDB http://www.juntadeandalucia.es/agriculturaypesca/ifap a/aquagenet/aquagenet/basesdedatos/moluscos/oyster DB RuditapesDB http://www.juntadeandalucia.es/agriculturaypesca/ifap a/aquagenet/aquagenet/basesdedatos/moluscos/rudita pesDB –12– 1 2 Lorem Ipsum Dolor Spring 2016 NGS aplicada a Patógenos Los patógenos son una la mayor amenaza para la producción acuícola en SUDOE. El desarrollo de la producción acuícola requiere la mejora sustancial del conocimiento disponible sobre los patógenos que afectan esos cultivos, en particular la biología del patógeno y la interacción patógeno-huésped. Los recursos genómicos son necesarios para entender los mecanismos de patogenicidad, supervivencia, estrategias de resistencia y adaptación, mecanismos de colonización de huésped y diversidad genética. Además, las aplicaciones metagenómicas de las NGS para conseguir información genética de los patógenos en muestras de campo se ha convertido en una herramienta útil para el descubrimiento de nuevos agentes infecciosos y entender la dinámica de poblaciones de virus (viroma), bacterias (bacterioma) y poblaciones de parásitos. Todas estas aplicaciones han hecho que las NGS se hayan popularizado principalmente en los estudios de bacterias y virus, por su menor tamaño de genoma. Sin embargo, estas tecnologías son mucho más complicadas en parásitos dada la dificultad de realizar cultivos puros y al considerable mayor tamaño de sus genomas requiriendo de estrategias más sofisticadas. En AQUAGENET, hemos generado EST y recursos genómicos de DNA de patógenos relevantes para ostras y lenguados que incluyen herpesvirus, Bonamia y Photobacterium damselae piscicida. Esta información será muy valiosa para el diseño de vacunas, diferenciación de especies y estudios poblacionales. Sobre parásitos, Bonamia ostreae and B. exitiosa, son dos parásitos que habitan en la región SUDOE y que afectan a las poblaciones salvajes y en cultivo de moluscos. Estas dos especies son muy difíciles de diferencias. De ahí, que se requieren métodos basados en marcadores moleculares para el diseño de herramientas de diagnóstico. Dado que estas especies no son cultivables, se deben aislar de moluscos enfermos haciendo que la implementación de las NGS sea complicada. El DNA del hospedador y de bacterias pueden contaminar las muestras dificultando la identificación de las secuencias del parásito. Para Filogenia de especies de Photobacterium Cluster 1 incluye Ph. angustum Ph. mandapamensis, Ph. leiognathi. Cluster 2, Ph. iliopiscarium, Ph. aquimaris, Ph. phosphoreum, Ph. frigidiphilum. Cluster 3, algunas cepas de Ph. damselae damselae. Cluster 4, algunas cepas de Ph. damselae piscicida incluyendo la cepa seleccionada. Cluster 5, Ph. rosenbergii, Ph. jeanii, Ph. lipolyticum, Ph. profundum, Ph. indicum. V. harveyi se utilizó como grupo externo. –13– 4 3 Lorem Ipsum Dolor Spring 2016 conseguir el máximo rendimiento de las NGS para estos parásitos, se implementó la aplicación RNA-Seq en un Illumina HiSeq2000 para aumentar nuestro conocimiento sobre el genoma de Bonamia ostreae. La identificación de genes homólogos de B. exitiosa permitiría el diseño de herramientas de diferenciación entre ambos parásitos. En total se han obtenido 377,761,590 secuencias que corresponden a 38,1 Gb. Estas secuencias están en análisis para aumentar los recursos disponibles en este parásito que permitan el diseño de una herramienta para la diferenciación de ambos patógenos muy cercanos filogenéticamente.Sobre herpesvirus, se han caracterizado un total de 69 aislados para cuatro marcadores moleculares (ORF4, ORFs 35/36/3738 y ORFs 42/43). El análisis filogenético identificó 3 genogrupos y un individuo de cada uno de ellos se seleccionó para su estudio posterior mediante NGS. De esta forma, se han identificado nuevos marcadores que serán testados para su patogenicidad.Sobre la bacteria, Photobacterium damselae piscicida pertenece a la familia vibrionaceae y afecta comercialmente a especies de interés comercial que se desarrollan en aguas templadas. Este patógeno se caracteriza por su amplia distribución geográfica, rango de hospedadores y mortalidad masiva lo que lo convierte en una gran amenaza para la acuicultura y en particular para el lenguado, alcanzando casi el 100% de la mortalidad. Un mayor conocimiento de la información genómica sobre el género Photobacterium seria esencial para entender sus mecanismos de virulencia y avanzar en la taxonomía de este grupo de patógenos. bioquímico y molecular antes de las NGS. De esta forma, hemos confirmado que no crece a 37ºC ni en medio TCBS. Además, el análisis molecular de los marcadores gapA, topA, mreB, ftsz confirmó que era la especie considerada. Para la secuenciación de genoma, se seleccionó la plataforma 454 usando librerías simples y pareadas de 3 Kb. El número total de lecturas fue de 445.591 con una longitud media de 558 nt produciendo un total de 214 Mb (Tabla 5). Un primer ensamblaje mostró 213 contigs con un N50 de 42,239 nt. La longitud del genoma ensamblado fue de 4,795,927 bp próximo al tamaño del genoma completo. El análisis comparado ha identificado 3.938 secuencias codificantes y 77 RNAs que pueden ser útiles como dianas para el diseño de vacunas. Bases de datos PhotobacteriumDB http://www.juntadeandalucia.es/agriculturaypesca/ifa pa/aquagenet/aquagenet/basesdedatos/patogenos/pho tobacteriumDB Bonamia http://www.juntadeandalucia.es/agriculturaypesca/ifa pa/aquagenet/aquagenet/basesdedatos/patogenos/Bon amiaDB Herpesvirus http://www.juntadeandalucia.es/agriculturaypesca/ifa pa/aquagenet/aquagenet/basesdedatos/patogenos/her pesvirus En AQUAGENET, hemos analizado la cepa L09110603H, aislada de un brote de enfermedad en lenguado. Esta cepa se ha caracterizado a nivel Tabla 5. Principales recursos genómicos generados mediante NGS en Photobacterium damselae piscicida Lecturas Longitud Nº nt Rechazadas (todas) Nº % Lecturas pareadas útiles Nº % Librería sencilla 297.269 508 2.920 0,98 - Librería pareada 148.622 388 27.235 18,33 88.534 Total 445.891 448 30.155 6,76 88.534 –14– - Lecturas sencillas útiles Nº % 294.349 99,02 59,57 77.120 51,89 59,57 371.469 83,31 Referencias Cerdà J., Manchado M. 2013. Advances in genomics for flatfish aquaculture. Genes Nutr. 8(1):5-17. García-Cegarra A, Merlo M.A, Ponce M, Portela-Bens S, Cross I, Manchado M, Rebordinos L. A Preliminary Genetic Map in Solea senegalensis (Pleuronectiformes, Soleidae) Using BAC-FISH and Next-Generation Sequencing. Cyt Gen Res, in press Glenn TC (2011) Field guide to next-generation DNA sequencers. Mol Ecol Res 11(5):759-769 Gosset CC & Bierne N (2013). Differential introgression from a sister species explains high FST outlier loci within a mussel species. J of Evol Biol, 26(1), 14-26. Gosset CC, Do Nascimento J, Augé M-T & Bierne N (in press) Evidence for adaptation from standing genetic variation on an antimicrobial peptide gene in the mussel Mytilus edulis. Mol. Ecol. Liu Z.J., Cordes J.F. 2004. DNA marker technologies and their applications in aquaculture genetics. Aquaculture 238: 1–37 Rather M.A., Sharma R., Aklakur M, Ahmad S., Kumar N., Khan M., Ramya V.L. 2001. Nanotechnology: A Novel Tool for Aquaculture and Fisheries Development. A Prospective Mini-Review. Fisheries and Aquaculture Journal, Volume 2011: FAJ-16 AQUAGENET es un proyecto financiado por INTERREG IVB SUDOE (SOE2/1381P1/E287)