NGS desarrolladas en AQUAGENET Diseños y principales resultados

Anuncio
1
2
2013
NGS desarrolladas en AQUAGENET
Diseños y principales resultados
Manuel Manchado1, Marian Ponce1, Manuel Aparicio1, Nuria Martin1, Ana Manuela Crespo1, Paula Armesto1, Marie
Laure Bégout2, Xavier Cousin2, Sylvie Lapégue2, Tristan Renault2, Isabelle Arzul2, David Mazurais2, Jose Luis
Zambonino2, Rossana Sussarellu2, Arnaud Huvet2, Pierre Boudry2, Florence Cornette2, Laureana Rebordinos3, Ismael
Cross3, Manuel Alejandro Merlo3, Silvia Portela3, Josep Planas4, Mireia Rovira4, Nicolas Bierne5, Christelle Fräisse5,
Pierre Alexandre Gagnaire5, François Bonhomme5, Marie-Thérèse Augé5, Alexandra Leitão6, Frederico Batista6
1
IFAPA; 2 IFREMER; 3University of Cadiz; 4University of Barcelona; 5CNRS; 6IPMA
Herramientas biotecnológicas
para la acuicultura
En los últimos años han surgido nuevas tecnologías de
análisis genético como las técnicas de secuenciación
masiva (NGS) y de nanotecnología, cuyo uso se ha
expandido enormemente por el amplio abanico de
aplicaciones y oportunidades que ofrecen en el campo
de la investigación biológica. En particular, la
nanotecnología se considera como un sector
económicamente relevante y de rápido crecimiento
llamado a liderar una nueva revolución industrial por su
increíble espectro de aplicaciones. Aunque mucha de
esta investigación está aún en desarrollo, esta tecnología
será probablemente de gran utilidad para el diseño de
nuevas estrategias para la gestión sanitaria, tratamiento
de aguas, mejora animal así como para tecnologías de
cosecha y post-cosecha (Rather et al., 2011).
De igual forma, las NGS se han convertido en una
realidad transformando el modo en que realizamos
genética y genómica aplicada para mejora animal. Las
diferentes plataformas NGS son capaces de generar un
gran volumen de información en un período muy corto
de tiempo, incluso para esas especies de las que se
dispone escasa o limitada información previa y a un
coste razonable (Cerdà y Manchado, 2013). La
acuicultura es uno de los principales campos que se
pueden beneficiar de este tipo de técnicas, debido a la
gran variedad de especies en producción y a la
dificultad de implementación de esquemas de
selección clásicos. Además, los esfuerzos
colaborativos en redes transnacionales especializadas
representa un mecanismo muy potente para explotar
al máximo la abundante información adquirida
mediante NGS y promover una aplicación práctica de
resultados. El desarrollo de acciones coordinadas para
el intercambio de información, la colaboración
científica para abordar cuestiones concretas de interés
común y la diseminación de actividades orientadas a
un sector productivo específico debería contribuir a
mantener y mejorar su productividad y
competitividad, como es el caso de la acuicultura en
la región SUDOE y la red AQUAGENET.
1
Lorem Ipsum Dolor
Spring 2016
ks%
llus
llus
Fish%
ks%
ILLUMINA%
Pathogens%
IFAPA%
454%
ILLUMINA%
Fish%
Fish%
%
ks
–2–
Mo
454%
SOLID%
IFREMER%
us
La caracterización del transcriptoma se considera como un primer
paso hacia el descifrado de la complejidad del genoma completo.
CNRS%
454%
ILLUMINA%
ol l
De acuerdo con la Convención sobre diversidad biológica, los
“recursos genéticos” (artículo 2) son esos materiales genéticos de
valor real o potencial. De forma análoga, los recursos genómicos
se pueden aplicar a la totalidad o partes del genoma (DNA) o de
sus unidades funcionales de valor real o potencial. Bajo esta
definición, muchos marcadores, vectores o genes se consideran
como parte de este conjunto de moléculas que componen los
recursos genéticos. Sin embargo, cuando se considera su
importancia por su aplicación en los programas de gestión y
mejora en acuicultura, destacan las Expressed Sequence Tags
(ESTs), clones BAC y los marcadores moleculares tales como
microsatélites (SSRs) y polimorfismos de nucleótidos simple
(SNPs).
UCA%
M
Las disponibilidad de herramientas y recursos genéticos y
genómicos ha aumentado de forma considerable en especies
acuícolas marinas en la última década. Sin embargo, estos
esfuerzos no se distribuyen de forma uniforme según la especie
considerada y su importancia económica y medioambiental.
Mientras se ha realizado una inversión muy significativa en
herramientas genéticas para dorada y lubina, las principales
especies producidas en el área Mediterránea, son escasos los
avances realizados en lenguados (Solea sp.), a pesar de su
aceptación en los mercados, sus posibilidades de transformación y
su precio elevado. Con respecto a los moluscos, se han hecho
importantes esfuerzos en ostras, especialmente con C. gigas, con su
genoma publicado recientemente, abriendo nuevas posibilidades
en esta especie. Sin embargo, existen recursos limitados para otras
especies interesantes del área SUDOE tal como la ostra C.
angulata, mejillones y almejas. En patógenos, existe un gran
volumen de información genómica derivada de secuenciación
masiva de organismos procariotas. Sin embargo, todavía se
desconoce las características genéticas de algunos patógenos y sus
cepas (incluyendo bacterias, virus y parásitos) que afectan a
moluscos y peces de crianza en la región SUDOE.
AQUAGENET%NETWORK%
Mo
Herramientas genómicas y
recursos, biotecnología clave
para la acuicultura en la región
SUDOE
IPMA%
ILLUMINA%
UB%
454%
%
RED AQUAGENET
La red AQUAGENET incluye seis beneficiarios de
Francia, España y Portugal que cooperan para el
desarrollo y aplicación de biotecnología en la
industria acuícola. Esta red ha implementado las más
recientes tecnologías NGS para el estudio del
genoma y transcriptoma de diferentes especies de
peces, moluscos y patógenos.
El diseño de estrategias integradoras para conseguir
el máximo rendimiento de estas tecnologías NGS ha
favorecido importantes avances en el conocimiento
de aspectos biológicos de la fisiología larvaria,
reproducción y metabolismo de algunos nutrientes.
Además, los estudios de genoma de algunos
patógenos y peces abre nueva oportunidad para el
diseño de herramientas específicas para el control de
las enfermedades y diagnóstico, procedimiento de
gestión y el uso de la genética como elementos clave
para reforzar la productividad del sector.
Si la cooperación científica es un elemento clave de
AQUAGENET, también lo es la transferencia de
tecnología. Todas las tecnologías y conocimientos
desarrollados serán transferidos al sector productivo a
través de una estrategia de interacción focalizada en
la diseminación de materiales, estudios conjuntos y
un amplio programa de seminarios y encuentros.
Toda la información generada y la estrecha relación
con el sector productivo a través de esas acciones
coordinadas debería contribuir satisfactoriamente a
impulsar la acuicultura en SUDOE.
2
3
Lorem Ipsum Dolor
Spring 2016
Las EST no sólo proporcionan información sobre las
regiones transcripcionalmente activas del genoma,
sino que también representan un recurso muy valioso
para el desarrollo de muchas aplicaciones genómicas
tales como herramientas de expresión de media y alta
densidad (RNA-seq, microarrays, y openarrays) o el
hallazgo de nuevos genes y marcadores tales como el
descubrimiento de marcadores SSR de tipo I o SNPs.
Por ello, el número de ESTs ha aumentado
considerablemente en especies acuícolas favorecido
por la popularización de las nuevas tecnologías de
secuenciación que permiten una secuenciación de
DNA a gran escala. El análisis de los recursos de EST
o transcriptómica tiene un gran impacto en la mejora
del conocimiento de la biología de estas especies y en
la optimización de los parámetros de producción
especialmente con cuellos de botella tales como el
cultivo larvario, reproducción, nutrición así como de
salud y bienestar.
Los SSR y SNP se han convertido en los marcadores
de DNA más populares debido a su utilidad para un
amplio rango de aplicaciones. Los SSR son secuencias
de DNA muy variables compuestas de repeticiones en
tándem de 1-6 nucleótidos. Ellos son marcadores
dominantes y tienden a estar distribuidos al azar en el
genoma. Por otro lado, los SNP son cambios simples
de nucleótidos en una secuencia de DNA que da lugar
a diferentes alelos que difieren en una posición
específica de nucleótidos. Ellos son los marcadores
genéticos más abundantes en el genoma y se
consideran más estables que los SSR debido a su
menores tasas de mutación. Estos marcadores se han
confirmado muy útiles en acuicultura y gestión
pesquera para la diferenciación genética de
poblaciones, identificación de especies, construcción de
mapas genéticos, identificación de QTLs y de factores
determinantes del sexo, estudios evolutivos y
herramientas de parentesco (Liu y Cordes, 2002;
Wenne et al., 2007). La resecuenciación del
transcriptoma y las tecnologías adaptadas basadas en
NGS como RAD-Tag están aumentando drásticamente
la disponibilidad de nuevos marcadores SSR y SNP de
una forma rápida y económica. La implementación de
NGS a través de consorcios claramente juega un
importante papel que traerá el potencial de
investigación genómica a la acuicultura promoviendo
una investigación aplicada, transferencia de tecnología
y mejora de la competitividad de la industria.
Los clones BAC se han usado durante varios años
como herramientas muy valiosas para los estudios
genéticos y genómicos de un amplio rango de especies.
Estos destacan por su precisión y coste para el estudio
de la organización del genoma y su composición así
como para construir mapas físicos citogenéticos.
Además, la secuenciación completa o parcial de los
extremos del BAC son también una fuente de
marcadores moleculares y especialmente SSR de tipo
II, que también se pueden utilizar para el desarrollo de
mapas genéticos.
Principales aplicaciones de las NGS
Las NGS tienen un amplio rango de aplicaciones, que incluye la caracterización del genoma, trasncriptoma y
caracterización de poblaciones. Dependiendo de la molécula diana y de los objetivos del estudio, éstas reciben
nombres específicos que ayudan a identificar de una forma más precisa su aplicación
Resecuenciación
Secuenciación
de genoma de
novo
RNA-Seq
Chip-Seq
DNAse-Seq
–3–
Methyl-Seq
Genómica de
poblaciones
Mapeo
genético
2
1
Lorem Ipsum Dolor
Spring 2016
Las técnicas NGS y su
implementación en
AQUAGENET
Las NGS tienen en común su capacidad para secuenciar
de forma simultánea millones de fragmentos
fraccionados al azar del genoma o transcriptoma con la
capacidad de lectura in situ a medida que los nucleótidos
se incorporan. Las NGS se clasifican en 2 tipos
principales: de segunda y tercera generación. La
segunda generación de NGS requiere de un paso
intermediario de amplificación clonal mientras que la
tercera generación es capaz de secuenciar directamente
moléculas simples. En este momento, las NGS del
primer grupo son las más extendidas incluyendo 4
plataformas (454, Illumina, Solid e Ion Torrent) y que
difieren en sus características químicas, metodología de
amplificación clonal, longitud de lectura, producción
total de información genética y los costes asociados. Las
principales características se describen en la Tabla 1.
seq y Dnase-seq), mapeo genético (RAD-seq y
enriquecimiento dirigido) y genómica de
poblaciones (Glenn, 2011). Aunque la mayoría de
aplicaciones se pueden realizar en varias
plataformas de NGS, la elección más adecuada
depende de varios factores, que incluyen los
recursos genómicos previamente disponibles para
esta especies, la cobertura requerida y los costes
asociados. Esas plataformas que producen lecturas
largas son óptimas para la caracterización de novo
del genoma y transcriptoma ya que estas secuencias
son más adecuadas para el análisis computacional y
ensamblaje mientras que los que producen lecturas
más cortas se orientan a menudo para
resecuenciación, perfiles de expresión y estudios
poblacionales.
Las principales aplicación es de las NGS incluyen la
secuenciación de novo de genoma completo, de
cromosomas artificiales de bacteria (BACs), el análisis
de resecuenciación dirigido, cuantificación de
transcriptoma y caracterización de RNA pequeños
(RNA-seq), perfiles de marcadores epigenéticos por
metilación (Methyl-Seq), estructura de cromatina (ChIP-
Tabla 1: Segunda generación de NGS. Se indica la química, tipo de amplificación clonal,
longitud de lectura, rendimiento y tiempo para cada plataforma.
454
a
Illumina
b
SOLiD
c
d
IonTorrent
Polimerasa
pirosecuenciaciónn
Polimerasa
Terminadores
reversibles
Ligasa
Octameros
Polimerasa
Detección de H+
Amplificación
clonal
PCR en emulsión
PCR puente
PCR en emulsión
PCR en emulsión
Longitud de
lectura
Rendimiento
250–500 bp
100 bp
50 bp
100 bp
500 Mb
200 Gb
71 Gb
1 Gb
50 Mb/h
~1000 Mb/h
246 Mb/h
500 Mb/h
Química
Tiempo
a
454 GS FLX Titanium; b HiSeq 2000; c SOLiD – 4; d Ion Torrent – ‘318’ chip; e (Glenn, 2011)
–4–
1
2
Lorem Ipsum Dolor
Spring 2016
de lenguado, almejas y parásitos. Además, se ha
completado el genoma del lenguado y se ha
resecuenciado un macho y una hembra de S.
senegalensis para la identificación de regiones
ligadas al sexo. Además, en mejillones y ostras
se ha aplicado la estrategia RAD-Tag para la
identificación de especies, estudios de
poblaciones y localización de regiones de
genoma ligadas a parámetros productivos.
Finalmente, la tecnología Solid se ha aplicado al
desarrollo de marcadores de genoma para la
identificación de especies de ostras.
En el proyecto AQUAGENET (Tabla 2) se han
implementado diferentes tecnologías NGS según
aplicación para alcanzar los principales objetivos del
mismo. De esta forma, hemos aplicado principalmente
tres tecnologías: 454, Solid e Illumina. La tecnología 454
se ha aplicado principalmente a la secuenciación de novo
del genoma, transcriptoma y clones BACs en S.
senegalensis. De igual forma, esta tecnología se ha aplicado
a la secuenciación de novo de patógenos (bacteria y virus).
La tecnología Illumina se ha aplicado con éxito a los
análisis de expresión génica (RNA-seq) en ambas especies
Tabla 2: Principales NGS desarrolladas en AQUAGENET. Se indica las especies diana, los
beneficiarios implicados, las NGS y aplicación y los tejidos/órganos analizados.
Grupo
Especies
Beneficiario
NGS
Aplicación
Organ/tissue
S. solea
IFREMER
Illumina
Transcriptómica
Embriones y larvas
S. senegalensis
UB
454
Transcriptómica.
IFAPA
454,
Illumina
Transcriptómica.
De novo genome
sequencing
Gónadas,
hipotálamo,
hipófisis
Embriones y larvas
Genoma
UCA
454
Mapeo genes
Secuenciación de
BAC de novo
BACs
M. galloprovincialis
CNRS
Illumina,
454
Estudios
poblacionales
BACs
Genoma
Crassostrea gigas
IFREMER
Illumina,
454
Varios tejidos
Crassostrea angulata
UCA
Solid
Transcriptómica
Secuenciación de
genoma
Polimorfismos
Ruditapes decussatus
IPMA
Illumina
Transcriptómica
Manto
P. damselae piscicida
IFAPA
454
Secuenciación de
genoma de novo
Aislados
Herpesvirus
IFREMER
454
Secuenciación de
genoma
Aislados
Bonamia
IFREMER
Illumina
Transcriptómica
Aislados
PECES
MOLUSCOS
PATÓGENOS
–5–
Genoma
1
2
Lorem Ipsum Dolor
Spring 2016
NGS aplicada a peces
Los lenguados incluyen un grupo de especies de alto valor
comercial. Dos son las principales especies que han
concentrado los mayores esfuerzos de investigación e
institucionales para desarrollar su acuicultura: Solea solea y
Solea senegalensis. Cuatro beneficiarios de AQUAGENET
(IFREMER, UCA, IFAPA y UB) han coordinado un
grupo de trabajo para incrementar los escasos recursos
genómicos disponibles hasta ahora para estas especies.
Con este fin, se ha establecido una estrategia basada en la
generación masiva de recursos genómicos usando el
análisis transcriptómico y de genoma integrado con un
mapeo físico basado en clones BAC.
En relación al análisis de transcriptoma, el principal
objetivo consistió en establecer una base de datos amigable
y de fácil manejo para Solea sp., denominada SoleaDB
(http://www.juntadeandalucia.es/agriculturaypesca/ifap
a/soleadb_ifapa/), para incrementar de forma significativa
los recursos genómicos (ESTs, SNPs y SSR). Esta
estrategia de secuenciación permite la comparación de
transcriptomas entre ambas especies de Solea. Además,
para avanzar en la aplicación de esta información, se ha
usado una planificación experimental y de tratamientos
similar para producir muestras de diferentes estadíos de
desarrollo y tratadas con compuestos relacionados con el
ácido retinoico y metabolismo tiroideo (dos reguladores
clave de embriones y desarrollo larvario). Esto permitirá
Análisis de transcriptoma en lenguados
S.#senegalensis#
S.#solea#
454,$Illumina$
Illumina$
Gónadas,$hipotálamo,$
hipófisis$
Desarrollo$larvario$
Tratamientos$hormonales$
Tratamientos$hormonales$
Desarrollo$larvario$
Sistema$inmune$
Osmoregulación$
SOLEADB#
–6–
descifrar el transcriptoma en estadíos clave del desarrollo
larvario y de embriones (pej, desarrollo temprano y
metamorfosis) e identificar genes relacionados con la
regulación del desarrollo y dos rutas de señalización
específicas. Además, se ha realizado un mayor esfuerzo
para la identificación de genes expresados implicados en
osmoregulación, sistema inmune innato y sistema
reproductivo. Este último implicó la construcción de
librerías marcadas para cada tejido analizado
(hipotálamo, hipófisis y gónadas) de machos y hembras
salvajes y criados en cautividad de lenguado senegalés.
Toda esta información se ha depositado en la SoleaDB y
se ha utilizado para el diseño y la optimización del
análisis de expresión de alto rendimiento tales como
herramientas de tipo microarray y openarray.
La estrategia de secuenciación inicial para el
establecimiento de una base de datos de secuencias
expresadas en lenguado senegalés incluyó la información
generada mediante la plataforma 454. Este tipo de
tecnologías se seleccionó por la longitud de las secuencias
(> 300 nt) para un mejor ensamblaje y anotación. De esta
forma, se realizaron varias carreras en tejidos
relacionados con osmoregulación, sistema inmune y eje
reproductivo. La tabla 3 muestra las principales cifras
para los datos de 454 de algunas librerías y recursos
genómicos generados. La secuenciación en lenguado
senegalés produjo aproximadamente 672 Mb que cuando
se ensamblaron produjeron unos 250.000 contigs, con
~30.000 SSR y más de 430.000 SNPs. Se seleccionaron
más de 44.000 unigenes como genes codificantes para el
diseño del microarray. Dentro de este gran conjunto de
genes, se identificaron algunos relacionados con el
proceso reproductivo, crecimiento y desarrollo como la
aromatasa, receptor de GnRH, hormona de crecimiento,
genes relacionados con el eje hipófisis-tiroides,
miostatina, etc.
1
2
Lorem Ipsum Dolor
Spring 2016
Tabla 3: Principales recursos genómicos generados mediante 454 e Illumina en S. senegalensis y S. solea
NGS
Nº de lecturas
Longitud media
de lectura
Nº de unigenes
Longitud media
contig
Gónadas
Hipófisis
Hipotálamo
454
454
454
934.429
699.765
348.799
Ensamblajev3
S. senegalensis
Ensamblajev4
S. senegalensis
Ensamblajev4
S. solea
3.379.685
1.800.249.230
2.101.324.072
199
66
64.637
68.254
55.469
252.416
697.125
523.637
374
453
269
336
525
799
194.471
155.163
Estadísticas SNPs
Tot. SNPs:
115.083
81.605
82.748
430.570
Unigenes con
SNPs
Media SNPs por
unigene
26.964
11.952
22.541
84.240
4,2
6,8
3,6
5,1
Estadísticas de SSR
Tot. SSRs:
11.246
15.811
8.944
30.918
Media SSRs por
unigene
SSRs di-nucl
1,2
1,2
1,2
1,1
3.424
5.359
3.186
1.0291
SSRs tri-nucl
5.055
6.062
3.523
12.623
SSRs > tri-nucl
2.767
4.390
2.235
8.004
Estadísticas de anotación
Anotados
63.940
60.663
54.771
84.763
Descripciones:
42.989
39.705
32.674
53.930
Gos
2.797
2.719
2.415
3.427
Interpros
7.031
6.894
6.131
7.929
Keggs
141
142
140
145
solea and S. senegalensis produjo casi 1 billón de
bases con ~500-1000 millones de lecturas para cada
especie. Los resultados preliminares del ensamblaje
permitió identificar 697.125 y 523.637 unigenes en
S. senegalensis y S. solea, respectivamente. En la
mayoría de casos, la identificación de genes diana
de respuesta específica para los compuestos
ensayados indicaron que los tratamientos habían
sido efectivos. Aproximadamente, se identificaron
unos 30-40.000 genes nuevos. En la Tabla 4 se
muestran algunas cifras respecto al número de
lecturas por muestra y las lecturas sencillas y
pareadas útiles, mostrando la robustez de la
estrategia y la similitud entre los análisis realizados
en ambas especies.
Además de la secuenciación 454, también se ha
implementado la tecnología RNA-seq de Illumina en
ambas especies de Solea para evaluar los perfiles de
expresión durante el desarrollo larvario. Como se
comentó anteriormente, este tecnología produce una
cantidad mayor de datos que 454 pero de menor
longitud, por lo que se considera menos adecuada para
secuenciación de novo. No obstante, pudimos
beneficiarnos de la primera ronda de la secuenciación
454 (explicada anteriormente) y que permitió establecer
un molde de estructura genómica y secuencias
expresadas. Esta información se utilizó para el
ensamblaje y anotación
La secuenciación del transcriptoma de desarrollo para S.
–7–
Lorem Ipsum Dolor
Spring 2016
Tabla 4. Datos de RNA-seq para tres muestras de larvas de S. solea and S. senegalensis. Se indica el
número de lecturas totales, rechazadas y útiles sencillas y pareadas
Muestra
Lecturas
(Nº)
Rechazadas (todas)
(Nº
%)
Utiles pareadas
(Nº
%)
Utiles sencillas
(Nº
%)
Solea solea
wDEAB1
wDEAB2
wDEAB3
52.608.854
50.801.814
55.389.248
8.705.154
12.514.611
9.613.012
16,5
42.103.218
24,6
36.461.034
17,4
43.866.914
Solea senegalensis
80,0
71,8
79,2
1.760.226
1.783.126
1.866.583
3,3
3,5
3,4
H642
45.043.118
7.575.787
16,8
36.029.680
80,0
1.412.595
3,1
H643
37.327.064
6.363.921
17,0
29.816.276
79,9
1.125.885
3,0
H644
47.397.302
8.393.341
17,7
37.398.424
78,9
1.581.817
3,3
Con relación al genoma, se ha generado un importante volumen
de lecturas de DNA para construir un mapa de S. senegalensis. Para
ello se ha diseñado una estrategia en tres pasos de acuerdo con el
tamaño de los fragmentos de DNA analizados: superscaffolding
mediante BACs: scaffolding mediante librerías de fragmentos
grandes (3-8 kb); análisis shotgun del genoma completo usando
fragmentos cortos generados al azar con Illumina. El análisis de
datos 454 long-paired produjo 4,790,106 lecturas con una
longitud media de 385 nt que producían unas 1,863 Mb. De
forma análoga, el análisis de Illumina matepair produjo 1,100
millones de lecturas. El ensamblaje está en curso.
Sobre el análisis de BAC, se han secuenciado 20 clones mediante
454. La selección de los clones se basó en una estrategia de PCR
4-D para genes relacionados con la determinación sexual,
metamorfosis, reproducción y sistema inmune. Además, los
clones BAC se usaron para localización cromosómica con el fin
de facilitar el anclaje de las secuencias completas de lenguado a
cromosomas específicos, y la integración de los diferentes datos
disponibles. Se han realizado FISH dobles y simples y se ha
obtenido el primer mapa cromosómico de S. senegalensis (GarciaCegarra et al., en prensa)
MAPEO mediante
FISH
El mapeo BAC-FISH permite una
localización física de genes en los
cromosomas. Esta técnica es muy útil para
validar los ensamblajes obtenidos mediante
análisis bioinformático. Además, se
considera como integradora y adecuada para
avanzar rápidamente en los estudios de
genoma sobre estructura y evolución.
La FISH puede ser simple como la imagen
de arriba indicando la localización de la
lisozima de tipo g o doble usando dos tipos
de sondas para establecer la posición relativa
de algunos genes. En la izquierda, se
muestra la localización relativa de la
lisozima tipo g y el rRNA 5S en diferentes
cromosomas. Además, el rRNA5S da una
señal en un par de cromosomas.
–8–
1
2
Lorem Ipsum Dolor
Spring 2016
Estrategia para la secuenciación del genoma de lenguado
BACs 40-200Kb
Superscaffolding
Lecturas Long paired-end (454)
Scaffolding
Cobertura 2x
Librerías 3-8 (>300 pb)
®
Lecturas Matepair (Illumina )
Covertura 2x
Librerías 3Kb (2x100)
80X 2x100
Shotgun de genoma
completo
NGS aplicada a Moluscos
Los moluscos más importantes económicamente en la
región SUDOE son los mejillones, ostras y almejas.
Para avanzar en el conocimiento de su biología,
dinámica de poblaciones y el establecimiento de
esquemas de mejora genética, se requiere la
generación de nuevos recursos genómicos. Las NGS
ofrecen una oportunidad única para el estudio de la
diversidad del genoma completo en especies no
modelo o en especies con un pequeño genoma. Sin
embargo, el análisis del genoma completo es muy
caro aún para especies no modelo con un genoma
grande como es el caso de ostras, almejas y
mejillones, aunque permite la realización de estudios
de diversidad en amplias regiones del mismo. Cuatro
beneficiarios de AQUAGENET (IFREMER, UCA,
CNRS e IPMA) han colaborado con la
implementación de NGS en ostras (Crassostrea gigas y
C. angulata), mejillones (Mytilus galloprovincialis y M.
edulis) y una especie de almeja (Ruditapes decussatus)
para: 1) desarrollar marcadores para la identificación
de regiones del genoma ligadas a la mortalidad del
verano de las semillas de ostra; 2) diferenciación de
especies (C. angulata y C. gigas; M. galloprovincialis y M.
edulis); 3) diferenciación fenotípica, principalmente
para
éxito
reproductivo
de
dos
especies
relacionadas
de ostras C.
angulata y C.
gigas; 4) Identificación de nuevos marcadores
moleculares para diferenciación de poblaciones y de
stocks de mejillones y almejas (M. galloprovincialis, M.
edulis y R. decussatus); 5) mapa genético y mapeo de
QTL en la ostra C. gigas, 6) Caracterización del
genoma de la ostra portuguesa C. angulata.
Para implementar las NGS, se han realizado diseños
experimentales complejos que permitan cubrir los
objetivos del proyecto. En ostras, se produjeron una
tercera generación de semillas supervivientes a la
enfermedad del verano y se muestrearon para la
identificación de regiones del genoma determinantes
de esta característica. Además, se analizaron ostras de
poblaciones naturales de diferentes localizaciones de
Asia y Europa para la identificación de especies. Para
investigar los perfiles de expresión de los órganos
reproductivos de ostras, se realizaron progenies puras
–9–
4
3
Lorem Ipsum Dolor
e híbridas mediante cruzamiento de progenitores
salvajes. En almejas, se muestrearon poblaciones
naturales de diferentes áreas de la región SUDOE para
el estudio de la diversidad genética.
En mejillones, se han realizado algunos muestreos y
análisis previos a la implementación de las NGS. Las
dos principales especies cultivadas en Europa, M.
galloprovincialis and M. edulis no son dos especies
verdaderas ocurriendo hibridaciones en zonas de
contacto con intercambio de genes entre especies, a
veces con una alta tasa. Menos conocido es la
diferenciación entre entidades genéticas diferenciadas,
o razas, dentro de especies, tales como M.
galloprovincialis del Mar Mediterráneo y el Océano
Atlántico (Gosset & Bierne, 2013), o entre M. edulis de
la Bahía de Vizcaya y el Mar del Norte (Gosset et al,
en prensa). La diferenciación genética entre razas y
especies es compleja y muy heterogénea en el genoma.
Cada entidad genética es criada localmente, a menudo
con métodos diferentes (long-line, raft, “bouchot” etc.)
pero también existe un importante comercio, de
semillas o de adultos, entre parques de cultivo, y esto
permanece sin explorar. Por ello, la diferenciación
entre entidades genéticas locales es muy ligera y
requiere un monitoreo del genoma más intenso.
Stocks de mejillones en Europa
Spring 2016
Como paso previo a las NGS, algunas muestras de
mejillones de diferentes stocks se analizaron mediante
cientos de marcadores Exon-Primed Intron-Crossing
(EPIC) and Amplified Fragment Length Polymorphism
(AFLP). De esta forma, se seleccionaron las muestras
diana que portaban loci muy diferenciados entre stocks.
Para el análisis de diversidad genética de stocks de
mejillones, se muestrearon 80 ejemplares de diez
localizaciones y se secuenció 3 Mb de su genoma
mediante un método de enriquecimiento dirigido.
A diferencia de los peces, en moluscos se han aplicado 4
plataformas NGS (454, illumina, BeadXpress SNP
genotyping technology y Solid). Las principales
aplicaciones fueron secuenciación de novo, RNA-Seq,
genómica de poblaciones mediante BAC y tecnología
RAD-Tag. Este último es una aplicación muy
interesante que permite la combinación de secuenciación
y genotipado. Para ello, se generan varios miles de
secuencias cortas en alto número de familia para mejora
genética. Esta tecnología se ha aplicado recientemente
con éxito tanto a plantas como animales y su uso está
crecimiento de forma muy importante.
Sobre los estudios de genoma, RAD-Tag se ha
implementado en 200 ejemplares de ostras en una acción
coordinada entre IFREMER y CNRS para identificar
SNPs para la diferenciación de especies de ostras y la
identificación de regiones del genoma vinculadas a la
mortalidad del verano. Se produjeron un total de 7
librerías de DNA digerido de 32 animales marcados
individualmente que se mezclaron antes de la
secuenciación. En total, se generaron 1.192.662.113
secuencias de 100 pb.
Para aumentar el número de marcadores de ostras para
diferenciación de ostras, la UCA implementó la
plataforma Solid para la generación de datos genómicos
a partir de un ejemplar de ostra portuguesa C. angulata
del suroeste de la península ibérica. Además, estos datos
se han comparado con los datos transcriptómicos
disponibles para la ostra del Pacífico (C. gigas, con la que
comparte un 98% de homología) disponibles en la base
–10–
6
5
Lorem Ipsum Dolor
de datos SIGENAE. Los datos del genoma de C.
angulata se mapearon frente al transcriptoma de
referencia (C. gigas) y las variantes se filtraron y
anotaron. El número total de lecturas analizadas fue
de 737.903.694. Sólo el 8.1% se mapeó en el
transcriptoma de referencia (60.045.528) con un
80.6% de bases cubiertas y un 15 de profundidad
media. Toda esta información se ha depositado en la
OysterGeneDB. Esta base de datos aloja las variantes
de nucleótidos localizadas entre C. angulata y C. gigas y
permite búsquedas específicas por nombre de
secuencias, gen, locus y otras referencias y regiones.
La base de datos está diseñada para ser capaz de
integrar información genómica adicional de Crassostrea
spp. Esto debería ayudar a aumentar el conocimiento
del genoma en estas especies acuícolas para avanzar
en su cultivo y manejo
Sobre los estudios de transcriptoma, la aplicación
RNA-Seq se implementó en C. gigas y R. decussatus
para estudiar el éxito reproductivo y caracterizar el
transcriptoma del manto, respectivamente. En ostras,
se construyeron un total de 36 librerías (9 por
Spring 2016
progenie) tras la extracción de RNA y purificación. Se
obtuvo un total de 1.081 millones de lecturas que
produjeron 109 Gb de información. En almejas, los
recursos genómicos son todavía escasos. Para descubrir
SNPs y SSR candidatos, se aisló RNA del manto de 8
individuos y se mezcló y secuenció mediante Illumina
Hiseq2000. En total se obtuvieron 127 millones de
lecturas y se identificaron 195.482 unigenes.
Sobre los análisis BAC en mejillones, se realizó una
librería BAC y se muestreó para 8 marcadores de interés
que mostraban una gran diferenciación entre stocks de
mejillones. Se analizaron 32 clones BAC positivos y 192
anónimos mediante 454 e Illumina. La mitad de los 32
BAC positivos fueron falso positivos. Finalmente, se
obtuvieron BACs para 4 de los 8 loci usados en el rastreo.
Respecto a los BACs anónimos, se ensamblaron en 360
contigs con una longitud media de 10 Kb (min 5 Kb,
max 80 Kb), que representaban 3.2 Mb del genoma de
mejillón. Estos contigs juntos con las 860 EST de una
longitud ~1 Kb- (de otros proyectos) se usaron para el
diseño de un sistema de captura y enriquecimiento (la
longitud total de la secuencia de referencia fue de 4 Mb y
se usó una máscara de 1 Mb para elementos repetidos).
Estrategia para el análisis de los polimorfismos de genoma en C. angulata tras compararla con C. gigas
–11–
7
8
Lorem Ipsum Dolor
Spring 2016
Análisis de componentes principales(CPA) de una matriz de genotipos formada por 79,000 SNPs en cuatro
poblaciones de M. galloprovincialis y cinco poblaciones de M. edulis
M.#galloprovincialis#
M.#edulis#
Europe)
Mediterranean)Sea)
Bay)of) North)Sea)
Biscay)
East)
West)
Long)
Island)
Bri/any)
Portugal)
America)
Atlan7c)Ocean)
De este análisis se obtuvieron 79.000 SNPs de alta
calidad con una frecuencia de alelo menor por encima
del 2.5%, que incluían SNPs con alelos fijados
diferencialmente entre stocks. El primer plano factorial
del análisis CPA mostró la diferenciación genética
entre mejilones en el área SUDOE. La secuencia de
referencia de las regiones del genoma dirigida y la
identificación de SNPs están disponibles en
MytilusDB. Posteriormente, se ha diseñado un panel
de 384 SNPs informativos bien diagnósticos o que
muestran patrones contradictores en la diferenciación
genética. Estos SNPs se analizarán en 480 individuos
con la tecnología SNP typing BeadXpress y nos
permitirá validar el valor diagnóstico de los mismos
sobre una muestra de mayor tamaño.
Bases de datos
MytilusDB
http://www.juntadeandalucia.es/agriculturaypesca/ifap
a/aquagenet/aquagenet/basesdedatos/moluscos/mytilu
sDB
OysterDB
http://www.juntadeandalucia.es/agriculturaypesca/ifap
a/aquagenet/aquagenet/basesdedatos/moluscos/oyster
DB
RuditapesDB
http://www.juntadeandalucia.es/agriculturaypesca/ifap
a/aquagenet/aquagenet/basesdedatos/moluscos/rudita
pesDB
–12–
1
2
Lorem Ipsum Dolor
Spring 2016
NGS aplicada a Patógenos
Los patógenos son una la mayor amenaza para la
producción acuícola en SUDOE. El desarrollo de la
producción acuícola requiere la mejora sustancial del
conocimiento disponible sobre los patógenos que
afectan esos cultivos, en particular la biología del
patógeno y la interacción patógeno-huésped. Los
recursos genómicos son necesarios para entender los
mecanismos de patogenicidad, supervivencia,
estrategias de resistencia y adaptación, mecanismos
de colonización de huésped y diversidad genética.
Además, las aplicaciones metagenómicas de las NGS
para conseguir información genética de los patógenos
en muestras de campo se ha convertido en una
herramienta útil para el descubrimiento de nuevos
agentes infecciosos y entender la dinámica de
poblaciones de virus (viroma), bacterias (bacterioma)
y poblaciones de parásitos. Todas estas aplicaciones
han hecho que las NGS se hayan popularizado
principalmente en los estudios de bacterias y virus, por
su menor tamaño de genoma. Sin embargo, estas
tecnologías son mucho más complicadas en parásitos
dada la dificultad de realizar cultivos puros y al
considerable mayor tamaño de sus genomas
requiriendo de estrategias más sofisticadas. En
AQUAGENET, hemos generado EST y recursos
genómicos de DNA de
patógenos relevantes para ostras y
lenguados que incluyen herpesvirus, Bonamia y
Photobacterium damselae piscicida. Esta información será
muy valiosa para el diseño de vacunas, diferenciación
de especies y estudios poblacionales.
Sobre parásitos, Bonamia ostreae and B. exitiosa, son
dos parásitos que habitan en la región SUDOE y que
afectan a las poblaciones salvajes y en cultivo de
moluscos. Estas dos especies son muy difíciles de
diferencias. De ahí, que se requieren métodos basados
en marcadores moleculares para el diseño de
herramientas de diagnóstico. Dado que estas especies
no son cultivables, se deben aislar de moluscos
enfermos haciendo que la implementación de las NGS
sea complicada. El DNA del hospedador y de
bacterias pueden contaminar las muestras dificultando
la identificación de las secuencias del parásito. Para
Filogenia de especies de
Photobacterium
Cluster 1 incluye Ph. angustum
Ph. mandapamensis, Ph. leiognathi.
Cluster 2, Ph. iliopiscarium, Ph.
aquimaris, Ph. phosphoreum, Ph.
frigidiphilum. Cluster 3, algunas
cepas de Ph. damselae damselae.
Cluster 4, algunas cepas de Ph.
damselae piscicida incluyendo la
cepa seleccionada. Cluster 5, Ph.
rosenbergii, Ph. jeanii, Ph.
lipolyticum, Ph. profundum, Ph.
indicum. V. harveyi se utilizó
como grupo externo.
–13–
4
3
Lorem Ipsum Dolor
Spring 2016
conseguir el máximo rendimiento de las NGS para
estos parásitos, se implementó la aplicación RNA-Seq
en un Illumina HiSeq2000 para aumentar nuestro
conocimiento sobre el genoma de Bonamia ostreae. La
identificación de genes homólogos de B. exitiosa
permitiría el diseño de herramientas de diferenciación
entre ambos parásitos. En total se han obtenido
377,761,590 secuencias que corresponden a 38,1 Gb.
Estas secuencias están en análisis para aumentar los
recursos disponibles en este parásito que permitan el
diseño de una herramienta para la diferenciación de
ambos patógenos muy cercanos
filogenéticamente.Sobre herpesvirus, se han
caracterizado un total de 69 aislados para cuatro
marcadores moleculares (ORF4, ORFs 35/36/3738 y
ORFs 42/43). El análisis filogenético identificó 3
genogrupos y un individuo de cada uno de ellos se
seleccionó para su estudio posterior mediante NGS.
De esta forma, se han identificado nuevos marcadores
que serán testados para su patogenicidad.Sobre la
bacteria, Photobacterium damselae piscicida pertenece a
la familia vibrionaceae y afecta comercialmente a
especies de interés comercial que se desarrollan en
aguas templadas. Este patógeno se caracteriza por su
amplia distribución geográfica, rango de
hospedadores y mortalidad masiva lo que lo convierte
en una gran amenaza para la acuicultura y en
particular para el lenguado, alcanzando casi el 100%
de la mortalidad. Un mayor conocimiento de la
información genómica sobre el género
Photobacterium seria esencial para entender sus
mecanismos de virulencia y avanzar en la taxonomía
de este grupo de patógenos.
bioquímico y molecular antes de las NGS. De esta
forma, hemos confirmado que no crece a 37ºC ni en
medio TCBS. Además, el análisis molecular de los
marcadores gapA, topA, mreB, ftsz confirmó que era la
especie considerada.
Para la secuenciación de genoma, se seleccionó la
plataforma 454 usando librerías simples y pareadas de 3
Kb. El número total de lecturas fue de 445.591 con una
longitud media de 558 nt produciendo un total de 214
Mb (Tabla 5). Un primer ensamblaje mostró 213 contigs
con un N50 de 42,239 nt. La longitud del genoma
ensamblado fue de 4,795,927 bp próximo al tamaño del
genoma completo. El análisis comparado ha
identificado 3.938 secuencias codificantes y 77 RNAs
que pueden ser útiles como dianas para el diseño de
vacunas.
Bases de datos
PhotobacteriumDB
http://www.juntadeandalucia.es/agriculturaypesca/ifa
pa/aquagenet/aquagenet/basesdedatos/patogenos/pho
tobacteriumDB
Bonamia
http://www.juntadeandalucia.es/agriculturaypesca/ifa
pa/aquagenet/aquagenet/basesdedatos/patogenos/Bon
amiaDB
Herpesvirus
http://www.juntadeandalucia.es/agriculturaypesca/ifa
pa/aquagenet/aquagenet/basesdedatos/patogenos/her
pesvirus
En AQUAGENET, hemos analizado la cepa
L09110603H, aislada de un brote de enfermedad en
lenguado. Esta cepa se ha caracterizado a nivel
Tabla 5. Principales recursos genómicos generados mediante NGS en Photobacterium damselae piscicida
Lecturas
Longitud
Nº
nt
Rechazadas
(todas)
Nº
%
Lecturas
pareadas útiles
Nº
%
Librería sencilla
297.269
508
2.920
0,98
-
Librería pareada
148.622
388
27.235
18,33
88.534
Total
445.891
448
30.155
6,76
88.534
–14–
-
Lecturas
sencillas útiles
Nº
%
294.349
99,02
59,57
77.120
51,89
59,57
371.469
83,31
Referencias
Cerdà J., Manchado M. 2013. Advances in genomics for flatfish aquaculture. Genes Nutr. 8(1):5-17.
García-Cegarra A, Merlo M.A, Ponce M, Portela-Bens S, Cross I, Manchado M, Rebordinos L. A Preliminary Genetic Map in Solea
senegalensis (Pleuronectiformes, Soleidae) Using BAC-FISH and Next-Generation Sequencing. Cyt Gen Res, in press
Glenn TC (2011) Field guide to next-generation DNA sequencers. Mol Ecol Res 11(5):759-769
Gosset CC & Bierne N (2013). Differential introgression from a sister species explains high FST outlier loci within a mussel species. J of
Evol Biol, 26(1), 14-26.
Gosset CC, Do Nascimento J, Augé M-T & Bierne N (in press) Evidence for adaptation from standing genetic variation on an
antimicrobial peptide gene in the mussel Mytilus edulis. Mol. Ecol.
Liu Z.J., Cordes J.F. 2004. DNA marker technologies and their applications in aquaculture genetics. Aquaculture 238: 1–37
Rather M.A., Sharma R., Aklakur M, Ahmad S., Kumar N., Khan M., Ramya V.L. 2001. Nanotechnology: A Novel Tool for
Aquaculture and Fisheries Development. A Prospective Mini-Review. Fisheries and Aquaculture Journal, Volume 2011: FAJ-16
AQUAGENET es un proyecto financiado por INTERREG IVB SUDOE
(SOE2/1381P1/E287)
Descargar