GenBank

Anuncio
GenBank
GenBank es una base de datos (BD) pública que contiene una extensa colección de
secuencias de nucleótidos obtenidas a partir de más de 300.000 especies. Además de la
secuencia, incluye información bibliográfica, anotaciones funcionales y, si se trata de
una secuencia codificante, su traducción conceptual a proteína.
De la gestión y distribución de GenBank se encarga el NCBI (National Center for
Biotechnology Information) en los Estados Unidos. Junto con el ENA (European
Nucleotide Archive) y el DDBJ (DNA Data Bank of Japan) forma el consorcio INSDC
(International Nucleotide Sequence Database Collaboration). Cada día, las tres BD
ponen al día sus contenidos para que todas ellas dispongan de la misma información.
Los contenidos de GenBank son accesibles de forma pública y gratuita a través de
Internet (http://www.ncbi.nlm.nih.gov/genbank/). También es posible descargar los
ficheros que contienen la BD desde el lugar ftp del NCBI (ftp://ftp.ncbi.nlm.nih.gov/).
Cada dos meses sale una nueva versión de la BD. La versión 206 (fechada el 15-2-2015)
contiene más de 181 millones de registros. Desde 1982, el número de secuencias
almacenadas en GenBank se ha duplicado aproximadamente cada 18 meses.
Las secuencias son enviadas directamente por vía telemática, tanto por los
investigadores que han obtenido los datos de forma experimental como por los grandes
centros de investigación dedicados por completo a proyectos genómicos de
secuenciación. Muchas revistas científicas exigen a los autores que depositen los datos
de la secuencia en una base de datos como condición previa a la publicación de su
trabajo. Se pueden enviar secuencias al GenBank mediante la herramienta BankIt
(basada en la www) o mediante el programa Sequin, que funciona sin conexión a
Internet.
Cada registro de GenBank contiene una secuencia ininterrumpida de una molécula de
polinucleótido. Podemos encontrar varios tipos de polinucleótidos: ADN genómico,
ARN genómico, ARN precursor, ARNm (ADNc), ARN ribosómico, ARN de
transferencia, ARN pequeño nuclear o ARN pequeño citoplasmático.
El tamaño mínimo de las secuencias almacenadas en GenBank es de 50 nucleótidos,
aunque algunos registros antiguos pueden tener secuencias más cortas. No hay límite
máximo, ya que se pueden mandar genomas completos (como el U00089), pero por
motivos prácticos, se suele limitar el tamaño de los registros a 350 kb. Además, los
registros incluyen anotaciones bibliográficas y biológicas.
El personal de GenBank asigna un número de acceso al registro que contiene la
secuencia y las anotaciones. El número de acceso es un identificador único que utilizan
las tres bases de datos (GenBank, ENA y DDBJ) y que siempre estará asociado a esa
secuencia. El número de acceso es una combinación de letras y números como, por
ejemplo, U12345 o AF123456. Si se introducen cambios en la secuencia o en las
anotaciones del registro, lo que sí cambia es la versión de la secuencia, que se indica
después del número de acceso, del que va separada por un punto (por ejemplo:
U12345.1). Si se producen cambios en el registro U12345.1, el nuevo registro tendrá un
identificador U12345.2. Para diferenciar una versión de otra y para poder tener un
historial de los distintos cambios que se hayan producido en el registro, el NCBI asigna
a cada versión un identificador único denominado "gi" (GenInfo Identifier).
Toda esta información aparece en las dos líneas del registro que empiezan por las
palabras ACCESSION y VERSION. Ejemplo:
ACCESSION
VERSION
U12345
U12345.1
GI: 7654321
Las secuencias de GenBank se encuentran distribuidas en 20 divisiones. Doce de ellas
son taxonómicas como, por ejemplo, BCT (bacterias), PRI, (primates) o ROD
(roedores) mientras que 8 son funcionales, ya que hacen referencia a las diversas
estrategias de secuenciación como, por ejemplo, EST (expressed sequence tags), HTG
(high-throughput genomic sequences) o GSS (genome survey sequences).
Divisiones de GenBank
Taxonómicas
Funcionales
Bacterias
Expressed sequence tags
BCT
EST
Muestras ambientales GSS
Genome survey sequences
ENV
Invertebrados
High-throughput cDNA
INV
HTC
Otros mamíferos
High-throughput genomic
MAM
HTG
Bacteriófagos
Sequence tagged sites
PHG
STS
Plantas
PLN
Primates
PRI
Roedores
Transcriptome shotgun data
ROD
TSA
Sintético
SYN
WGS Whole-genome shotgun data
Sin anotar
UNA
Virus
VRL
Otros vertebrados
Patented sequences
VRT
PAT
Estructura de un registro de GenBank
Cada registro contiene cuatro apartados:
1.- Encabezamiento
Es la parte del registro donde más interviene el personal de la BD y donde es posible
encontrar ligeras variaciones entre GenBank y las otras BD del consorcio INSDC.
Contiene información general sobre el registro, distribuida en varias líneas de
información. El nombre de cada línea, así como la información que contiene se resume
en la siguiente Tabla:
LÍNEA
LOCUS
DEFINITION
ACCESION
VERSION
KEYWORDS
SOURCE
ORGANISM
INFORMACIÓN QUE CONTIENE
Nombre del locus genético donde reside la secuencia, longitud de la secuencia, tipo
de molécula, división de GenBank y fecha de la última modificación.
Organismo de donde procede, nombre del gen o de la proteína, breve descripción de
su función. Es la misma línea que aparece en el formato FASTA tras el símbolo ">".
Número de acceso. Está asociado al registro para siempre, aunque sufra
modificaciones. Es el que se cita en las publicaciones.
El número de versión cambia cada vez que se hace alguna modificación. Cada
versión tiene el mismo número de acceso, pero se le asocia un GI (GeneInfo
Identifier) distinto para poder tener un historial de los cambios que sufre la
secuencia.
Palabras clave.
Nombre común y nombre científico del organismo de donde procede la secuencia.
Taxonomía completa del organismo de donde procede la secuencia.
2.- Referencias bibliográficas
Cada registro contiene por lo menos una referencia bibliográfica que incluye el nombre
de los autores, el título del artículo, la revista donde se ha publicado y el identificador de
PubMed (PMID). Cuando hay más de una aparecen numeradas y se muestran por
orden cronológico, comenzando por las más antiguas. La última referencia contiene
información sobre los autores que han enviado la secuencia a GenBank y la fecha del
envío.
LÍNEA
REFERENCE
COMMENTS
INFORMACIÓN QUE CONTIENE
Aparecen numeradas y por orden cronológico, comenzando por las más antiguas.
Se incluye el nombre de los autores, el título del artículo, la revista que lo ha
publicado y el identificador PUBMED (PMID). La última referencia contiene
información sobre los autores que han enviado la secuencia a GenBank.
Esta línea es opcional. Si el registro ha sido modificado, aquí se pueden incluir
enlaces a las versiones anteriores.
3.- Tabla de características (Features Table)
En este apartado se incluyen las anotaciones de la secuencia o de su producto proteico.
Por regla general, las anotaciones describen las regiones de la secuencia que llevan a
cabo una función biológica (promotores, regiones de unión al ribosoma, regiones
codificantes, intrones, exones, etc.) o que resultan particularmente interesantes por
algún otro motivo (presentan estructura secundaria o terciaria, interaccionan con otras
moléculas, han sido revisadas o corregidas, etc.).
El formato de la tabla es el siguiente:
FEATURES
Location/ Qualifiers
Features key (Tipo de característica)
Location (Ubicación)
Qualifiers (Calificadores)
La columna de la izquierda tiene el encabezamiento "FEATURES" y contiene los
distintos tipos de característica que se han encontrado en la secuencia. La columna de
la derecha tiene el encabezamiento "Location/Qualifiers" y en ella se indica la
ubicación exacta (location) de esa característica en la secuencia y uno o más
calificadores (qualifiers) que aportan detalles adicionales. Además, se incluyen
numerosos enlaces a otras BD que contienen información sobre la secuencia o sobre los
productos que codifica.
4.- Secuencia
En este apartado se incluye la secuencia completa. Cada línea tiene 60 nucleótidos
dispuestos en 6 bloques de 10. Las secuencias se escriben con el tipo de letra "Courier"
porque cada carácter ocupa exactamente la misma anchura.
LÍNEA
ORIGIN
//
INFORMACIÓN QUE CONTIENE
Es una línea que suele estar en blanco y por debajo de la cual se describe la secuencia
completa. Cada línea contiene 60 nucleótidos dispuestos en 6 bloques de 10.
Símbolo que indica el final del registro.
Búsquedas en GenBank
Se pueden hacer búsquedas en GenBank mediante palabras clave (como en PubMed o
en Google). Los términos compuestos se ponen entre comillas (ejemplo: "duchenne
muscular dystrophy") y si se introducen varios términos también se pueden utilizar los
operadores lógicos (AND, OR, NOT). Sin embargo, este procedimiento no es muy
recomendable porque, con frecuencia, las anotaciones no incluyen palabras clave o no
están suficientemente actualizadas. Por eso, a veces es imposible acceder a un registro
utilizando palabras clave.
Lo mejor es introducir el nombre de la proteína o del gen (completo o abreviado).
También se puede introducir el nombre del autor o de la persona que ha enviado la
secuencia. Para ello, primero se pone el apellido, después se deja un espacio y, a
continuación, se pone la inicial o iniciales del nombre (por ejemplo: Smith JR). No se
tienen en cuenta las mayúsculas o minúsculas.
Los resultados de la búsqueda se pueden filtrar según diversos criterios como, por
ejemplo, el tipo de molécula, su longitud, la especie, la base de datos, las fechas de
envío o de revisión, etc.
Para acceder directamente a un registro se introduce el número de acceso (por
ejemplo: NM_002020).
Descargar