Bioinformática – Genética Molecular 1 NCBI. Bases de Datos

Anuncio
Bioinformática – Genética Molecular
NCBI. Bases de Datos: Pubmed, Nucleotide, Protein, Structure
A lo largo de los últimos 15 o 20 años, se ha ido acumulando una gran cantidad de información
de naturaleza molecular (secuencias de genes, genomas, proteínas, etc.), procedente de los
distintos proyectos genoma de diferentes especies (Homo sapiens, Pan troglodytes, Gallus
gallus, Drosophila melanogaster, Takifugu rubripes, Caenorhabditis elegans, etc. etc.).
Toda esta información se ha ido depositando en grandes “almacenes” de información de
secuencias, organizadas en bases de datos, con la intención de que científicos y público en
general, pudiera acceder a ella a través de internet. Como complemento a esa información de
tipo molecular, estos “almacenes” han incorporado toda una colección de publicaciones y
textos científicos de tipo biomédico. En este sentido, el que un biólogo sepa cómo acceder y
explotar esta información de un modo eficiente, resulta hoy en día algo absolutamente
imprescindible y necesario.
De todos estos almacenes de información de secuencias, el correspondiente al “National
Center for Biotechnology Information (NCBI)” puede considerarse como el de referencia en lo
que a obtención de secuencias moleculares y publicaciones biomédicas se refiere.
Estas prácticas tienen por objeto aprender a manejar la información contenida en el NCBI de
una forma más o menos sencilla o elemental.
La URL (Uniform Resource Locator) del NCBI es http://www.ncbi.nlm.nih.gov , y su página
inicial es a día de hoy la siguiente:
1
4
2
3
En ella hemos indicado los enlaces que nos llevan a los contenidos de información relativos a
publicaciones de índole biomédica (1), de secuencias de nucleótidos (2) y proteínas (3), y de la
estructura tridimensional de moléculas (4).
1
Bioinformática – Genética Molecular
ENLACES A PUBLICACIONES DE ÍNDOLE BIOMÉDICA.
Pubmed: PubMed comprende más de 24 millones de citas de la literatura biomédica, revistas
de ciencias biológicas, y los libros en línea. Las citas pueden incluir vínculos al texto completo
de artículos de PubMed Central (ver más abajo) y sitios web de editoriales, o solamente al
resumen de dichos artículos.
Bookshelf: Proporciona acceso gratuito a textos en línea y documentos en ciencias de la vida y
de la salud.
PubMed Central: Es un archivo de revistas de carácter biológico y biomédico, de libre acceso, y
depositado en la Biblioteca Nacional de Medicina, de los Institutos Nacionales de Salud
(NIH/NLM).
PubMed Health: Proporciona información a médicos y público en general sobre la prevención y
tratamiento de enfermedades y afecciones.
Veamos brevemente cómo buscar referencias biomédicas a través de PubMed, sobre, por
ejemplo, la organización del promotor de eucariotas. El punto de partida de la búsqueda
puede realizarse desde distintos sitios, pero para sistematizar este procedimiento, vamos a
realizar la búsqueda desde la página inicial de PubMed. Para ello pinchamos en el enlace
PubMed que vemos en la figura de más arriba, situado en la columna encabezada por “Popular
Resources”, lo que nos lleva a la siguiente página:
2
1
En la ventana de búsqueda (señalada con una flecha -1) podemos incluir los términos de
búsqueda (generalmente, en inglés): eukaryotic promoter organization, lo que nos da una
relación de más de 250 artículos en los que aparecen cualquiera de los términos anteriores,
que posteriormente podemos reordenar de acuerdo a distintos criterios: relevancia, tipo de
artículo (revisiones, descripciones completas de un paciente o enfermedad - “case report”-,
carta, noticia, etc.), periodo de publicación en años, etc. etc.
2
Bioinformática – Genética Molecular
Alternativamente, podemos realizar una búsqueda avanzada de artículos (señalada con la
flecha 2 – ver más atrás), en la que podemos incluir términos específicos para campos
concretos de la base de datos de PubMed (autor, fecha de publicación, idioma de la
publicación, revista, etc.), con lo que la búsqueda se vuelve más específica y precisa.
La búsqueda de información en las restantes bases de datos PubMed Central, Bookshelf o
PubMed Health, es similar a lo mostrado anteriormente. Conviene que practiques, buscando
en estas bases de datos la información que sea de tu interés.
3
Bioinformática – Genética Molecular
BÚSQUEDA Y OBTENCIÓN DE SECUENCIAS NUCLEOTÍDICAS
El procedimiento es muy similar al indicado para buscar información en PubMed, sólo que
ahora trabajaremos en una base de datos del NCBI diferente; en este caso será la base datos
de “Nucleotide”. En la página principal de NCBI pinchamos en el enlace correspondiente a
Nucleotide (“Popular resources”, columna de la derecha), y entramos en la página inicial de
NUCLEOTIDE.
2
1
Al igual que veíamos en PubMed, podemos introducir los términos de búsqueda, bien la
ventanita (flecha 1) o bien a través del procedimiento de búsqueda avanzad (flecha 2). Esto
último es generalmente preferible, puesto que podemos afinar mucho más nuestra búsqueda.
Imaginemos que queremos buscar la secuencia del mensajero del gen de la Tirosinasa en el
ratón (mutaciones en el gen de la tirosinasa, producen albinismo) usando el procedimiento de
búsqueda avanda. Introduciremos sucesivamente los términos Mus musculus y tyrosinase en
los campos de “organism” y “protein name”
4
Bioinformática – Genética Molecular
La respuesta tendría el siguiente aspecto:
Recuadrado en rojo aparece la entrada de Nucleotide correspondiente a la secuencia buscada.
Si pinchamos en el enlace Fasta, tendremos la secuencia en un formato utilizable en distintos
programas bioinformáticos.
Una secuencia en formato FASTA, bien de nucleótidos o de aminoácidos, tiene una sintaxis
caracterizada por una primera línea que obligatoriamente empieza por el símbolo “mayor que”
(>) seguido por una identificación de la secuencia en cuestión; esta línea es meramente
informativa. A partir de la segunda línea y siguientes aparece la secuencia de la molécula
propiamente dicha. Por ejemplo, la secuencia de nucleótidos ATTGCCGTTATGCAATTGAT en
formato FASTA aparecería como sigue:
>Ejemplo de secuencia en FASTA
ATTGCCGTTATGCAATTGAT
BÚSQUEDA Y OBTENCIÓN DE SECUENCIAS DE PROTEÍNAS
El procedimiento de búsqueda es totalmente equiparable al de las búsquedas de secuencias
nucleotídicas, sólo que la base de datos del NCBI sobre la que se ha de trabajar es la de
“Protein”. Podemos acceder a ella desde la página principal de NCBI; pinchamos en el enlace
5
Bioinformática – Genética Molecular
correspondiente a Protein (“Popular resources”, columna de la derecha), y entramos en la
página inicial de PROTEIN.
2
1
Podemos introducir los términos de búsqueda, bien la ventanita (flecha 1) o bien a través del
procedimiento de búsqueda avanzad (flecha 2), lo que es preferible, puesto que podemos
afinar mucho más nuestra búsqueda.
La búsqueda de la secuencia proteica de la tirosinasa (tyrosynase) del ratón (Mus musculus) a
través del procedimiento de búsqueda avanzada, nos daría el siguiente resultado:
A partir de cualquiera de las entradas señaladas, podríamos obtener la secuencia de la
proteína buscada.
6
Bioinformática – Genética Molecular
BÚSQUEDA Y OBTENCIÓN DE ESTRUCTURAS TRIDIMENSIONALES
El punto partida para obtener la estructura tridimensional de macromoléculas es el enlace
“Domains & Structures” situado la página principal del NCBI, en la columna de la izquierda.
Pinchando en él, llegaremos a la página que nos permite acceder a las bases de datos de
estructuras moleculares tridimensionales.
Estas dos bases de datos que vemos recuadradas en la figura, se refieren a la colección de
estructuras 3D de una serie de dominios de proteínas conservados a lo largo de la evolución
(CDD), y a la colección de estructuras 3D de macromoléculas.
Para buscar información en ellas se operaría exactamente igual que en el caso de PubMed,
Nucleotide, y Protein. Por ello, no vamos a hacer ninguna indicación especial en ese sentido.
No obstante, para poder visualizar estas estructuras en modo 3D, se necesitan programas
específicos. NCBI utiliza el visualizador Cn3D (“See´n 3D”) como estándar.
7
Bioinformática – Genética Molecular
PROGRAMA DE VISUALIZACIÓN DE ESTRUCTURAS: Cn3D
La descarga del programa Cn3D se realiza desde la misma página “Domains & Structures”
accesible desde la página principal del NCBI. Una vez en ella, activamos la pestaña “Tools”, y
desde aquí pinchamos en el enlace al programa Cn3D
Una vez descargado e instalado en nuestro ordenador, ya estaremos en disposición de ver
estructuras moleculares, bien moléculas completas o bien dominios de proteínas conservados
durante la evolución. Durante el desarrollo de la práctica, veremos algún ejemplo de
estructura molecular a través de este programa, así como algunos aspectos básicos de su
manejo. En la figura que sigue, tan sólo mostraremos las dos ventanas principales que se abren
cuando cargamos una estructura molecular en Cn3D. La molécula que vamos a ver es la que
corresponde a los dominios BRCT (BReast cancer C-Terminal domain) de la proteína BRCA1.
8
Bioinformática – Genética Molecular
Como podemos ver, se nos abren 2 ventanas que contienen por un lado la estructura 3D de los
2 dominios BCRT, y por otro la ventana correspondiente a la secuencia aminoacídica de dichos
dominios (1Y98_A) y la secuencia del péptido fosforilado Ctip, que interactúa con la proteína
BRCA1 (1Y98_B). Como se ha dicho, trabajaremos en la sesión de prácticas con esta estructura
a través de Cn3D.
En el enlace https://galter.northwestern.edu/guides-and-tutorials/structure-viewers.pdf se
puede seguir una guía de utilización del programa (menús, opciones, etc.).
9
Bioinformática – Genética Molecular
BÚSQUEDA DE ORF’s (MARCOS ABIERTOS DE LECTURA)
El término ORF se refiere a una parte de una secuencia nucleotídica que tiene la potencialidad
de codificar un péptido o una proteína; es decir, que debe contener un codón o triplete de
iniciación y un codón de terminación.
La búsqueda de ORF’s en una secuencia de nucleótidos tiene muchas utilidades en genética
molecular. Por ejemplo, puede ayudar a la predicción de genes, a la determinación del origen
de pseudogenes, etc.
Veamos el siguiente ejemplo: Se trata de buscar posibles funciones de una secuencia anónima
de nucleótidos y buscar si presenta alguna relación con otras secuencias depositadas en la
base datos de genes.
Supongamos que se ha rescatado una secuencia de cDNA y queremos saber si presenta alguna
relación con secuencias de genes ya conocidos, y si es así, tratar de deducir su posible función
fisiológica, metabólica, celular.
Imaginemos que la secuencia de cDNA problema es la siguiente:
1
51
101
151
201
251
301
351
401
451
501
551
601
651
701
751
801
851
901
951
1001
1051
1101
1151
1201
1251
1301
1351
1401
1451
1501
1551
1601
1651
1701
1751
TTGCGCGAGG
CTGAGGGGGA
TGCGGCGCGC
ACAAATACAA
CGTGTTGGAG
CTGCCGTGAC
GGTCAGCGTC
GCCTGTGGCA
TGAGCGACAG
TGCAAGTCAG
TGTCACCCCA
GGCGACGGCT
ATGAAGTGGG
GCGCGACTGC
CCCGCTTCAG
CTGTTCCTGC
CCAGATGAGC
ACGTGTGCGC
AAGTTCAAGA
CGACGACCAC
ACAGCTGCCG
TTCGTGTTCA
CGTGCGCCAG
TCGGCCACAA
GGTGCGGCGC
GGACCAGGGT
CCATCCACTG
CGCGCGCGCC
ATGGCAAGTC
GACATGGCCG
GTAAATGGCT
AGAGCAACAC
GAGCGAGTTT
GGGTAAGCCC
CCGAAGTCCG
TCGCAAAAAC
GCCGCCCCAG
ATCACCCCCC
TGGCGGGCAG
CGCCAGGGAT
GGACCCAGCT
TGGGAAGGCG
TGCCGGTAGC
GTTGGCCCAA
TCTAGGCCGT
CCGGACTCCT
GACCTTAAGC
CTGGCCCCAC
TGTGGGCCCT
CGCGTGAGCA
CGGCACCTGG
AGGACAACTT
GCCACCGCCA
CGACAAGGTG
TGAAGTACTG
TGGATCGTGG
CCTGCTGAAC
GCCGCGACCC
CGCCAGGAGG
CGGCTACTGC
GTCTACTCTC
CACACCAACC
ACGGCGCGGC
AAGGGAGCTG
TAGGCGCCAG
GACACAGTGG
TCGTTAGTTT
AGAGTTCGCC
GGCCTATAGG
TCGGCCCAAC
GAGAGGACAG
GCACAAGCTA
CCGCCCGATC
GCTGCCAAAC
GTCAGACCGA
CAGCGACGGC
CTATGCCGAG
GACCCCAGTA
CGGACCGCCC
CAAACGAGCA
GCTAGTGAAC
CGTCGGGTCG
GCTGGCTCAT
AGACTGGGTA
GGCCCTGCTG
GCTTCCGCGT
TTCGCCTTGG
CGTGGCCGAG
AGGGCCGCGT
GGCACCTTCA
GGGCGTGGCC
ACACCGACTA
CTGGACGGCA
CAACGGCCTG
AGCTGTGCCT
GACGGCCGCA
CCCCATCCCG
ATCTCACGTG
AGACCCGGGA
GCGACGACTC
CGTCGCCGTA
CCAGTGGCCG
GGCGCCCAGG
GCACCGCCCG
AGCCGCCGCT
CCCGGAGTGC
CATGGGTCGT
CCGGAGGATC
AGCGTCGGCC
GCAGGCACGG
GCCCTCCAGT
AGCGCTACAA
TTCAGTCGCC
GCGCCTGTGA
AGGCAGGCTG
CGTCCCCCGA
GCACGTGAGC
CCCGCTAGCC
TAGGGTAGGC
ACCTTGCCAA
GCCGCCTGGG
GAAGGAGAAC
CCAAGAAGGA
TTCAGCGTGG
GTGCCTGCTG
CCGACACCGA
AGCTTCCTGC
CGACACCTAC
CCTGCGCCGA
CCCCCCGAGG
GGCCCGCCAG
GCGAGCGCAA
CTAGGGCCTG
CGGCCCTGTC
GGCCGGCCGA
CCGCCACCGG
GAAGGGGTCG
ATCGTCAAGG
CGCTCGGCCA
CCCGAACGCA
CACGGCAACC
TTAACCCGGC
GCGTCAGGGC
ACAATGCCCA
CCTGCGCTGG
ACCCCAGTCC
GAATCAGGCG
GAATCGACGG
AGCAGAGGTA
CGCGGGGACG
ACCAAGCGGC
ACCACGACGC
CACGAGACAC
CTACCTCGAG
TCAATCGGGC
CCAGGCCTCG
CCGCCGCCGA
TTCGACAAGG
CCCCGAGGGC
ACGAGACCGG
AACAACTGGG
GGACCCCGCC
AGAAGGGCAA
GCCGTGCAGT
CGACTACAGC
CCCAGAAGAT
TACCGCCTGA
CCTGCTGTAA
CGGTGTCGCC
GTTCACCCTC
CAGCTGGCGG
CTGGACGAAA
TTTTCAGCCG
CCTGATGCCC
GCCGGGCGTT
GAGAAGGCGA
GCGCACAAAC
TTCGCGAAGG
CTGGCGTTCG
GACCACCCTA
10
Bioinformática – Genética Molecular
1.- Búsquedas de “Open Reading Frames” (ORF’s).
Lo primero que vamos a hacer es tratar de ver si contiene algún marco abierto de lectura
(Open Reading Frame – ORF), es decir, si contiene un conjunto de codones que son capaces de
traducirse a proteína. Para ello vamos a utilizar la utilidad ORF Finder que se encuentra en el
NCBI (http://www.ncbi.nlm.nih.gov). Hacemos clic en el vínculo correspondiente a esa utilidad,
que se encuentra en la solapa “Tools” de la entrada “Sequence analysis” y entramos en la
página correspondiente a la búsqueda de ORF’s.
La nueva página te presenta el programa, pudiendo introducir la clave de una de las secuencias
ya contenidas en las bases de datos, o una propia. Esto último es lo que vamos a hacer
nosotros. En el cuadro grande en blanco vamos a introducir la secuencia problema en formato
FASTA (Formato muy utilizado en bioinformática, pues todos los programas bioinformáticos
reconocen este formato). Para ello escribimos en la primera línea del cuadro en blanco una
línea de identificación de nuestra secuencia problema; dicha línea empieza siempre con el
símbolo “mayor que” (>) y a continuación un texto descriptivo, por ejemplo:
> secuencia problema
11
Bioinformática – Genética Molecular
En las siguientes líneas irá la secuencia de nucleótidos propiamente dicha. No importa que
vayan números al principio de las líneas, ni que haya espacios en blanco.
Una vez que se haya pegado la secuencia hacemos click en OrfFind para ejecutar el programa.
El resultado del programa da los posibles ORF’s en las dos cadenas (aparecen 3 posibilidades
para una cadena y otras 3 para la otra). De todas las ORF’s que aparecen en cada una de las 3
pautas de lectura de las hebras plus (+) y minus (-), empezaremos por investigar con la mayor
de todas (presenta 600 nucleótidos). En la figura siguiente está recuadrada en rojo y marcada
con una flecha. Pinchamos en élla, y aparecerá una nueva pantalla con la ORF seleccionada, ya
aislada y con su traducción a proteína.
12
Bioinformática – Genética Molecular
Traducción a proteína
de la ORF (parte)
Nos quedaremos con la secuencia de la proteína que se codificaría a partir de este ORF. Para
ello copiaríamos la secuencia y la editaríamos convenientemente utilizando el bloc de notas,
cuidando de ponerla en formato FASTA. Nos quedaría algo así como:
>ORF +1 601-1200
M K W V W A
A E R D C R
F D K A R F
K D P E G L
F S V D E T
R V C L L N
G T F T D T
Y W G V A S
W I V D T D
C R L L N L
F V F S R D
K I V R Q R
Y R L I G H
R N L L
L
V
S
F
G
N
E
F
Y
D
P
Q
N
A
S
G
L
Q
W
D
L
D
G
N
E
G
L
S
T
Q
M
D
P
Q
T
T
G
E
Y
L
F
W
D
S
V
A
K
Y
C
L
L
C
A
R
F
N
A
C
K
G
A
A
P
C
D
A
V
A
F
T
A
F
N
V
D
P
L
G
W
K
L
V
A
D
K
D
Q
D
E
A
R
A
E
A
A
K
K
M
D
Y
Y
A
R
S
A
N
K
E
G
V
K
H
S
S
Q
Q
E
Este archivo lo utilizaremos en un paso posterior, para ilustrar el uso de la herramienta BLAST
2.- BÚSQUEDAS DE HOMOLOGÍAS
Hasta ahora lo que tenemos es una secuencia de proteína, pero no sabemos nada de ella, ni su
función, ni su familia ni el parentesco que guarda con otras proteínas de la misma especie o de
otras especies.
13
Bioinformática – Genética Molecular
Conocer la función de una proteína es un trabajo duro de laboratorio; una forma aproximada
para saber algo de un proteína problema es buscar en las bases de datos, otras proteínas que
tengan parecido (homología) con ella, es decir, tratar de deducir en la medida de lo posible y
por comparación, la familia de proteínas a la que pertenece y su posible función.
Uno de los programas más utilizados para buscar parecidos u homologías es BLAST (Basic Local
Alignment Search Tool). Este programa compara una secuencia de proteína o de nucleótidos
con una base de datos (de proteínas o de nucleótidos). Nosotros vamos a utilizar la variante
BLASTP que compara una proteína contra una base de datos de proteínas.
Este BLAST lo podemos hacer directamente en la página web en la que hemos realizado la
búsqueda de ORF’s. Para ello seleccionamos “Blastp” como programa, y como database
seleccionamos “Swissprot” (Ver figura de la página anterior).
Nosotros utilizaremos directamente la herramienta BLAST desde su página de inicio. El enlace
lo tenemos en la página inicial del NCBI, en la columna de la derecha (Recursos populares).
Puesto que se trata de una posible proteína, utilizaremos la opción “Protein blast”.
14
Bioinformática – Genética Molecular
Aquí copiamos la
secuencia problema
Copiamos la secuencia de la proteína problema en la ventana en blanco, y seleccionamos una
base de datos de proteínas contra la que comparar (Buscar secuencias similares –homólogas- a
la nuestra. En este caso hemos elegido la base de datos Refseq de proteínas, aunque
podríamos haber utilizado otra distinta. Refseq tiene la ventaja de que se trata de una
colección exhaustiva de secuencias de proteínas no redundantes y bien anotadas. Una vez
incluida la secuencia de trabajo pincharemos en el botón BLAST que aparecerá más abajo en la
misma página. Con ello se iniciará el proceso de búsqueda de secuencias similares a la nuestra.
(En el siguiente enlace: ftp://ftp.ncbi.nlm.nih.gov/pub/factsheets/HowTo_BLASTGuide.pdf
podremos ver una guía explicativa acerca de la herramienta BLAST del NCBI y sus posibilidades
de utilización).
Durante el proceso de búsqueda de secuencias nos aparecen unas pantallas que ya nos indican
de qué tipo de proteína se trata nuestra proteína problema. Una de esas pantallas tiene el
siguiente aspecto:
15
Bioinformática – Genética Molecular
Como se puede ver, se ha detectado un dominio de Lipocalinas. Si pinchamos en el esquema
que muestra el dominio de lipocalina podremos obtener información sobre esas proteínas, e
incluso quizá su estructura en 3 dimensiones. Las lipocalinas son pequeñas proteínas con
forma de cesta que portan en su interior moléculas hidrofóbicas, y sus funciones son muy
variadas.
Una vez que esté terminada la búsqueda aparece una pantalla con los resultados.
Bajamos la página hasta ver un listado de las secuencias encontradas. Podremos ver que las
primeras que se han encontrado son todas "Retinol Binding Proteins", es decir lipocalinas que
transportan retinol. Luego aparecen más lipocalinas.
Cada proteína homóloga aparece marcada en azul, si pinchamos en los enlaces que aparecen
bajo la columna “Accession “podremos ver la información sobre esa proteína, la secuencia,
quién la secuenció, otras bases de datos que tengan información sobre esa proteína etc.
En resumen, podemos concluir de este análisis, que nuestra secuencia es una lipocalina, y que
pertenece al grupo de las Proteínas que unen retinol (Retinol Binding Proteins). Lo más
probable, por tanto es que nuestra secuencia corresponda a una proteína que también
transporte retinol.
16
Descargar