Búsqueda de secuencias en Bases de Datos.

Anuncio
Búsqueda de secuencias en Bases de
Datos.
Existe una amplia red de bases de datos en diferentes servidores científicos
que permiten acceder a una gran cantidad de información científica. Y entre
ella, por supuesto, la que se requiere para la mayor parte del trabajo de
Biología Molecular o Ingeniería Genética.
Por ejemplo en esta página: http://www.ncbi.nlm.nih.gov/Database/index.html
Hay un esquema que da una idea de cómo están organizadas las bases de
datos del instituto nacional de salud americano (que se encuentran entre las
más utilizadas).
Obviamente como aquí sólo se pretende dar una somera visión de cómo
funciona este asunto, en principio solo nos vamos a centrar en un aspecto
concreto de todo este entramado como es la búsqueda de secuencias de DNA
en las bases de datos que es lo que va a ser de mayor relevancia para el
trabajo de un “Biólogo Molecular”
1
¿Donde está un determinado gen el genoma?
Puedes realizar la búsqueda por genes en un determinado genoma (como ves
hay varios genomas de los que se ha secuenciado una gran parte y a los que
se puede acceder desde este link):
NCBI Map viewer (http://www.ncbi.nlm.nih.gov/mapview/index.html?)
Puedes seleccionar el
genoma del organismo
donde te interesa buscar
Por ejemplo seleccionando el genoma humano
ahora se puede
introducir el gen que
interese buscar y
apretando FIND
2
Aparecen señaladas las
localizaciones en los
cromosomas donde hay
genes relacionados con esa
entrada
Y los códigos de esas
localizaciones en los
cromosomas
correspondientes
Pinchando en alguno de esos códigos aparece un mapa del cromosoma
completo donde figura la localización del gen elegido:
3
marcado en rosa aparece el gen elegido y su localización dentro del
cromosoma.
Pinchando en ese código
aparece la información
relacionada con ese gen:
¿Qué es lo que se sabe de ese gen?
Eso nos lleva a la ventana de Entrez Gene donde podemos acceder a toda la
información relacionada con el gen que buscamos:
asi tanto en el díálogo que aparece al lado del “display” como en diversas
partes de la página podemos encontrar los links que conectan con la
información relativa a distintos aspectos relacionados con esa entrada
4
Una de las más interesantes nos da acceso:
• a la secuencia mRNA,
• a la secuencia fuente (source sequence) que contiene la secuencia del
fragmento genómico–y que por tanto incluirá regiones 5’ “upstream”, 3’
“downstream” y -en algunos casos- intrones- de la que se ha obtenido la
secuencia de proteína (esta secuencia puede ser interesante para
diseñar plasmado que permitan clonar la región codificante).
• a la secuencia de aminoácidos de la proteína (product)
Accediendo a la secuencia de nucleótidos y
aminoácidos de ese gen
Pinchando en cualquiera de esas entradas se abre el correspondiente archivo
de gene bank (entrez nucleotide o entrez protein –si seleccionamos el del
producto). Ese archivo contiene información relacionada con la secuencia
incluyendo, quien la mandó a la base de datos, donde se publicó y la secuencia
completa del DNA y la proteína correspondientes al fragmento clonado,
secuenciado e incluido en la base de datos.
Los datos de esa secuencia
5
la secuencia de aminoácidos
de la proteína correspondiente
Así como de la
secuencia de
nucleótidos del DNA
Además, como verás, el menú “display “permite seleccionar distintas manera
de presentarnos esa información para que sea más sencillo manejarla, por
ejemplo, en una búsqueda de comparaciones de secuencias:
Para ello por ejemplo puedes seleccionar la posibilidad de búsqueda formato
FASTA que desde esta entrada nos seleccionaría solo la secuencia de
nucleótidos:
6
7
¿Como buscar secuencias similares a la nuestra?
Tanto en el caso de la secuencia de proteína como en la de nucleótidos es
posible compararlas con las otras entradas que haya en la base de datos que
presenten una similitud con ella. Para eso hay que utilizar un algoritmo especial
que nos permita compararlo o bien con todo el resto de secuencias o proteínas
de la base de datos o bien solo con aquellas que sean de la especie en la que
estamos llevando a cabo la búsqueda:
Partiendo de la página inicial de NCBI Map viewer y pinchando en la B que
está al lado de cada genoma podremos hacer una comparación con las
secuencias de ese genoma concreto utilizando el programa BLAST
Así, se abre la ventana en la que hay que introducir la secuencia que queremos
buscar (“Query”)
Aquí hay que seleccionar
que tipo de programa hay
que utilizar (normalmente
Blastn para nucleótidos y
Blastp para proteínas)
En este cuadro de
diálogo hay que pegar la
secuencia a rastrear
La búsqueda
comienza
Se abre entonces una ventana de diálogo que implica que la búsqueda ha
comenzado.
8
Al cabo de unos
segundos se puede
pulsar
el
botón
Format para ver los
resultados
Así obtendremos la página con los distintos alineamientos conseguidos:
La pantalla muestra el
grado de homología (o
de coincidencia en el
algoritmo utilizado) con
un código de colores
Por otra parte las secuencias
que ha encontrado que
presentan
homologías
significativas (junto con un
link a sus códigos de acceso
a sus respectivas entradas
en la base de datos)
Y finalmente el alineamiento
de las distintas secuencias
Query (lo que se envía a
comparar) y Subject con lo
que se ha encontrado la
homología al comparar
9
Comparación frente a toda la base de datos
También es posible realizar una comparación de la secuencia seleccionada con
todas las secuencias de la base de datos. Para es hay que entrar en la entrada
general del programa BLAST (a la que hay links prácticamente desde todas las
páginas de este servidor) y seleccionar el tipo de búsqueda que queremos
hacer. Por ejemplo alineamiento nucleótido-nucleótido.
Como verás el procedimiento de búsqueda es análogo abriéndose las mismas
ventanas de diálogo. La única diferencia es que la búsqueda comprenderá
todas las secuencias de la base de datos.
10
¿Cómo buscar otro tipo de secuencias?
Por supuesto hay un gran número de secuencias que son interesantes o
podemos necesitar pero no pertenecen a un gen de un genoma concreto. El
caso que más nos puede interesar en este contexto es por ejemplo la
secuencia de un plásmido o un vector. Ese tipo de secuencias se pueden
buscar también mediante Entrez nucleotide. Aunque a veces lo más fácil es
recurrir a la página web de la propia compañía que produjo o vende el
plásmido. Sin embargo también hay otros servidores como por ejemplo:
http://seq.yeastgenome.org/vectordb/
que permiten buscar específicamente este tipo de vectores.
11
Apéndice:
Algunas bases de datos (y sus acrónimos):
•
•
•
•
•
Genbank, operated by NCBI (National Center for Biotechnology Information)
Contains all publicly available sequences of DNA, with annotations
Same DNA sequence content as EMBL (European Molecular Biology Laboratory) and DDBJ
(DNA Data Bank of Japan)
Swiss-Prot and TrEMBL, operated by SIB (Swiss Institute of Bioinformatics) and EBI
(European Bioinformatics Institute)
Contains most of the publicly available sequences of proteins, with annotations
Protein Data Bank
Contains all publicly availalble experimentally determined structural models of proteins and
nucleic acids (determined by x-ray crystallography and NMR)
Swiss-Model Repository
Contains many theoretical structural models of proteins (determined by automated homology
modeling)
Online Mendelian Inheritance in Man
A catalog of human genes and genetic disorders, linked to gene entries in GenBank
Algunas herramientas que se pueden utilizar
•
•
•
•
•
•
•
•
•
•
NCBI Map Viewer
For finding genes and gene products (RNAs and proteins) that interest you
BLAST
For finding genes or proteins with sequences similar to yours
ClustalW
For comparing your sequence with others, and lots of sequences with each other
Phylip
For making phylogenetic trees, which show how sequences are related to each other
Treeprint
For printing phylogenetic trees
PSIPRED
For predicting the location of helices, pleated sheets, and transmembrane elements of proteins of
unknown structure
Swiss-Model
For automated building theoretical structural models of your sequence based on known
structures (homology modeling)
Deep View (also knows as Swiss-PdbViewer)
For seeing and exploring macromolecular models in three dimensions, and for manual and
semiautomated homology modeling
PubMed
For searching ALL the literature of the life sciences
ExPASy (Expert Protein Analysis System)
Not so much a tool as a tool box -- a very complete set of protein analysis tools
12
Descargar