BÚSQUEDA DE SECUENCIAS NCBI El NCBI

Anuncio
BÚSQUEDA DE SECUENCIAS
NCBI
El NCBI (National Center for Biotechnology Information) alberga varias bases de datos
biológicas de acceso público. Entre las más conocidas y populares se encuentran las bases
de datos de publicaciones científicas (PubMed), de secuencias de proteínas y ADN
(GenBank), de estructuras tridimensionales de proteínas; y algunas otras no tan populares
como OMIM (Online Mendelian Inheritance in Man). El NCBI desarrolló Entrez como una
herramienta para permitir a los usuarios interaccionar con estas bases de datos. Desde el
punto de vista informático, Entrez es una 'interfaz de usuario' o UI (por user interface). Es
decir, constituye el nexo entre el usuario y las bases de datos subyacentes. Como interfaz,
Entrez cumple en permitir al usuario realizar consultas simples y obtener resultados, aun
desconociendo la arquitectura de las bases de datos. Sin embargo, para realizar consultas
eficientes y poderosas, es necesario conocer la arquitectura de la base de datos, al menos en
parte, y saber como restringir búsquedas a ciertas áreas de la base de datos, combinar
búsquedas con criterios lógicos, etc.
Cuando uno ingresa un término para realizar una búsqueda en PubMed, el servidor que
recibe el requerimiento intenta identificar qué tipo de búsqueda uno está intentando hacer:
está el usuario intentando buscar un autor?, una revista o journal específico?, un área del
conocimiento?, o una frase presente en el título o abstract de la publicación?. El servidor
entonces filtra los términos de la búsqueda a través de listas sucesivas para intentar
responder esta pregunta y usar los términos en forma eficiente. Este proceso se llama
automatic term mapping y puede utilizar las siguientes listas:
1. MeSH (Medical Subject Headings): vocabulario controlado utilizado para indexar
artículos en PubMed.
2. Journals: nombre completo del journal, abreviaturas usadas en MEDLINE y
números ISSN.
3. Lista de frases: cientos de miles de frases generadas a partir de MeSH y otros
vocabularios controlados similares.
4. Índice de autores: apellido e iniciales.
Si el término ingresado está presente en alguna de estas listas, la búsqueda se
limitará a ese campo de la base de datos. En caso contrario el término será utilizado
para buscar sobre todos los campos de la base de datos. Es evidente que si uno sólo
está interesado en buscar papers publicados en la revista 'Cell' es ineficiente utilizar
el término 'Cell' para realizar la búsqueda, ya que muy probablemente exista algún
autor llamado así, y la palabra 'cell' se encuentre presente en varios títulos o
abstracts.
Operadores lógicos: Entrez permite combinar términos utilizando operadores lógicos
(AND, OR, NOT). Los operadores lógicos, también llamados 'boolean operators' deben ser
ingresados en mayúsculas para ser reconocidos como tales por Entrez (por ejemplo: vitamin
c OR zinc, dna AND Crick AND 1993). Entrez lee los operadores lógicos de izquierda a
derecha. Es posible cambiar el orden de evaluación de los operadores usando paréntesis.
BUSQUEDAS
Las búsquedas de homologías permiten un primer acercamiento a la función biológica de
un nuevo gen. En las bases de datos del NCBI, las búsquedas son realizadas principalmente
utilizando el programa BLAST (Basic Local AligmentSearch Tool), el cual constituye un
algoritmo de búsqueda de similitudes aplicable a cualquier secuencia de DNA o proteína.
BLAST fue desarrollado y publicado por Altshul y otros en 1990, y la versión se mejoró en
1997. Es uno de los algoritmos fundamentales en el estudio de la genómica comparativa. El
impacto de BLAST en nuestra comprensión de la biología lo demuestra su ubicuidad.
BLAST está en la red y es rápida. Se utiliza en todo el mundo para comparar las secuencias
de ADN y las secuencias proteínicas buscando similitudes estructurales y funcionales, y
para deducir relaciones evolutivas entre secuencias. Como ejemplo del volumen de análisis
BLAST que se realiza en todo el mundo, en marzo de 2003, el Centro Nacional de
Información Biotecnológico de EEUU (NCBI) estaba recibiendo 100.000 solicitudes de
análisis BLAST desde 70.000 direcciones IP distintas a diario, y su uso aumentaba
continuamente (comunicación personal, W. Matten, 2003.)
BLAST opera cortando las secuencias en “palabras” más pequeñas y buscando para cada
una de ellas una secuencia coincidente. Busca en ambas direcciones a lo largo de las
secuencias coincidentes para encontrar equivalencias de patrón más largas. BLAST marca
coincidencias según el conocimiento experimental de la homología. Esto explica la
imperfección de algunas de las coincidencias que genera. BLAST también empareja y
alinea secuencias locales. No crea alineaciones globales de secuencias. BLAST alinea las
coincidencias resultantes según la probabilidad de que sean homólogas
Dado que existen cinco aplicaciones distintas del programa BLAST, el primer paso en la
búsqueda de homología consiste en seleccionar el programa BLAST más apropiado, según
si la secuencia de interés es nucleotídica o proteica y en el caso de la primera, si ésta es
susceptible de contener errores como en caso de los ESTs (en estas secuencias se busca
rapidez y cantidad, sacrificando un poco de calidad), y otras secuencias de ADN
secuenciadas una sola vez.
Los programas BLASTN, BLASTX, TBLAST, son utilizados para analizar secuencias
nucleotídicas, especialmente secuencias genómicas y los cDNAsecuenciados una sola vez,
mientras que los programas BLASTP TBLASTN son utilizados para analizar secuencias
proteicas, es decir que una vez obtenido el marco de lectura del gen de interés. El segundo
paso consiste en elegir una base de datos apropiada.
En la tabla a continuación se muestra el tipo de base de datos utilizada según el programa
BLAST seleccionado y el análisis realizado por éste a la secuencia de interés y a las
secuencias presentes en la base de datos.
Programas
Secuencia de interés
Secuencia en base de datos
BLASTN
nucleotídica, ambas cadenas
nucleotídica
BLASTX
nucleotídica, seis marcos de proteica
lectura
TBLASTX
nucleotídica, seis marcos de nucleotídica,
lectura
lectura
BLASTP
Proteica
proteica
TBLASTN
Proteica
nucleotídica,
lectura
seis
marcos
de
seis
marcos
de
El problema con el que se encuentra quien compare datos y obtenga similitud con
otra secuencia en la base de datos, es saber si tiene relevancia estadística. En la mayoría de
los programas de búsqueda se eliminan o se filtran, en la mayoría de los casos, los
segmentos de baja complejidad que llevarían a considerar secuencias como relacionadas,
cuando en realidad la similitud la estarían dando regiones de composición simple, muy
frecuentes en genomas de organismos muy dispares.(secuencias repetidas, microsatélites,
poly A, etc.). Esto reduce ampliamente la posibilidad de asignaciones erróneas y aumenta la
fidelidad de los resultados obtenidos en la búsqueda BLAST.
En la página de búsqueda del BLAST podemos modificar numerosos parámetros.
El más importante de ellos es la secuencia que queremos utilizar en la búsqueda (Enter
Query Sequence). Podemos poner una secuencia en formato fasta o un número de acceso de
la Genbank. Además podemos limitar la búsqueda a una región concreta de la secuencia
(Query subrange). El formulario nos permite también escoger un fichero que contenga la
secuencia.
La segunda decisión importante es la base de datos con la que vamos a comparar nuestra
secuencia (Choose Search Set). Podemos elegir una de las numerosas bases de datos
ofrecidas por el NBCI (humano, ratón, nr, refseq, etc.) o podemos escribir una expresión de
búsqueda para el entrez. Si elegimos esta última opción la búsqueda se realizará en
comparando nuestra secuencia con las secuencias resultantes de esta búsqueda.
Por último podemos seleccionar el programa a utilizar: megablast (para encontrar
secuencias muy similares), discontiguous megablast (para secuencias algo diferentes) y
blast para secuencias algo más distintas. Cuanto más sensible sea el algoritmo más tiempo
tardará la búsqueda1.
1
Bioinformatics at comav. [en línea]. Consultado el 2 de agosto de 2012 en:
http://bioinf.comav.upv.es/courses/sequence_analysis/blast.html
Descargar