Recursos bioinformáticas para la genética y la genómica

Anuncio
Recursos bioinformáticos para la genética y la genómica
“Con certeza sueles encontrar algo, si lo buscas, pero no siempre es lo que estabas
buscando.” — El Hobbit, J. R. R. Tolkien
El campo de la bioinformática abarca el uso de herramientas computacionales para
destilar conjuntos de datos complejos. Los datos genéticos y genómicos son tan diversos
que la identificación del sitio o sitios de confianza para un tipo específico de
información se ha convertido en un verdadero reto. Además, el paisaje de software
accesible vía Web para analizar esta información cambia constantemente a medida que
se desarrollan herramientas nuevas y más potentes. Este apéndice pretende proporcionar
algunos puntos de partida valiosos para explorar este universo en rápida expansión de
recursos en línea para la genética y la genómica.
1. Sitios Web dedicados a la genética y la genómica
Aquí se listan varios recursos centrales que contienen largos listados de sitios Web
relevantes:

La revista científica Nucleic Acids Research (NAR) publica cada enero un ejemplar
especial que cataloga una gran variedad de recursos de bases de datos en línea en
http://nar.oupjournals.org/

La Biblioteca Virtual tiene subdivisiones dedicadas a Organismos Modelo y
Genética con unas colecciones abundantes en recursos de Internet en
http://ceolas.org/VL/mo/ y
http://www.ornl.gov/TechResources/Human_Genome/organisms.html

El Instituto Nacional de Investigación del Genoma Humano (NHGRI, del inglés
“Nacional Human Genome Research Institute”) mantiene un listado de sitios Web
de genomas en http://www.nhgri.nih.gov/10000375/

El Departamento de Energía (DOE, del inglés “Department of Energy”) mantiene un
sitio dedicado al Proyecto Genoma Humano en el Laboratorio Nacional Oak Ridge
en http://public.ornl.gov/hgmis/

SwissProt mantiene una página de enlaces Web (Amos’ WWW links) en
http://www.expasy.ch/alinks.html
2. Bases de datos generales
Bases de datos de secuencias de ácidos nucleicos y de proteínas Por acuerdo
internacional, tres grupos colaboran para alojar las secuencias primarias de DNA y de
mRNA de todas las especies: el Centro Nacional de Información Biotecnológica (NCBI,
del inglés “National Center for Biotechnology Information”) aloja la base de datos
GenBank; el Instituto Europeo de Bioinformática (EBI, del inglés “European
Bioinformatics Institute”) aloja la Biblioteca de Datos del Laboratorio Europeo de
Biología Molecular (EMBL, del inglés “European Molecular Biology Laboratory”); y el
Instituto Nacional de Genética en Japón aloja la Base de Datos de DNA del Japón
(DDBJ, del inglés “DNA DataBase of Japan”).
Los registros de secuencias primarias de DNA, llamados entradas, son enviados por los
grupos de investigación individuales. Además de proporcionar acceso a estos registros
de secuencias de DNA, estos sitios proporcionan muchos otros conjuntos de datos. Por
ejemplo, el NCBI también aloja RefSeq, una síntesis de la información sobre las
secuencias de DNA de los genomas completamente secuenciados y de los productos
génicos codificados por estas secuencias.
En el NCBI, el EBI y el DDBJ encontrará muchas otras características importantes. Las
páginas de inicio y otros sitios Web clave son

NCBI http://www.ncbi.nlm.nih.gov/

NCBI-Genomes http://www.ncbi.nlm.nih.gov/Genomes/index.html

NCBI-RefSeq http://www.ncbi.nlm.nih.gov/LocusLink/refseq.html

El Sitio de Bioinformática Genómica del UCSC http://genome.ucsc.edu/
Este sitio excepcional contiene la secuencia de referencia y ensamblajes borrador de una
gran colección de genomas y algunas herramientas para explorarlos. El “Genome
Browser” permite ampliar regiones y desplazarse a lo largo de los cromosomas,
mostrando el trabajo de los anotadores de todo el mundo. El “Gene Sorter” muestra la
expresión, homología y otra información sobre grupos de genes que pueden estar
relacionados de diversas formas. El “Blat” localiza rápidamente secuencias en el
genoma. El “Table Browser” permite el acceso a la base de datos subyacente.

EBI http://www.ebi.ac.uk/

DDBJ http://www.nig.ac.jp/
La dura realidad es que, con tanta información biológica, el propósito de hacer estos
recursos en línea “transparentes” al usuario no se consigue completamente. Así, la
exploración de estos sitios implicará que deberá familiarizarse con los contenidos de
cada uno de ellos y explorar algunas de las formas que le ayudarán a focalizar sus
consultas para conseguir la respuesta o respuestas correctas. Como ejemplo del
potencial de estos sitios, considere la búsqueda de una secuencia nucleotídica en el
NCBI. Las bases de datos típicamente guardan la información en contenedores
separados llamados “campos”. Se pueden formular preguntas más dirigidas mediante el
uso de consultas que limitan la búsqueda en el campo apropiado. Usando la opción
“Limits” podrá usar una frase de búsqueda para identificar o localizar una especie
específica, un tipo de secuencia (genómica o mRNA), un símbolo de gen o cualquiera
de los muchos otros campos de datos. Los motores de búsqueda permiten juntar
múltiples búsquedas. Por ejemplo: recuperar todos los registros de secuencias de DNA
que pertenecen a la especie Caenorhabditis elegans Y que fueron publicados después
del 1 de enero del 2000. Usando la opción “History”, podrá juntar los resultados de
múltiples consultas, de modo que sólo se recuperarán aquellos aciertos que sean
comunes a las múltiples consultas. Haciendo un uso adecuado de las opciones de
búsqueda disponibles en un sitio, podrá eliminar computacionalmente un gran número
de falsos positivos sin descartar ninguno de los aciertos relevantes.
Debido a que las predicciones de secuencias proteicas son una parte natural del análisis
de secuencias de DNA y de mRNA, los mismos sitios sirven de acceso a varias bases de
datos de proteínas. Una base de datos de proteínas importante es el SwissProt/TrEMBL.
Las secuencias de TrEMBL son automáticamente predichas a partir de secuencias de
DNA y/o mRNA. Las secuencias de SwissProt son secuencias escogidas, lo que
significa que un científico experto revisa el output de análisis computacionales y hace
decisiones expertas sobre qué resultados acepta o rechaza. Además de los registros de
secuencias proteicas primarias, el SwissProt también ofrece bases de datos de dominios
proteicos y de signaturas proteicas (cadenas de secuencias de aminoácidos que son
características de las proteínas de un tipo particular). La página de inicio del SwissProt
es http://www.ebi.ac.uk/swissprot/.
Bases de datos de dominios proteicos Las unidades funcionales dentro de las
proteínas se cree que son regiones de plegamiento local llamadas dominios. La
predicción de dominios dentro de proteínas descubiertas recientemente es una forma de
predecir su función. Han emergido un gran número de bases de datos de dominios
proteicos que predicen estos dominios usando métodos algo distintos. Algunas de las
bases de datos individuales de dominios son Pfam, PROSITE, PRINTS, SMART,
ProDom, TIGRFAMs, BLOCKS y CDD. InterPro permite la búsqueda simultánea en
múltiples bases de datos de dominios proteicos y presenta los resultados combinados.
Los sitios Web para algunas bases de datos de dominios son

InterPro http://www.ebi.ac.uk/interpro/

Pfam http://www.sanger.ac.uk/Software/Pfam/index.shtml

PROSITE http://www.expasy.ch/prosite/

PRINTS http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/

SMART http://smart.embl-heidelberg.de/

ProDom http://prodes.toulouse.inra.fr/prodom/doc/prodom.html

TIGRFAMs http://www.tigr.org/TIGRFAMs/

BLOCKS http://blocks.fhcrc.org/

CDD http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml
Bases de datos de estructuras proteicas La representación de estructuras proteicas
tridimensionales se ha convertido en un aspecto importante del análisis molecular
global. Las bases de datos de estructuras tridimensionales están disponibles en los
(pág. 776)
(pág. 777)
sitios de las principales bases de datos de secuencias de DNA y proteínas y en bases de
datos independientes de estructuras proteicas, notablemente el Banco de Datos de
Proteínas (PDB, del inglés “Protein DataBank”). El NCBI tiene una aplicación llamada
Cn3D que permite la visualización de datos del PDB.

PDB http://www.rcsb.org/pdb/

Cn3D http://www.ncbi.nlm.nih.gov/Structure/CN3D/cn3d.shtml
3. Bases de datos especializadas
Bases de datos genéticas específicas de organismo Con la finalidad de agrupar
algunos tipos de información genética y genómica, especialmente información
fenotípica, es necesario el conocimiento experto de una especie en particular. Así, las
MODs (bases de datos de organismos modelo, del inglés “model organism databases”)
han emergido para cumplir con este papel para los principales sistemas genéticos. Estas
incluyen bases de datos para Saccharomyces cerevisiae (SGD), Caenorhabditis elegans
(WormBase), Drosophila melanogaster (FlyBase), el pez cebra Danio rerio (ZFIN), el
ratón Mus musculus (MGI), la rata Rattus norvegicus (RGD), Zea mays (MaizeGDB) y
Arabidopsis thaliana (TAIR). Las páginas de inicio de estas MODs pueden encontrarse
en

SGD http://genome-www.stanford.edu/Saccharomyces/

WormBase http://www.wormbase.org/

FlyBase http://flybase.org/

ZFIN http://zfin.org/

MGI http://www.informatics.jax.org/

RGD http://rgd.mcw.edu/

MaizeGDB http://www.maizegdb.org/

TAIR http://www.arabidopsis.org/
Bases de datos de genética y genómica humana Dada la importancia de la genética
humana en la investigación clínica además de en la investigación básica, han surgido un
conjunto diverso de bases de datos genéticas para humanos. Entre ellas se encuentran
una base de datos de enfermedades genéticas en humanos llamada Herencia Mendeliana
En línea en el Hombre (OMIM, del inglés “Online Mendelian Inheritance in Man”), una
base de datos con descripciones breves de genes humanos llamada GeneCards, una
compilación de todas las mutaciones conocidas en genes humanos llamada Base de
Datos de Mutaciones de Genes Humanos (HGMD, del inglés “Human Gene Mutation
Database”), una base de datos del mapa de la secuencia actual del genoma humano
llamada la “Golden Path” y algunos enlaces a bases de datos de enfermedades genéticas
humanas:

OMIM http://www3.ncbi.nlm.nih.gov/Omim/

GeneCards http://mach1.nci.nih.gov/cards/index.html

HGMD http://www.hgmd.org/

Golden Path http://genome.ucsc.edu/goldenPath/hgTracks.html

Grupos de apoyo genético en línea http://www.mostgene.org/support/index.html

Información de enfermedades genéticas
http://www.geneticalliance.org/diseaseinfo/search.html
Bases de datos de proyectos genoma Los proyectos de genomas individuales también
tienen sitios Web, donde muestran sus resultados, a menudo incluyendo información
que no aparece en ningún otro sitio Web del mundo. Entre los centros genómicos más
grandes financiados con fondos públicos hay

Instituto Whitehead/Centro MIT de Investigación Genómica http://wwwgenome.wi.mit.edu/

Centro de Secuenciación Genómica de la Escuela Universitaria de Medicina de
Washington http://genome.wustl.edu/

Centro de Secuenciación del Genoma Humano del Baylor College of Medicine
http://www.hgsc.bcm.tmc.edu/

Instituto Sanger http://www.sanger.ac.uk/

Instituto DOE Joint Genomics http://www.jgi.doe.gov/
4. Relaciones de genes dentro y entre bases de datos
Los productos génicos pueden estar relacionados debido a que comparten un origen
evolutivo común, realizan una misma función o participan en la misma ruta.
BLAST: Identificación de similitudes de secuencia La evidencia de un origen
evolutivo común viene de la identificación de similitudes de secuencia entre dos o más
secuencias. Una de las herramientas más importantes para identificar estas similitudes
es el BLAST (Herramienta Básica de Búsqueda de Alineamientos Locales, del inglés
“Basic Local Alignment Search Tool”), desarrollado por el NCBI. El BLAST es en
realidad una serie de programas y bases de datos relacionadas con los que se puede
identificar y clasificar coincidencias locales entre largos tramos de secuencia. Una
búsqueda de secuencias de DNA o proteína similares usando BLAST es una de las
primeras cosas que hace un investigador con un gen recientemente secuenciado. Hay
varias bases de datos de secuencias a las que se puede acceder y organizar por tipo de
secuencia (genomas de referencia, actualizaciones recientes, no redundantes, ESTs, etc.)
y se puede especificar una especie o grupo taxonómico particular. Un BLAST rutinario
empareja una secuencia de nucleótidos problema traducida en los seis marcos de lectura
posibles con una base de datos de secuencias proteicas. Otro empareja una secuencia
proteica problema con las traducciones en los seis marcos de lectura posibles de una
base de datos de secuencias de nucleótidos. Otros BLASTs rutinarios están pensados
para identificar emparejamientos de patrones de secuencia cortos o para hacer
alineamientos de secuencias a pares, para rastear segmentos de DNA de tamaño
genómico, etc., y se puede acceder a ellos desde la misma página de inicio:

NCBI-BLAST http://www.ncbi.nlm.nih.gov/BLAST/
Bases de datos de ontología de funciones Otra aproximación al desarrollo de
relaciones entre productos génicos es mediante la asignación de estos productos a
papeles funcionales basados en evidencia experimental o predicción. El hecho de tener
una forma de describir estos papeles, sin reparar en el sistema experimental, es pues de
gran importancia. Un grupo de científicos de distintas bases de datos están trabajando
conjuntamente para desarrollar un conjunto común de términos clasificados
jerárquicamente (una ontología) para la función (suceso bioquímico), el proceso (el
suceso celular en el que la proteína contribuye) y localización subcelular (dónde se
localiza el producto en la célula) como una forma de describir las actividades de un
producto génico. Esta ontología particular se llama Ontología de Genes (GO, del inglés
“Gene Ontology”), y muchas bases de datos distintas de productos génicos incorporan
ahora términos GO. Podrá encontrar una descripción completa en

http://www.geneontology.org/
Bases de datos de rutas Otra forma más de relacionar productos es mediante su
asignación a pasos de rutas bioquímicas o celulares. Los diagramas de rutas pueden
usarse como formas organizadas de presentar las relaciones entre estos productos.
Algunos de los intentos más avanzados de generar estas bases de datos de rutas incluyen
la Enciclopedia de Kyoto de Genes y Genomas (KEGG, del inglés “Kyoto Encyclopedia
of Genes and Genomes”), la Base de Datos de Transducción de Señales
(TRANSPATH) y la Base de Datos Metabólica Interactiva “What Is There” (WIT):

KEGG http://www.genome.ad.jp/kegg/

TRANSPATH http://transpath.gbf.de/

WIT http://wit.mcs.anl.gov/WIT2/
Descargar