BASES DE DATOS Una base de datos (BD) es una colección de datos. Una agenda de teléfonos es un sencillo ejemplo de una base de datos. Los datos se almacenan en registros. Cada registro debe tener un identificador único y estable. La información que contiene cada registro está distribuida en campos. Además de almacenar información, las bases de datos deben disponer de herramientas que permitan (1) organizar eficazmente la información, (2) recuperar la información de forma rápida y precisa (motores de búsqueda eficaces), (3) actualizar y revisar los contenidos periódicamente, (4) enviar nuevas secuencias, (5) transferir sus contenidos a otras bases de datos o a determinados programas de análisis y (6) personalizar la interfaz con el usuario para que su uso sea más sencillo. Por lo tanto, en una buena base de datos: • • • • • • • • hay mucha información la información es fiable (está contrastada, mantenida y actualizada) las búsquedas se hacen de forma fácil, rápida y precisa la interfaz con el usuario tiene un buen diseño que permite asimilar rápidamente la información exhibida hay enlaces que me envían a otras bases de datos relacionadas el formato de los datos es válido para otras aplicaciones los contenidos son de acceso público y gratuito (Internet) hay herramientas que permiten enviar nuevas secuencias (Webin, Sequin, BankIt) BASES DE DATOS BIOLÓGICAS Gracias a las nuevas tecnologías se está generando una ingente cantidad de datos biológicos y toda esta información se almacena en bases de datos. Estos datos pueden ser de cuatro tipos: secuencias biológicas, datos estructurales, datos funcionales y bibliografía. Cada categoría de datos presenta su propia estructura y requisitos, lo que influye decisivamente a la hora de diseñar las bases de datos. Los diversos tipos de datos están estrechamente relacionados entre sí: las secuencias codificantes de ADN dan lugar a proteínas con una estructura tridimensional y una función característica; con mucha frecuencia, las proteínas no funcionan solas sino que forman parte de rutas metabólicas en las que establecen importantes relaciones con otros tipos de biomoléculas y, además, toda esta información está convenientemente reflejada en las publicaciones científicas. Se ha hecho un gran esfuerzo para que toda esta información sea accesible a través de la World Wide Web (www) de modo que tanto las bases de datos como sus herramientas de búsqueda se han convertido en parte esencial de la actividad investigadora. Todos los años, el primer número de la revista Nucleic Acids Research (NAR) está dedicado a las bases de datos: publica artículos que describen la creación de nuevas bases de datos y las innovaciones que se han producido en las ya existentes y, además, contiene una lista exhaustiva de todas las bases de datos existentes y sus URL. Muchas de estas bases están alojadas en los sitios web de centros gubernamentales o privados que han creado un entorno gráfico uniforme que reúne un gran número de bases de datos. Ejemplos de este tipo de centros son: • The National Center for Biotechnology Information, NCBI (http://www.ncbi.nlm.nih.gov/) • The European Bioinformatics Institute, EBI (http://www.ebi.ac.uk) • The Switzerland Institute of Bioinformatics, SIB (http:/www.isb-sib.ch/) • The Sanger Institute (http://www.sanger.ac.uk) Un aspecto particularmente interesante de estos centros es que establecen conexiones entre las distintas bases de datos que permiten obtener de manera fácil y rápida toda la información relacionada con una biomolécula concreta. Por ejemplo, el NCBI ofrece una plataforma que busca información en 39 bases de datos a la vez y permite "saltar" fácilmente de una base de datos a otra (http://www.ncbi.nlm.nih.gov/gquery/). Minería de datos y anotación de secuencias Los proyectos de secuenciación a gran escala (proyectos genómicos) están generando gran cantidad de datos a un ritmo que no permite su análisis detallado. Por sí mismos, estos datos no aportan mucha información. Una base de datos primaria que sólo tuviese secuencias no tendría mucha utilidad: se reduciría a una enorme cantidad de líneas de texto escritas con 4 caracteres (en el caso de los ácidos nucleicos) o con 20 caracteres (en el caso de las proteínas). Por eso, uno de los grandes retos de la Bioinformática consiste en analizar esos datos para extraer información estructural, funcional o evolutiva. Es lo que se llama minería de datos (data mining). El gran desafío al que se enfrentan los bioinformáticos, lo que algunos denominan "el santo grial de la Bioinformática", consiste en predecir la estructura terciaria de una proteína a partir de su secuencia y, conociendo su estructura, determinar su función. Aún estamos muy lejos de alcanzar ese objetivo, pero cuanto mejor comprendamos las interacciones que dirigen el plegamiento de las proteínas y cuantas más estructuras tridimensionales se vayan determinando, más cerca estaremos de conseguirlo. El verdadero interés de los bancos de datos está en las anotaciones, el "valor añadido" que se añade a la simple secuencia y que nos ayuda a comprender la estructura de la biomolécula, su función, las posibles interacciones que pueda establecer en el interior de la célula con otras moléculas y su historial evolutivo. Se distinguen las anotaciones estructurales (identificación de genes y otros elementos importantes de la secuencia) y las anotaciones funcionales (las que se refieren al papel que desempeña esa secuencia en el organismo). El grado de anotación de las secuencias varía mucho y depende, fundamentalmente del autor, es decir, del investigador que ha enviado la secuencia a la base de datos. El autor es el único que puede modificar esta información y esto es un problema porque, en muchos casos, el autor se desentiende de la secuencia y las anotaciones pueden quedarse obsoletas o incompletas. Lo ideal es que las anotaciones las introduzca el propio grupo que envía las secuencias y que sean revisadas por personal experto de la base de datos. En algunos casos, los registros están anotados por terceras personas (TPA, third party annotation) que no pertenecen ni al grupo que ha obtenido la secuencia ni al personal que gestiona la base de datos. En muchos casos, sobre todo cuando se trata de secuencias muy grandes (como, por ejemplo, secuencias genómicas) se utilizan métodos automáticos de anotación. Estas anotaciones son el resultado de la aplicación de herramientas bioinformáticas (comparación de secuencias o algoritmos de predicción) y, en la gran mayoría de los casos, no existen evidencias experimentales que corroboren esas anotaciones. En muchos casos señalan proteínas "hipotéticas" o "putativas" que podrán existir o no en la realidad. La fiabilidad de una predicción depende de la existencia de evidencias experimentales que la confirmen. Por eso, a la hora de anotar genes y genomas, los biólogos deben hacer uso de sus propios conocimientos, de su intuición y de la información publicada en la literatura para diseñar experimentos que apoyen esas predicciones. Si las bases de datos incorporen anotaciones erróneas en las secuencias se corre el peligro de que estos errores se propaguen de unas bases de datos a otras sin que nadie lo remedie. La calidad de los datos. Propagación de errores La calidad de los datos y de las anotaciones es responsabilidad de quien los envía. Aunque toda la información que se envía también es revisada por el personal, las bases de datos contienen muchos errores, tanto en los datos como en las anotaciones. Los errores en los datos pueden haberse producido en origen por el propio investigador que ha mandado la información o durante el manejo de esa información por parte del personal de la base de datos. Los errores más habituales en origen se deben al propio proceso de secuenciación y a la contaminación con ADN del vector. En las bases de datos, los errores más frecuentes son la asignación de códigos de identificación erróneos y la introducción de información redundante, es decir, que una misma secuencia pueda estar incluida total o parcialmente en varios registros. Los errores en la anotación pueden deberse a la metodología utilizada para anotar las secuencias, a la propagación de anotaciones erróneas de una base de datos a otra o a anotaciones incompletas. Por ejemplo, supongamos una proteína A con dos dominios de distinta función, pero sólo se conoce una de ellas en el momento de depositar los datos. Esa función puede atribuirse por métodos automáticos a otra proteína B con un alto grado de similitud con la proteína A, aunque la similitud se limite al dominio de función desconocida. En general, estos errores se corrigen consultando la literatura, actualizando la información y analizando cuidadosamente los datos. Sin embargo, como los datos se van acumulando a una velocidad mucho mayor que la velocidad con que se analizan, se siguen utilizando los métodos automáticos de anotación. Bases de datos primarias y secundarias Hay BD que almacenan los datos tal y como han sido depositados por quienes los han generado, de manera que se pueden analizar repetidamente a medida que van surgiendo nuevas herramientas. Son las denominadas bases de datos primarias o bancos de datos. Ejemplos de bases de datos primarias de secuencias de nucleótidos son GenBank, ENA (European Nucleotide Archive) y DDBJ (DNA Data Bank of Japan). Ejemplos de bases de datos primarias de secuencias de proteínas son SWISS-PROT y Uniprot-KB. Una base de datos primaria de estructura tridimensional de proteínas es PDB (Protein Data Bank) y una base de datos primaria de estructura tridimensional de ácidos nucleicos es NDB (Nucleic acid database). A partir del análisis de la información depositada en las bases de datos primarias se pueden descubrir nuevas propiedades o establecer nuevas relaciones entre los datos. En muchos casos resulta interesante almacenar todo este "valor añadido" en una nueva base de datos para que otros investigadores puedan acceder directamente a esta información. Son las llamadas bases de datos secundarias o derivadas. Lógicamente, a medida que los bancos de datos van creciendo, la información contenida en las bases de datos secundarias debe ser actualizada, algo que desgraciadamente no siempre ocurre. Ejemplos de bases de datos secundarias de secuencias de proteínas son Prosite, Prints y Pfam. En algunas ocasiones surge una nueva base de datos a partir de la fusión de otras ya existentes (primarias o secundarias). Se trata de bases de datos compuestas y su gran ventaja es que evitan tener que hacer varias búsquedas. Por ejemplo, Uniprot-KB es la suma de tres bases de datos primarias de secuencias de proteínas: SWISS-PROT, TrEMBL y PIR, mientras que InterPro es la suma de once bases de datos secundarias de secuencias de proteínas. Una base de datos específica es aquélla que sólo contiene información relativa a un organismo concreto o a un tipo de molécula determinado. Por ejemplo, la base de datos ZFIN contiene información relacionada con el pez cebra, Flybase contiene información sobre Drosophila melanogaster, Rebase contiene información relacionada con las enzimas de restricción y tRNAdb contiene información relacionada con los ARN de transferencia.