Bioinformática – Genética Molecular NCBI. Bases de Datos: Pubmed, Nucleotide, Protein, Structure A lo largo de los últimos 15 o 20 años, se ha ido acumulando una gran cantidad de información de naturaleza molecular (secuencias de genes, genomas, proteínas, etc.), procedente de los distintos proyectos genoma de diferentes especies (Homo sapiens, Pan troglodytes, Gallus gallus, Drosophila melanogaster, Takifugu rubripes, Caenorhabditis elegans, etc. etc.). Toda esta información se ha ido depositando en grandes “almacenes” de información de secuencias, organizadas en bases de datos, con la intención de que científicos y público en general, pudiera acceder a ella a través de internet. Como complemento a esa información de tipo molecular, estos “almacenes” han incorporado toda una colección de publicaciones y textos científicos de tipo biomédico. En este sentido, el que un biólogo sepa cómo acceder y explotar esta información de un modo eficiente, resulta hoy en día algo absolutamente imprescindible y necesario. De todos estos almacenes de información de secuencias, el correspondiente al “National Center for Biotechnology Information (NCBI)” puede considerarse como el de referencia en lo que a obtención de secuencias moleculares y publicaciones biomédicas se refiere. Estas prácticas tienen por objeto aprender a manejar la información contenida en el NCBI de una forma más o menos sencilla o elemental. La URL (Uniform Resource Locator) del NCBI es http://www.ncbi.nlm.nih.gov , y su página inicial es a día de hoy la siguiente: 1 4 2 3 En ella hemos indicado los enlaces que nos llevan a los contenidos de información relativos a publicaciones de índole biomédica (1), de secuencias de nucleótidos (2) y proteínas (3), y de la estructura tridimensional de moléculas (4). 1 Bioinformática – Genética Molecular ENLACES A PUBLICACIONES DE ÍNDOLE BIOMÉDICA. Pubmed: PubMed comprende más de 24 millones de citas de la literatura biomédica, revistas de ciencias biológicas, y los libros en línea. Las citas pueden incluir vínculos al texto completo de artículos de PubMed Central (ver más abajo) y sitios web de editoriales, o solamente al resumen de dichos artículos. Bookshelf: Proporciona acceso gratuito a textos en línea y documentos en ciencias de la vida y de la salud. PubMed Central: Es un archivo de revistas de carácter biológico y biomédico, de libre acceso, y depositado en la Biblioteca Nacional de Medicina, de los Institutos Nacionales de Salud (NIH/NLM). PubMed Health: Proporciona información a médicos y público en general sobre la prevención y tratamiento de enfermedades y afecciones. Veamos brevemente cómo buscar referencias biomédicas a través de PubMed, sobre, por ejemplo, la organización del promotor de eucariotas. El punto de partida de la búsqueda puede realizarse desde distintos sitios, pero para sistematizar este procedimiento, vamos a realizar la búsqueda desde la página inicial de PubMed. Para ello pinchamos en el enlace PubMed que vemos en la figura de más arriba, situado en la columna encabezada por “Popular Resources”, lo que nos lleva a la siguiente página: 2 1 En la ventana de búsqueda (señalada con una flecha -1) podemos incluir los términos de búsqueda (generalmente, en inglés): eukaryotic promoter organization, lo que nos da una relación de más de 250 artículos en los que aparecen cualquiera de los términos anteriores, que posteriormente podemos reordenar de acuerdo a distintos criterios: relevancia, tipo de artículo (revisiones, descripciones completas de un paciente o enfermedad - “case report”-, carta, noticia, etc.), periodo de publicación en años, etc. etc. 2 Bioinformática – Genética Molecular Alternativamente, podemos realizar una búsqueda avanzada de artículos (señalada con la flecha 2 – ver más atrás), en la que podemos incluir términos específicos para campos concretos de la base de datos de PubMed (autor, fecha de publicación, idioma de la publicación, revista, etc.), con lo que la búsqueda se vuelve más específica y precisa. La búsqueda de información en las restantes bases de datos PubMed Central, Bookshelf o PubMed Health, es similar a lo mostrado anteriormente. Conviene que practiques, buscando en estas bases de datos la información que sea de tu interés. 3 Bioinformática – Genética Molecular BÚSQUEDA Y OBTENCIÓN DE SECUENCIAS NUCLEOTÍDICAS El procedimiento es muy similar al indicado para buscar información en PubMed, sólo que ahora trabajaremos en una base de datos del NCBI diferente; en este caso será la base datos de “Nucleotide”. En la página principal de NCBI pinchamos en el enlace correspondiente a Nucleotide (“Popular resources”, columna de la derecha), y entramos en la página inicial de NUCLEOTIDE. 2 1 Al igual que veíamos en PubMed, podemos introducir los términos de búsqueda, bien la ventanita (flecha 1) o bien a través del procedimiento de búsqueda avanzad (flecha 2). Esto último es generalmente preferible, puesto que podemos afinar mucho más nuestra búsqueda. Imaginemos que queremos buscar la secuencia del mensajero del gen de la Tirosinasa en el ratón (mutaciones en el gen de la tirosinasa, producen albinismo) usando el procedimiento de búsqueda avanda. Introduciremos sucesivamente los términos Mus musculus y tyrosinase en los campos de “organism” y “protein name” 4 Bioinformática – Genética Molecular La respuesta tendría el siguiente aspecto: Recuadrado en rojo aparece la entrada de Nucleotide correspondiente a la secuencia buscada. Si pinchamos en el enlace Fasta, tendremos la secuencia en un formato utilizable en distintos programas bioinformáticos. Una secuencia en formato FASTA, bien de nucleótidos o de aminoácidos, tiene una sintaxis caracterizada por una primera línea que obligatoriamente empieza por el símbolo “mayor que” (>) seguido por una identificación de la secuencia en cuestión; esta línea es meramente informativa. A partir de la segunda línea y siguientes aparece la secuencia de la molécula propiamente dicha. Por ejemplo, la secuencia de nucleótidos ATTGCCGTTATGCAATTGAT en formato FASTA aparecería como sigue: >Ejemplo de secuencia en FASTA ATTGCCGTTATGCAATTGAT BÚSQUEDA Y OBTENCIÓN DE SECUENCIAS DE PROTEÍNAS El procedimiento de búsqueda es totalmente equiparable al de las búsquedas de secuencias nucleotídicas, sólo que la base de datos del NCBI sobre la que se ha de trabajar es la de “Protein”. Podemos acceder a ella desde la página principal de NCBI; pinchamos en el enlace 5 Bioinformática – Genética Molecular correspondiente a Protein (“Popular resources”, columna de la derecha), y entramos en la página inicial de PROTEIN. 2 1 Podemos introducir los términos de búsqueda, bien la ventanita (flecha 1) o bien a través del procedimiento de búsqueda avanzad (flecha 2), lo que es preferible, puesto que podemos afinar mucho más nuestra búsqueda. La búsqueda de la secuencia proteica de la tirosinasa (tyrosynase) del ratón (Mus musculus) a través del procedimiento de búsqueda avanzada, nos daría el siguiente resultado: A partir de cualquiera de las entradas señaladas, podríamos obtener la secuencia de la proteína buscada. 6 Bioinformática – Genética Molecular BÚSQUEDA Y OBTENCIÓN DE ESTRUCTURAS TRIDIMENSIONALES El punto partida para obtener la estructura tridimensional de macromoléculas es el enlace “Domains & Structures” situado la página principal del NCBI, en la columna de la izquierda. Pinchando en él, llegaremos a la página que nos permite acceder a las bases de datos de estructuras moleculares tridimensionales. Estas dos bases de datos que vemos recuadradas en la figura, se refieren a la colección de estructuras 3D de una serie de dominios de proteínas conservados a lo largo de la evolución (CDD), y a la colección de estructuras 3D de macromoléculas. Para buscar información en ellas se operaría exactamente igual que en el caso de PubMed, Nucleotide, y Protein. Por ello, no vamos a hacer ninguna indicación especial en ese sentido. No obstante, para poder visualizar estas estructuras en modo 3D, se necesitan programas específicos. NCBI utiliza el visualizador Cn3D (“See´n 3D”) como estándar. 7 Bioinformática – Genética Molecular PROGRAMA DE VISUALIZACIÓN DE ESTRUCTURAS: Cn3D La descarga del programa Cn3D se realiza desde la misma página “Domains & Structures” accesible desde la página principal del NCBI. Una vez en ella, activamos la pestaña “Tools”, y desde aquí pinchamos en el enlace al programa Cn3D Una vez descargado e instalado en nuestro ordenador, ya estaremos en disposición de ver estructuras moleculares, bien moléculas completas o bien dominios de proteínas conservados durante la evolución. Durante el desarrollo de la práctica, veremos algún ejemplo de estructura molecular a través de este programa, así como algunos aspectos básicos de su manejo. En la figura que sigue, tan sólo mostraremos las dos ventanas principales que se abren cuando cargamos una estructura molecular en Cn3D. La molécula que vamos a ver es la que corresponde a los dominios BRCT (BReast cancer C-Terminal domain) de la proteína BRCA1. 8 Bioinformática – Genética Molecular Como podemos ver, se nos abren 2 ventanas que contienen por un lado la estructura 3D de los 2 dominios BCRT, y por otro la ventana correspondiente a la secuencia aminoacídica de dichos dominios (1Y98_A) y la secuencia del péptido fosforilado Ctip, que interactúa con la proteína BRCA1 (1Y98_B). Como se ha dicho, trabajaremos en la sesión de prácticas con esta estructura a través de Cn3D. En el enlace https://galter.northwestern.edu/guides-and-tutorials/structure-viewers.pdf se puede seguir una guía de utilización del programa (menús, opciones, etc.). 9 Bioinformática – Genética Molecular BÚSQUEDA DE ORF’s (MARCOS ABIERTOS DE LECTURA) El término ORF se refiere a una parte de una secuencia nucleotídica que tiene la potencialidad de codificar un péptido o una proteína; es decir, que debe contener un codón o triplete de iniciación y un codón de terminación. La búsqueda de ORF’s en una secuencia de nucleótidos tiene muchas utilidades en genética molecular. Por ejemplo, puede ayudar a la predicción de genes, a la determinación del origen de pseudogenes, etc. Veamos el siguiente ejemplo: Se trata de buscar posibles funciones de una secuencia anónima de nucleótidos y buscar si presenta alguna relación con otras secuencias depositadas en la base datos de genes. Supongamos que se ha rescatado una secuencia de cDNA y queremos saber si presenta alguna relación con secuencias de genes ya conocidos, y si es así, tratar de deducir su posible función fisiológica, metabólica, celular. Imaginemos que la secuencia de cDNA problema es la siguiente: 1 51 101 151 201 251 301 351 401 451 501 551 601 651 701 751 801 851 901 951 1001 1051 1101 1151 1201 1251 1301 1351 1401 1451 1501 1551 1601 1651 1701 1751 TTGCGCGAGG CTGAGGGGGA TGCGGCGCGC ACAAATACAA CGTGTTGGAG CTGCCGTGAC GGTCAGCGTC GCCTGTGGCA TGAGCGACAG TGCAAGTCAG TGTCACCCCA GGCGACGGCT ATGAAGTGGG GCGCGACTGC CCCGCTTCAG CTGTTCCTGC CCAGATGAGC ACGTGTGCGC AAGTTCAAGA CGACGACCAC ACAGCTGCCG TTCGTGTTCA CGTGCGCCAG TCGGCCACAA GGTGCGGCGC GGACCAGGGT CCATCCACTG CGCGCGCGCC ATGGCAAGTC GACATGGCCG GTAAATGGCT AGAGCAACAC GAGCGAGTTT GGGTAAGCCC CCGAAGTCCG TCGCAAAAAC GCCGCCCCAG ATCACCCCCC TGGCGGGCAG CGCCAGGGAT GGACCCAGCT TGGGAAGGCG TGCCGGTAGC GTTGGCCCAA TCTAGGCCGT CCGGACTCCT GACCTTAAGC CTGGCCCCAC TGTGGGCCCT CGCGTGAGCA CGGCACCTGG AGGACAACTT GCCACCGCCA CGACAAGGTG TGAAGTACTG TGGATCGTGG CCTGCTGAAC GCCGCGACCC CGCCAGGAGG CGGCTACTGC GTCTACTCTC CACACCAACC ACGGCGCGGC AAGGGAGCTG TAGGCGCCAG GACACAGTGG TCGTTAGTTT AGAGTTCGCC GGCCTATAGG TCGGCCCAAC GAGAGGACAG GCACAAGCTA CCGCCCGATC GCTGCCAAAC GTCAGACCGA CAGCGACGGC CTATGCCGAG GACCCCAGTA CGGACCGCCC CAAACGAGCA GCTAGTGAAC CGTCGGGTCG GCTGGCTCAT AGACTGGGTA GGCCCTGCTG GCTTCCGCGT TTCGCCTTGG CGTGGCCGAG AGGGCCGCGT GGCACCTTCA GGGCGTGGCC ACACCGACTA CTGGACGGCA CAACGGCCTG AGCTGTGCCT GACGGCCGCA CCCCATCCCG ATCTCACGTG AGACCCGGGA GCGACGACTC CGTCGCCGTA CCAGTGGCCG GGCGCCCAGG GCACCGCCCG AGCCGCCGCT CCCGGAGTGC CATGGGTCGT CCGGAGGATC AGCGTCGGCC GCAGGCACGG GCCCTCCAGT AGCGCTACAA TTCAGTCGCC GCGCCTGTGA AGGCAGGCTG CGTCCCCCGA GCACGTGAGC CCCGCTAGCC TAGGGTAGGC ACCTTGCCAA GCCGCCTGGG GAAGGAGAAC CCAAGAAGGA TTCAGCGTGG GTGCCTGCTG CCGACACCGA AGCTTCCTGC CGACACCTAC CCTGCGCCGA CCCCCCGAGG GGCCCGCCAG GCGAGCGCAA CTAGGGCCTG CGGCCCTGTC GGCCGGCCGA CCGCCACCGG GAAGGGGTCG ATCGTCAAGG CGCTCGGCCA CCCGAACGCA CACGGCAACC TTAACCCGGC GCGTCAGGGC ACAATGCCCA CCTGCGCTGG ACCCCAGTCC GAATCAGGCG GAATCGACGG AGCAGAGGTA CGCGGGGACG ACCAAGCGGC ACCACGACGC CACGAGACAC CTACCTCGAG TCAATCGGGC CCAGGCCTCG CCGCCGCCGA TTCGACAAGG CCCCGAGGGC ACGAGACCGG AACAACTGGG GGACCCCGCC AGAAGGGCAA GCCGTGCAGT CGACTACAGC CCCAGAAGAT TACCGCCTGA CCTGCTGTAA CGGTGTCGCC GTTCACCCTC CAGCTGGCGG CTGGACGAAA TTTTCAGCCG CCTGATGCCC GCCGGGCGTT GAGAAGGCGA GCGCACAAAC TTCGCGAAGG CTGGCGTTCG GACCACCCTA 10 Bioinformática – Genética Molecular 1.- Búsquedas de “Open Reading Frames” (ORF’s). Lo primero que vamos a hacer es tratar de ver si contiene algún marco abierto de lectura (Open Reading Frame – ORF), es decir, si contiene un conjunto de codones que son capaces de traducirse a proteína. Para ello vamos a utilizar la utilidad ORF Finder que se encuentra en el NCBI (http://www.ncbi.nlm.nih.gov). Hacemos clic en el vínculo correspondiente a esa utilidad, que se encuentra en la solapa “Tools” de la entrada “Sequence analysis” y entramos en la página correspondiente a la búsqueda de ORF’s. La nueva página te presenta el programa, pudiendo introducir la clave de una de las secuencias ya contenidas en las bases de datos, o una propia. Esto último es lo que vamos a hacer nosotros. En el cuadro grande en blanco vamos a introducir la secuencia problema en formato FASTA (Formato muy utilizado en bioinformática, pues todos los programas bioinformáticos reconocen este formato). Para ello escribimos en la primera línea del cuadro en blanco una línea de identificación de nuestra secuencia problema; dicha línea empieza siempre con el símbolo “mayor que” (>) y a continuación un texto descriptivo, por ejemplo: > secuencia problema 11 Bioinformática – Genética Molecular En las siguientes líneas irá la secuencia de nucleótidos propiamente dicha. No importa que vayan números al principio de las líneas, ni que haya espacios en blanco. Una vez que se haya pegado la secuencia hacemos click en OrfFind para ejecutar el programa. El resultado del programa da los posibles ORF’s en las dos cadenas (aparecen 3 posibilidades para una cadena y otras 3 para la otra). De todas las ORF’s que aparecen en cada una de las 3 pautas de lectura de las hebras plus (+) y minus (-), empezaremos por investigar con la mayor de todas (presenta 600 nucleótidos). En la figura siguiente está recuadrada en rojo y marcada con una flecha. Pinchamos en élla, y aparecerá una nueva pantalla con la ORF seleccionada, ya aislada y con su traducción a proteína. 12 Bioinformática – Genética Molecular Traducción a proteína de la ORF (parte) Nos quedaremos con la secuencia de la proteína que se codificaría a partir de este ORF. Para ello copiaríamos la secuencia y la editaríamos convenientemente utilizando el bloc de notas, cuidando de ponerla en formato FASTA. Nos quedaría algo así como: >ORF +1 601-1200 M K W V W A A E R D C R F D K A R F K D P E G L F S V D E T R V C L L N G T F T D T Y W G V A S W I V D T D C R L L N L F V F S R D K I V R Q R Y R L I G H R N L L L V S F G N E F Y D P Q N A S G L Q W D L D G N E G L S T Q M D P Q T T G E Y L F W D S V A K Y C L L C A R F N A C K G A A P C D A V A F T A F N V D P L G W K L V A D K D Q D E A R A E A A K K M D Y Y A R S A N K E G V K H S S Q Q E Este archivo lo utilizaremos en un paso posterior, para ilustrar el uso de la herramienta BLAST 2.- BÚSQUEDAS DE HOMOLOGÍAS Hasta ahora lo que tenemos es una secuencia de proteína, pero no sabemos nada de ella, ni su función, ni su familia ni el parentesco que guarda con otras proteínas de la misma especie o de otras especies. 13 Bioinformática – Genética Molecular Conocer la función de una proteína es un trabajo duro de laboratorio; una forma aproximada para saber algo de un proteína problema es buscar en las bases de datos, otras proteínas que tengan parecido (homología) con ella, es decir, tratar de deducir en la medida de lo posible y por comparación, la familia de proteínas a la que pertenece y su posible función. Uno de los programas más utilizados para buscar parecidos u homologías es BLAST (Basic Local Alignment Search Tool). Este programa compara una secuencia de proteína o de nucleótidos con una base de datos (de proteínas o de nucleótidos). Nosotros vamos a utilizar la variante BLASTP que compara una proteína contra una base de datos de proteínas. Este BLAST lo podemos hacer directamente en la página web en la que hemos realizado la búsqueda de ORF’s. Para ello seleccionamos “Blastp” como programa, y como database seleccionamos “Swissprot” (Ver figura de la página anterior). Nosotros utilizaremos directamente la herramienta BLAST desde su página de inicio. El enlace lo tenemos en la página inicial del NCBI, en la columna de la derecha (Recursos populares). Puesto que se trata de una posible proteína, utilizaremos la opción “Protein blast”. 14 Bioinformática – Genética Molecular Aquí copiamos la secuencia problema Copiamos la secuencia de la proteína problema en la ventana en blanco, y seleccionamos una base de datos de proteínas contra la que comparar (Buscar secuencias similares –homólogas- a la nuestra. En este caso hemos elegido la base de datos Refseq de proteínas, aunque podríamos haber utilizado otra distinta. Refseq tiene la ventaja de que se trata de una colección exhaustiva de secuencias de proteínas no redundantes y bien anotadas. Una vez incluida la secuencia de trabajo pincharemos en el botón BLAST que aparecerá más abajo en la misma página. Con ello se iniciará el proceso de búsqueda de secuencias similares a la nuestra. (En el siguiente enlace: ftp://ftp.ncbi.nlm.nih.gov/pub/factsheets/HowTo_BLASTGuide.pdf podremos ver una guía explicativa acerca de la herramienta BLAST del NCBI y sus posibilidades de utilización). Durante el proceso de búsqueda de secuencias nos aparecen unas pantallas que ya nos indican de qué tipo de proteína se trata nuestra proteína problema. Una de esas pantallas tiene el siguiente aspecto: 15 Bioinformática – Genética Molecular Como se puede ver, se ha detectado un dominio de Lipocalinas. Si pinchamos en el esquema que muestra el dominio de lipocalina podremos obtener información sobre esas proteínas, e incluso quizá su estructura en 3 dimensiones. Las lipocalinas son pequeñas proteínas con forma de cesta que portan en su interior moléculas hidrofóbicas, y sus funciones son muy variadas. Una vez que esté terminada la búsqueda aparece una pantalla con los resultados. Bajamos la página hasta ver un listado de las secuencias encontradas. Podremos ver que las primeras que se han encontrado son todas "Retinol Binding Proteins", es decir lipocalinas que transportan retinol. Luego aparecen más lipocalinas. Cada proteína homóloga aparece marcada en azul, si pinchamos en los enlaces que aparecen bajo la columna “Accession “podremos ver la información sobre esa proteína, la secuencia, quién la secuenció, otras bases de datos que tengan información sobre esa proteína etc. En resumen, podemos concluir de este análisis, que nuestra secuencia es una lipocalina, y que pertenece al grupo de las Proteínas que unen retinol (Retinol Binding Proteins). Lo más probable, por tanto es que nuestra secuencia corresponda a una proteína que también transporte retinol. 16