Clase 24 A Bioinformatica AGBT 2015.pdf

Anuncio
AGROBIOTECNOLOGIA
CURSO 2015
Introducción a la Bioinformática
Paula Fernandez
[email protected]
Departamento de Fisiología, Biología Molecular y Celular
Facultad de Ciencias Exactas y Naturales
Universidad de Buenos Aires
-
¿Qué es la Bioinformática?
Heurística
• En computación, el objetivo fundamental es encontrar algoritmos que
brinden soluciones con buenos tiempos de ejecución, usualmente las
óptimas.
• Las heurísticas generalmente son usadas cuando no existe una solución
óptima bajo las restricciones dadas (tiempo, espacio, etc.).
Algoritmos
Un algoritmo es un conjunto
de pasos que definen un
proceso computacional;
un programa es la
implementación de un
algoritmo. Puede haber
varias implementaciones
diferentes del mismo
algoritmo, que deberían
(pero puede que no) dar
los mismos resultados.
PROBLEMA: DEFINICIÓN
¿Cuáles son las principales
aplicaciones en bioinformática?
Source: GenomeWeb Survey 2010
Experimentación in-silico: cálculo e
interpretación




Podemos generar gran cantidad de datos.
Resultados complejos provenientes de algoritmos complejos.
Tiempos cortos (dependiendo del volumen de datos).
Existen herramientas específicas muy útiles para realizar las tareas que se
plantean con la pregunta biológica que queremos contestar.
 Es muy importante:
 Saber que pregunta queremos contestar.
 Saber que estamos haciendo con el software y en lo posible como lo hace.
 Saber que la salida del software es una cuenta, la interpretación de esa cuenta
por parte nuestra es el verdadero resultado.
 Los resultados in-silico deben ser validados experimentalmente.
En que estamos hoy …
A partir de una ciencia experimental (con base en el laboratorio) la biología
está siendo transformada en una ciencia de la información
• La información acumulada no sólo es información genética (secuencias de
DNA)
– expresión de RNAs
– interacción entre proteínas
– estructuras tridimensionales
•
Cada vez más estudios comienzan con el análisis de bases de datos para
luego formular hipótesis o diseñar experimentos
• Cada vez más el trabajo de laboratorio culmina en la acumulación de
colecciones masivas de datos que deben ser luego analizados
•
Equipamiento automatizado
Projecto Genoma Humano (1990)
Principales logros
•Identificar todos los genes del genoma.
•Determinar la secuencia de los 3 billones de nucleótidos que
confirman el ADN humano.
•Almacenar la información en bases de datos.
•Desarrollar nuevas tecnologías y más eficientes.
•Desarrollar herramientas para análisis de datos.
•Conformación de ELSI (ethical, legal, and social issues) que
comenzó con este proyecto.
Generaciones en la secuenciación de
ADN
Then + Now
1st Gen
Sanger
•Low
throughput
•High cost
•Accurate
•Broad user
base
Sanger
Now
2nd Gen
-parallised
•Optical
•Amplification needed
•Highly parallel
•Improved cost and
Throughput
•More centralised
users
GAII (Solexa/Illumina)
SOLiD (Agencourt/LIFE)
FLX (454/Roche)
Now + anticipated
2nd Gen
-single mol or electronic
•Optical
•Single-molecule
•Highly parallel
•Cost similar
•New applications
•Or electronic,
clonal
Helicos
Pacific Biosciences
Ion Torrent
(LIFE Starlight)
Anticipated
Next
-single mol AND electronic
•Direct electrical (no optics)
•Single-molecule, highly parallel
•Transformation of workflow
•Designed to broaden user base,
deliver step change in cost, power
•New applications
Nanopores
Estimated cost of a human genome using these technologies
$70M
$200k --- $50k ---- $20k --- 15k---
?$5k - $?
INTRODUCCIÓN:
ESTs
INTRODUCCIÓN:
ESTs
Armando el rompecabezas del gen
INTRODUCCIÓN:
Contigs
Ensamblado
 Constituye el primer paso computacional luego de la
secuenciación.
 Es actualmente objeto de investigación ya que no es un
problema totalmente resuelto.
 Problema general: “Armar” el genoma a patir de pequeños
fragmentos (lecturas).
 Menor tamaño de lecturas
Mayor gasto computacional.
 Algoritmos de ensamblado:
 Overlap layout consensus
 Grafos de De Brujin
Lecturas largas
Lecturas cortas
Bases de ESTs
http://www.ncbi.nlm.nih.gov/dbEST/dbEST_summary.html
http://compbio.dfci.harvard.edu/tgi/ (exTIGR)
Redes de Información
Redes de información
• Red Europea de
Biología Molecular
(EMBnet)
– Red la laboratorios
europeos de
biocomputación.
• Nodos nacionales
• Nodos especialistas
Redes de información
• Centro Nacional
(Americano) para la
Información Biotecnológica
(NCBI)
– Suministrador líder
americano de información.
– Abanico de diferentes bases
de datos accesibles a través
de un interface único.
Bases de datos
Lab vs. Compus:
Inicio de la minería de datos
• Cada vez más estudios comienzan con el análisis de
bases de datos para luego formular hipótesis o diseñar
experimentos.
• El trabajo de laboratorio culmina en la acumulación de
colecciones masivas de datos que deben ser
posteriormente analizados.
Estructura y Transformación de los datos
Transformación de los
datos
Reducción de la dimensionalidad
Elección del método
Clasificación
Regresión
Agrupamiento
Conocimiento de la base de datos
Algunas formas de guardar datos
Texto plano / datos binarios
Texto con formato
Planillas de cálculo
Texto estructurado
Bases de datos jerárquicas
Bases de datos relacionales
26
Tipos de datos
•
•
•
•
•
Numéricos (enteros, decimales)
Texto
Fechas (DD/MM/YYYY, HH:MM:SS)
Lógicos (boolean) = verdadero / falso
Geométricos (punto, línea, círculo, polígonos,
etc.)
Bases de datos: conceptos básicos: clave primaria
gi
6226959
6226762
4557224
41
Accession
NM_000014
NM_000014
NM_000014
X63129
version
3
2
1
1
date
01/06/2000
12/10/1999
04/02/1999
06/06/1996
Genbank Division taxid organims
PRI
9606 homo sapiens
PRI
9606 homo sapiens
PRI
9606 homo sapiens
MAM
9913 bos taurus
Number of Chromosomes
22 diploid + X+Y
22 diploid + X+Y
22 diploid + X+Y
29+X+Y
gi = Genbank Identifier: Clave única : Clave primaria
Cambia con cada actualización del registro correspondiente a la secuencia
Accession Number: Clave secundaria
Refiere al mismo locus y secuencia, a pesar de los cambios en la secuencia.
Accession + Version es equivalente al gi (representa un identificador único)
Ejemplo: AF405321.2
Accession: AF405321
Version: 2
Búsquedas en una base de datos: índices



Para facilitar las búsquedas en una base de datos, se
construyen índices.
Un índice es una lista de claves primarias asociadas a un
determinado campo (o grupo de campos).
Un ejemplo más complejo: buscar todos los records que
contengan la palabra ‘kinase’ en la descripción de la
secuencia.
Búsquedas en una base de datos: índices



Para facilitar las búsquedas en una base de datos, se construyen
índices.
Un índice es una lista de claves primarias asociadas a un
determinado campo (o grupo de campos)
Un ejemplo más complejo: buscar todos los records que
contengan la palabra ‘kinase’ en la descripción de la secuencia
Sistemas de búsqueda avanzada:
GQuery
Recuperación y almacenamiento de secuencias
específicas
Qquery System: Text Searches
Uso de GQUery
• Entrez es un sistema de búsqueda y adquisición de
información integrada de las distintas bases de datos de
NCBI:
Secuencias proteicas
Secuencias nucleotídicas
Estructuras macromoleculares
Genomas y mapas de genes
Literatura científica (MEDLINE)
Uso de GQUery
AND / OR / NOT
Delimitadores booleanos. En mayúsculas
Affiliation [AD]
Lugar en el que se ha hecho el trabajo (Univ. Buenos Aires)
All fields [ALL]
En cualquier campo
Author name [AU]
Nombre del autor. Formato: Smith JL [AU], sin comas ni puntos
EC/RN Number [RN] Número asignado a una enzima por la Comisión de Enzimas
Entrez Date [EDAT]
Fecha de incorporación a Entrez
Issue [IP]
Ejemplar del volumen de una revista
Journal Title [TA]
Título de la revista: entero, abreviatura MEDLINE o número ISSN
[molecular biology of the cell] [mol biol cell], sin puntos
Language [LA]
Idioma: English, French, German, Italian, Japanese
MeSH Terms [MH]
Medical Subject Headings (19000 términos, actualizados y
clasificados)
Uso de GQUery
Genómica aplicada a la medicina
clínica
Uso de GQUery
Uso de GQUery
Uso de GQUery
The NCBI ftp site
30,000 files per day
620 Gigabytes per day
GenBank File Formats
ASN.1 – The Raw Data
XML
FASTA
flat file
GenBank
•
•
•
•
Redundante (es un Banco, no busca unificar datos)
Con errores
Difícil de actualizar
Para poder corregir, mejorar y mantener actualizada la anotación de
los registros, el NCBI creó RefSeq (colección curada de registros de
GenBank)
– toma records de GenBank y los actualiza/corrije
– unifica para reducir redundancia
– Accession numbers del tipo XX_123456
Bases de datos secundarias

Una base de datos secundaria contiene información
derivada de otras fuentes (primarias, entre otras).
 Refseq (Colección curada de GenBank en NCBI). Síntesis
de información, no datos primarios. Grupo particular en
momento determinado.
 Unigene (Clustering de ESTs en NCBI).

Las bases de datos organismo-específicas son en general
una mezcla entre primaria y secundaria.
RefSeq: Base de datos secundaria
mRNAs and Proteins
NM_123456
NP_123456
NR_123456
XM_123456
XP_123456
XR_123456
Gene Records
NG_123456
Chromosome
NC_123455
NT_123456
NW_123456
Curated mRNA
Curated Protein
Curated non-coding RNA
Predicted mRNA
Predicted Protein
Predicted non-coding RNA
Reference Genomic Sequence
Microbial replicons, organelles
Contig
WGS Supercontig
Anotando el gen
Genomic DNA
(NC, NT, NW)
Scanning....
Model mRNA (XM)
(XR)
Curated mRNA (NM)
(NR)
RefSeq
Genbank
Sequences
Model protein (XP)
= ?!
Curated Protein (NP)
GO vs MapMan
Klie & Nikoloskie (2013), Front. Genetics 3:115
Blast significativos a factores de transcripción utilizando “Plant Transcription Factor Database”
(http://plntfdb.bio.uni-potsdam.de/v3.0/). Tiempo pre-antesis.
WGCNA
0
AP2-EREBP
WRKY
MYB
NAC
bZIP
C3H
Orphans
ARF
CCAAT
bHLH
GRAS
MYB-related
E2F-DP
EIL
HSF
OFP
ABI3VP1
Sigma70-like
MADS
zf-HD
C2C2-GATA
HB
LIM
AP2/DREB3
DBP
FHA
G2-like
mTERF
RWP-RK
Trihelix
2
Número de genes
4
6
8
10
12
14
ATOFP2
ATERF3
SIG2
MYB78
GBF4
MADS-box
ANAC055
Estudio integrador relacionado a la senescencia foliar en girasol
Campo control: Tiempo 1 vs Tiempo 0
(Moschen et al Plant Biotech J. 2015)
Weighted Gene Correlation Network Analysis (WGCNA) Vs. BioSignature Discoverer
WGCNA:
•
Paquete de R diseñado para identificar clusters (módulos) de genes o metabolitos altamente
correlacionados.
•
Cada módulo a menudo representa un proceso biológico específico.
•
Genes «hubs» altamente conectados dentro de un módulo dan indicio de genes reguladores y
representan potenciales genes candidatos.
BioSignature Discoverer (BioSD):
•
Paquete de R (y plug in de CLC BIO) que permite la identificación de “molecular signatures” en
diferentes tipos de datos biológicos como Next Generation Sequencing, microarray y perfiles
metabólicos.
•
Utiliza un algoritmo de selección característico de modelos bayesianos, basada en restricciones de
aprendizaje y que es capaz de identificar múltiples «signatures», estadísticamente equivalentes.
•
Identifica los genes y/o metabolitos mas informativos que pueden discriminar entre dos condiciones
diferentes.
WGCNA
Genes
Metabolitos
Bases primarias vs. secundarias
Algorithms
Sequencing
Centers
GenBank
Updated ONLY
by submitters
INV VRT PHG VRL
UniSTS
EST
STS
GSS
HTG
UniGene
Updated
continually
by NCBI
RefSeq:
Annotation
Pipeline
PRI ROD PLN MAM BCT
Curators
Labs
RefSeq:
Gene and
Genomes Pipelines
TATAGCCG
AGCTCCGATA
CCGATGACAA
Bioinformática
Siempre que sea posible,
debe emplearse un
abanico de métodos de
análisis diferentes, y los
resultados deberían
unirse con toda la
información biológica
disponible.
Lista de bases de datos de
biología molecular en NAR
http://nar.oupjournals.org/content/
vol28/issue1/
Descargar