Proteínas y Genes de Expresión

Anuncio
Enfermedades Raras
Bioinformática
Enfermedades Raras
Bioinformática
La estructura de las proteínas
Estructura
de las Proteínas
O. Trelles, PhD.
2010
Enfermedades Raras
Bioinformática
Enfermedades Raras
Obtención de la Estructura 3D de Proteínas
(b)
(a)
(c)
(a) Cristalografía de rayos X (gran resolución para proteínas cristalizadas)
(b) Resonancia magnética nuclear (proteínas en disolución de pequeño tamaño
(c) Microscopia electrónica 3D (reconstruye proyecciones/grandes complejos,
no a resolución atómica.
2010
O. Trelles, PhD.
O. Trelles, PhD.
2010
Bioinformática
BD de estructuras de proteínas
HEADER
TITLE
TITLE
COMPND
COMPND
COMPND
SOURCE
SOURCE
KEYWDS
EXPDTA
AUTHOR
AUTHOR
REVDAT
SPRSDE
JRNL
JRNL
JRNL
JRNL
JRNL
REMARK
REMARK
REMARK
REMARK
REMARK
DBREF
DBREF
SEQRES
SEQRES
HELIX
HELIX
HELIX
TURN
SSBOND
SSBOND
SSBOND
CRYST1
ORIGX1
SCALE1
SCALE2
MODEL
ATOM
ATOM
ATOM
2010
HORMONE
08-OCT-96
2HIU
NMR STRUCTURE OF HUMAN INSULIN IN 20% ACETIC ACID,
2 ZINC-FREE, 10 STRUCTURES
MOLECULE: INSULIN;
2 CHAIN: A, B;
3 BIOLOGICAL_UNIT: HETERODIMER
ORGANISM_SCIENTIFIC: HOMO SAPIENS;
2 ORGANISM_COMMON: HUMAN
INSULIN, HORMONE, GLUCOSE METABOLISM
NMR, 10 STRUCTURES
Q.X.HUA,S.N.GOZANI,R.E.CHANCE,J.A.HOFFMANN,B.H.FRANK,
2 M.A.WEISS
1
01-APR-97 2HIU
0
01-APR-97 2HIU
1HIU
HEADER
AUTH
Q.X.HUA,S.N.GOZANI,R.E.CHANCE,J.A.HOFFMANN,
ATOM
AUTH 2 B.H.FRANK,M.A.WEISS
ATOM
TITL
STRUCTURE OF A PROTEIN IN A KINETIC TRAP
REF
NAT.STRUCT.BIOL.
V.
2
129 1995 ATOM
ATOM
REFN
ASTM NSBIEW US ISSN 1072-8368
2024
ATOM
1 NUMBER OF NON-HYDROGEN ATOMS USED IN REFINEMENT.
ATOM
1
PROTEIN ATOMS
: 785
ATOM
1
NUCLEIC ACID ATOMS
: 0
ATOM
1
HETEROGEN ATOMS
: 0
ATOM
1
SOLVENT ATOMS
: 0
2HIU A
1
21 SWS
P01308
INS_HUMAN
90 ATOM
110
2HIU B
1
30 SWS
P01308
INS_HUMAN
25 ATOM54
ATOMLEU
1 A
21 GLY ILE VAL GLU GLN CYS CYS THR SER ILE CYS SER
ATOM
2 A
21 TYR GLN LEU GLU ASN TYR CYS ASN
ATOM
1
1 ILE A
2 THR A
8 1
ATOM
2
2 LEU A
13 TYR A
19 1
ATOM
3
3 SER B
9 CYS B
19 1
ATOM
1 T1 GLY B 20 GLY B 23
ATOM
1 CYS A
6
CYS A
11
ATOM
2 CYS A
7
CYS B
7
ATOM
3 CYS A
20
CYS B
19
ATOM 1
1.000
1.000
1.000 90.00 90.00 90.00 P 1
ATOM
1.000000 0.000000 0.000000
0.00000
ATOM
1.000000 0.000000 0.000000
0.00000
0.000000 1.000000 0.000000
0.00000
1
1 N
GLY A
1
-6.132
6.735
1.016 1.00 0.00
2 CA GLY A
1
-4.686
6.753
1.376 1.00 0.00
3 C
GLY A
1
-3.864
6.149
0.235 1.00 0.00
HYDROLASE(O-GLYCOSYL)
1 N
ARG
1
2 CA ARG
1
3 C
ARG
1
4 O
ARG
1
5 CB ARG
1
6 CG ARG
1
7 CD ARG
1
8 NE ARG
1
9 CZ ARG
1
10 NH1 ARG
1
11 NH2 ARG
1
12 N
THR
2
13 CA THR
2
14 7 C
THR
2
15 7 O
THR
2
1611 CB THR
2
17 OG1 THR
2
18 CG2 THR
2
19 N
ASP
3
20 CA ASP
3
21 C
ASP
3
22 O
ASP
3
23 CB ASP
3
(X)
6.350
6.324
6.334
7.356
5.009
4.526
3.012
2.515
2.352
2.588
1.895
5.206
5.197
4.781
4.716
4.452
3.089
5.066
4.497
4.020
4.987
4.530
2.951
(Y)
34.124
32.707
32.484
32.060
32.300
33.584
33.793
34.238
33.394
32.086
33.858
32.767
32.618
33.870
33.930
31.426
31.502
30.133
34.900
36.132
37.273
38.398
36.717
(Z)
50.750
50.379
48.874
48.316
50.934
51.604
51.724
50.431
49.423
49.557
48.262
48.261
46.826
46.108
44.845
46.229
46.538
46.701
46.908
46.259
45.992
45.795
47.185
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
153L
41.90
54.68
14.63
23.75
40.20
56.81
64.62
63.14
37.38
56.33
59.78
15.22
15.40
23.28
20.96
12.40
20.80
26.07
31.19
35.11
19.94
29.83
28.17
153L
153L
153L
153L
153L
153L
153L
153L
153L
153L
153L
153L
153L
153L
153L
153L
153L
153L
153L
153L
153L
153L
153L
153L
2
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
N
C
C
O. Trelles, PhD.
Enfermedades Raras
Bioinformática
Enfermedades Raras
Bioinformática
Predicción de la Estructura 3D
Organización estructural de las proteínas
Basada en patrones característicos
presentes en las estructuras.
CATH : Protein structure classification organiza todas las
estructuras en 4 grandes niveles
256 PEs simula de
2-3 ns/día.
(detalles http://cathwww.biochem.ucl.ac.uk/latest/class.html)
Escala de procesos
biológicos: mili- a
micro-seg
Otras clasificaciones :
SCOP: http://scop.berkeley.edu/
DALI : http://ekhidna.biocenter.helsinki.fi/dali/start
Homología
de Secuencias
O. Trelles, PhD.
2010
Enfermedades Raras
Bioinformática
Semejanza
estructural
Propiedades
Construcción Refinamiento
Físico/Químicas del modelo
dinámico
O. Trelles, PhD.
2010
Enfermedades Raras
Bioinformática
Transcriptó
Transcriptómica:
mica: Datos de Expresió
Expresión Gé
Génica
Expresión
génica
Los experimentos de expresión génica permiten observar la respuesta dinámica en el
tiempo de miles de genes bajo determinadas condiciones experimentales.
2010
O. Trelles, PhD.
2010
O. Trelles, PhD.
Enfermedades Raras
Bioinformática
Enfermedades Raras
Bioinformática
Fichero de adquisición
2-colour experiments
LaserOnTime=0 0
ScanRegion=0,0,0,0
Supplier=
Flags Normalize Block Column Row
Name
ID
X
Y
Dia.
0
0
1
1
1 Gots | B406F950
mPasc74
1660
6000
120
0
0
1
2
1 TgdlX | NG029650
mTrel29
1880
5970
130
-50
0
1
3
1
xGarc25
2070
5990
160
0
0
1
4
1
xPere29
2290
5970
130
0
0
5 MedianB635
1
xChag34
2480
5970
140
F635 MedianF635
Mean
F6351SD
B635
Mean B635 SD
% > B635+1S% > B635+2SF635
% Sat. F532 Median
0
0
1 2595
6
2690
5960 0
170
15129
14770
106 1
114
50xVigu36 100
100
11579
18145
18042
1942
106
119
95
100
100
0
15473
106
108
14
105
113
74
0
0
0
61
134
142
38
103
116
156
0
0
0
76
163 F532 SD184 B532 MedianB532
63
105 B532 SD 205 % > B532+1S%
819 > B532+2SF532
0
113
F532 Mean
Mean
% Sat. 0Ratio of Med 0
Ratio of Mea
155
465
1528
103
171
706
11381
2239
56
64
37
100
1004
04
1,304 0
1,29595
15474
1341
56
68
53
100
100
0
1,17
1,163
64
14
55
63
42
3
0
0
0,326
0,348
84
24
50
55
35
35
10
0
1,127
1,139
142
73
50
74
175
16
0
0
0,976
0,864
Median of RaMean of Rati Ratios SD (63Rgn Ratio (6 Rgn R² (635/5Log Ratio (63F635 MedianF532 MedianF635 Mean - F532 Mean 162
293
53
68
151
10
4
0
1,229
3,342
1,285
1,301
3,04
1,252
0,946
-0,585
15022
11522
14663
11324
1,169
1,159
2,77
1,174
0,981
-0,741
18039
15416
17935
15418
1,374
1,441
9,329
0,697
0,579
-2,585
1
5
3
9
1,069
1,104
6,125
6,217
0,441of MediSum
-0,795 of MeanF 30
38
34
Sum
Pixels
B26Pixels
Index
0,882
0,817
5,089
4,72
0,694 26544 -1,003 25987 58
62
79
92
120
681
1
1,131
1,24
6,011
5,373
0,805 33455 -0,67 33353 51
108
120 42
685361
2
O. Trelles, PhD.
2010
Enfermedades Raras
Pre
P+07 Software
PreP
Bioinformática
6
56
120
93
12
72
171
469
208
120
156
208
2010
Enfermedades Raras
1032
671
755
989
3
4
5
6
O. Trelles, PhD.
Bioinformática
From slides to G
-E matrix
G-E
User friendly desktop application
+07 version
•
•
•
•
•
•
•
2010
Supervised Lowess
Probability graphs: PP, QQ, PN.
Statistic Tests
New –advancedadvanced- filters.
New formats: GenePix,
GenePix, ArrayPro..
ArrayPro..
New saving methods
Documentation and guided examples.
www.bitlab-es.com/prep
ANNOTATIONS
Metadata label
Id1
annotation1
Id2
annotatoin2
…
O. Trelles, PhD.
2010
O. Trelles, PhD.
Enfermedades Raras
Bioinformática
Enfermedades Raras
engene a web-based tool for GE processing
engene : a gene expression data
Visualization
Visualization
processing and exploratory analysis tool
O. Trelles, PhD.
Enfermedades Raras
Bioinformática
••KKMeans
Means
Distances
Distances
••Fuzzy
FuzzyKKMeans
Means
•
Euclidean
•
Euclidean
••Double
Threshold
Double Threshold
••Correlation
Correlation
••Hierarchical
Hierarchical
••Absolute
AbsoluteCorrelation
Correlation
••SOM
SOM
••Manhattan
Manhattan
••Batch
SOM
Batch SOM
••Weighted
Weighted
••Fuzzy
FuzzySOM
SOM
Pre-processing
Pre-processing
••KerDenSOM
KerDenSOM
••Data
filling
Data
filling
••Fuzzy
FuzzyKohonen
Kohonen Clustering
Clustering
••Mean/Median
Mean/MedianCentering
Centering
••Threshold
Threshold
••Logarithmic
LogarithmicTransform
Transform
Post-processing
••Normalization
Post-processing
Normalization
••Silhouette
••Sammon
Silhouettevalue
valueoptimisation
optimisation
Sammon
••KDD,
association
rules
••Statistical
KDD, association rules
StatisticalSignificance
Significance
••Weighted
WeightedSchema
Schema(GA)
(GA)
••PC
PCAnalysis
Analysis
2010
Enfermedades Raras
Gene
-Expression results
Gene-Expression
InterPro
Keywords
GO
Pathway
Class A
••DNA
DNAarrays
arrays
••Cluster
Clusterprofiles
profiles
••Maps
Maps
••Silhouettes
Silhouettes
••Trees
Trees
••U-Matrix
U-Matrix
••Histograms
Histograms
Clustering
Clustering
www.bitlab-es.com/engenet
2010
Bioinformática
Class B
Aplicaciones favoritas
O. Trelles, PhD.
Bioinformática
Expresión
Diferencial
Clustering
Clasificación
KDD: Reglas de Asociación
2010
O. Trelles, PhD.
2010
O. Trelles, PhD.
Enfermedades Raras
Bioinformática
Enfermedades Raras
Bioinformática
NCBI - GEO
Búsquedas sobre “Perfiles de Expresión” revisados y anotados; incluyendo
características calculadas. Ofrece enlaces a otras fuentes de información
Otras
Bases de datos
O. Trelles, PhD.
2010
Enfermedades Raras
Bioinformática
Enfermedades Raras
NCBI - GEO
[A] Descripción del array
[B] Anotaciones (Txt-tab)
[C] Descripción material biológico
O. Trelles, PhD.
2010
Bioinformática
NCBI - GEO
[D] Valores medidos (Txt-tab)
[E] Datos originales en crudo
[F] Datos procesados y resultados
B
D
2010
F
O. Trelles, PhD.
2010
O. Trelles, PhD.
Enfermedades Raras
Bioinformática
Enfermedades Raras
NCBI - GEO
DDBJ: Japan
O. Trelles, PhD.
2010
Enfermedades Raras
Bioinformática
Bioinformática
O. Trelles, PhD.
2010
Enfermedades Raras
DDBJ: Japan
Bioinformática
Ensembl
Proporcionar anotaciones de alta calidad públicamente
• Anotación automática (mRNA/Protein)
• Pipeline de anotación automática
• Revisión manual (VEGA)
• Interfaz programática (API)
• BioMart (minería de datos)
• Integración con otras BD (DAS)
• Análisis comparativo.
2010
O. Trelles, PhD.
2010
O. Trelles, PhD.
Enfermedades Raras
Bioinformática
Enfermedades Raras
Bioinformática
Ensembl
Tipo de anotaciones disponibles
Base de datos de desórdenes génicos
humanos, en particular monogénicos
• Genes – transcritos / modelos peptidos
(codificante y no codificante (ncRNAs))
+ de 18 mil genes y enfermedades
• ID en otras BD
• cDNA mapeado, peptidos, microarray,
clones BAC, etc.
Interés: Enfermedades hereditarias
• Otras características genómicas:
bandas citogenéticas, marcadores,
repeticiones etc.
Ejemplo:
Descripciones y enlaces
(enfermedad) Sickle cell anemia
• Datos comparativos: ortólogos,
parálogos, familia de proteínas,
alineamiento de genomas, regiones
sinténicas...
(gen asociado) HBB
(búsquedas en ENTREZ)
Búsquedas de texto: Autor, gene ID, cromosoma..
Beta globin -> 100 resultados que incluyen:
Gen / Genes relacionados / Enfermedades asociadas
• Datos de Variaciones: SNP
• Datos de regulación: mejor conjunto
regulador (ENCODE)
• Datos externos (DAS)
O. Trelles, PhD.
2010
Enfermedades Raras
Bioinformática
O. Trelles, PhD.
2010
Enfermedades Raras
PHARMGKB
Bioinformática
PharmaGKB
Platinum Pathway
Pharmacokinetics
Pharmacodynamics
Representación de los genes candidatos
involucrados en el metabolismo de
platinum y fármacos
2010
O. Trelles, PhD.
2010
O. Trelles, PhD.
Enfermedades Raras
Bioinformática
Enfermedades Raras
GeneCards
Bioinformática
GeneCards
El motor de búsqueda recupera información relevante y detallada
GeneCards® BD genes humanos con información integrada.
• Genómica, proteómica y transcriptomica.
• Ortólogos
• Enfermedades
• SNP
• Expresión génica
• Función
• Enlaces.
O. Trelles, PhD.
2010
Enfermedades Raras
Bioinformática
O. Trelles, PhD.
2010
Enfermedades Raras
GeneCards
Bioinformática
HPR Atlas
GeneALaCart: batch-querying retrieval of multiple-gene information
GeneDecks sets of associated genes through similarity of GeneCards
annotation to a selected gene.
GeneNote: human genes and expression profiles in healthy tissues.
An expression profile for each gene in the human genome
Gene and tissue clustering based on expression profiles
Genome ranking to the gene's tendency for tissue specificity
GeneAnnot revised and improved annotation of Affymetrix probe-sets
GeneLoc integrated map for each human chromosome
GeneTide automated system for human transcripts annotation
2010
O. Trelles, PhD.
2010
O. Trelles, PhD.
Enfermedades Raras
Bioinformática
HPR Atlas
2010
O. Trelles, PhD.
Descargar