Redundancia en proteínas

Anuncio
algo
Antonio León Sánchez
Redundancia en proteı́nas
Análisis de la frecuencia relativa y de la
redundancia de micripéptidos en proteı́nas
Interciencia
algo
Antonio León
Redundancia en proteı́nas
Primera edición, Salamanca. 2015
Impreso en España / Printed in Spain
Printed by Bubok Publishing S.L.
Registro legal S.C. Cod. 1312289692975
Todos los derechos reservados. Ninguna parte de este libro puede ser reproducida,
almacenada o transmitida sin el correspondiente permiso del propietario de los
derechos de copia.
Índice general
Índice de tablas
VII
Índice de figuras
X
1. Introducción
1
2. La base de datos UniProt
Introducción . . . . . . . . . . . . . . . . . .
Bases de datos de proteı́nas en Internet
UniProt. Caracterı́sticas generales . . .
Sobre la idoneidad de UniProt . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
3
5
9
3. Objetivos y métodos de estudio
Introducción . . . . . . . . . . . .
Redundancia externa e interna
Objetivos . . . . . . . . . . . . . .
Métodos de estudio . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
14
17
18
4. Redundancia de aminoácidos
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Frecuencia de los aminoácidos . . . . . . . . . . . . . . . . . . . . . .
Redundancia de los aminoácidos . . . . . . . . . . . . . . . . . . . . .
23
23
24
34
5. Redundancia de dipéptidos y tripéptidos
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Frecuencia y redundancia relativas . . . . . . . . . . . . . . . . . .
39
39
40
6. Redundancia de tetrapéptidos
Intorducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Métodos de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Frecuencia y redundancia de tetrapéptidos . . . . . . . . . . . . .
51
51
52
52
7. Redundancia interna de micropéptidos
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Métodos de estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Análisis de la redundancia . . . . . . . . . . . . . . . . . . . . . . . .
59
59
60
62
.
.
.
.
v
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
vi —— Índice general
Micropéptidos de un solo aminoácido . . . . . . . . . . . . . . . . . .
Otras redundancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
70
8. Redundancia en el proteoma humano
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Frecuencia y redundancia de aminoácidos . . . . . . . . . . . . . . .
Redundancia de micropéptidos . . . . . . . . . . . . . . . . . . . . . .
73
73
74
79
9. junk-ADN
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
junk-DNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
87
87
88
10.Conclusiones
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
93
93
93
11.Resultados numéricos: aminoácidos
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Índice de tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
97
97
99
12.Resultados numéricos: Dipéptidos
129
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
Índice de tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
13.Resultados numéricos: Tripéptidos
151
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
Índice de tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
14.Resultados numéricos: Tetrapéptidos
173
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
Índice de tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
15.Resultados numéricos: Proteoma humano
185
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
Índice de tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
Referencias bibliográficas
194
Referencias bibliográficas
195
Índice alfabético
197
Índice de tablas
3.1. Código genético de los 20 aminoácidos proteinogénicos. . . . . . . . .
16
4.1.
4.2.
4.3.
4.4.
4.5.
4.6.
Frecuencia absoluta y relativa de los aminoácidos . . . . . . . . . .
Código genético ideal vs real . . . . . . . . . . . . . . . . . . . . .
Frecuencia relativa y código ideal . . . . . . . . . . . . . . . . . . .
Códigos genéticos ideales por grupos de organismos . . . . . . . . .
Redundancia absoluta y relativa de los aminoácidos (p. aleatorias)
Redundancia absoluta y relativa de los aminoácidos (p. naturales)
.
.
.
.
.
.
28
32
33
34
37
38
5.1.
5.2.
5.3.
5.4.
Frecuencia
Frecuencia
Frecuencia
Frecuencia
y redundancia de algunos dipéptidos (pr. naturales)
y redundancia de algunos dipéptidos (pr. aleatorias)
y redundancia de algunos tripéptidos (pr. naturales)
extrema de algunos tripéptidos . . . . . . . . . . . .
.
.
.
.
43
44
48
48
6.1.
6.2.
6.3.
6.4.
Frecuencia
Frecuencia
Frecuencia
Frecuencia
y
y
y
y
Archaea. . . .
Bacteria. . . .
Eukaryota. . .
Homo sapiens.
53
54
55
57
7.1.
7.2.
7.3.
7.4.
7.5.
7.6.
7.7.
Repeticiones directas e inversas en micropéptidos . . . .
Redundancia de micropéptidos en diferentes organismos
Logaritmo de la redundancia relativa (s. directas) . . . .
Logaritmo de la redundancia relativa (s. inversas) . . . .
Frecuencias de pentapéptidos de un solo aminoácido . .
Frecuencias de decapéptidos de un solo aminoácido . . .
Frecuencias de pentadecapéptidos de un solo aminoácido
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
64
66
67
67
68
69
70
8.1.
8.2.
8.3.
8.5.
8.6.
8.7.
Aminoácidos de especial frecuencia en el proteoma humano . . .
Frecuencia y redundancia de aminoácidos (pr. humanas) . . . . .
Frecuencia relativa de aminoácidos (pr. humanas y aleatorias) . .
Código genético ideal comparado . . . . . . . . . . . . . . . . . .
Frecuencia y redundancia de tripéptidos en el proteoma humano.
Frecuencia y redundancia de tetrapéptidos (pr. humanas) . . . .
.
.
.
.
.
.
.
.
.
.
.
.
74
76
77
79
82
84
redundancia
redundancia
redundancia
redundancia
de
de
de
de
algunos
algunos
algunos
algunos
tetrapéptidos
tetrapéptidos
tetrapéptidos
tetrapéptidos
en
en
en
en
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11.1. Aminoácidos. Naturales. Todos organismos. Cada proteı́na . . . . . . 100
11.2. Aminoácidos. Aleatorias. Todos organismos. Cada proteı́na . . . . . 101
vii
viii —— Índice de tablas
11.3. Aminoácidos.
11.4. Aminoácidos.
11.5. Aminoácidos.
11.6. Aminoácidos.
11.7. Aminoácidos.
11.8. Aminoácidos.
11.9. Aminoácidos.
11.10.Aminoácidos.
11.11.Aminoácidos.
11.12.Aminoácidos.
11.13.Aminoácidos.
11.14.Aminoácidos.
11.15.Aminoácidos.
11.16.Aminoácidos.
11.17.Aminoácidos.
11.18.Aminoácidos.
11.19.Aminoácidos.
11.20.Aminoácidos.
11.21.Aminoácidos.
11.22.Aminoácidos.
11.23.Aminoácidos.
11.24.Aminoácidos.
11.25.Aminoácidos.
11.26.Aminoácidos.
11.27.Aminoácidos.
11.28.Aminoácidos.
Naturales. Todos organismos. Una proteı́na
Aleatorias. Todos organismos. Una proteı́na
Naturales. Virus. Cada proteı́na . . . . . . .
Aleatorias. Virus. Cada proteı́na . . . . . .
Naturales. Virus. Una proteı́na . . . . . . .
Aleatorias. Virus. Una proteı́na . . . . . . .
Naturales. Archaea. Cada proteı́na . . . . .
Aleatorias. Archaea. Cada proteı́na . . . . .
Naturales. Archaea. Una proteı́na . . . . . .
Aleatorias. Archaea. Una proteı́na . . . . .
Naturales. Bacterias. Cada proteı́na . . . .
Aleatorias. Bacterias. Cada proteı́na . . . .
Naturales. Bacterias. Una proteı́na . . . . .
Aleatorias. Bacterias. Una proteı́na . . . . .
Naturales. Eukaryota. Cada proteı́na . . . .
Aleatorias. Eukaryota. Cada proteı́na . . . .
Naturales. Eukaryota. Una proteı́na . . . . .
Aleatorias. Eukaryota. Una proteı́na . . . .
Naturales. Mammalia. Cada proteı́na . . . .
aleatorias. Mammalia. Cada proteı́na . . . .
Naturales. Mammalia. Una proteı́na . . . .
Aleatorias. Mammalia. Una proteı́na . . . .
Naturales. Homo sapiens. Cada proteı́na . .
Aleatorias. Homo sapiens. Cada proteı́na . .
Naturales. Homo sapiens. Una proteı́na . . .
Aleatorias. Homo sapiens. Una proteı́na . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
12.1. Dipéptidos.
12.2. Dipéptidos.
12.3. Dipéptidos.
12.4. Dipéptidos.
12.5. Dipéptidos.
12.6. Dipéptidos.
12.7. Dipéptidos.
12.8. Dipéptidos.
12.9. Dipéptidos.
12.10.Dipéptidos.
Naturales. Todos organismos. Cada proteı́na .
Aleatorias. Todos organismos. Cada proteı́na
Naturales. Todos organismos. Una proteı́na .
Aleatorias. Todos organismos. Una proteı́na .
Naturales. Virus. Cada proteı́na . . . . . . . .
Naturales. Archaea. Cada proteı́na . . . . . .
Naturales. Bacteria. Cada proteı́na . . . . . .
Naturales. Eukaryota. Cada proteı́na . . . . .
Naturales. Mammalia. Cada proteı́na . . . . .
Naturales. Homo sapiens. Cada proteı́na . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
131
133
135
137
139
141
143
145
147
149
13.1. Tripéptidos.
13.2. Tripéptidos.
13.3. Tripéptidos.
13.4. Tripéptidos.
13.5. Tripéptidos.
13.6. Tripéptidos.
13.7. Tripéptidos.
13.8. Tripéptidos.
13.9. Tripéptidos.
13.10.Tripéptidos.
Naturales. Todos organismos. Cada proteı́na
Aleatorias. Todos organismos. Cada proteı́na
Naturales. Todos organismos. Una proteı́na .
Aleatorias. Todos organismos. Una proteı́na .
Naturales. Virus. Cada proteı́na . . . . . . .
Naturales. Archaea. Cada proteı́na . . . . . .
Naturales. Bacteria. Cada proteı́na . . . . . .
Naturales. Eukaryota. Cada proteı́na . . . . .
Naturales. Mammalia. Cada proteı́na . . . .
Naturales. Homo sapiens. Cada proteı́na . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
153
155
157
159
161
163
165
167
169
171
14.1. Tetrapéptidos. Naturales. Todos organismos. Cada proteı́na . . . . . 175
Índice de tablas —— ix
14.2. Tetrapéptidos.
14.3. Tetrapéptidos.
14.4. Tetrapéptidos.
14.5. Tetrapéptidos.
14.6. Tetrapéptidos.
14.7. Tetrapéptidos.
Naturales.
Naturales.
Naturales.
Naturales.
Naturales.
Naturales.
Virus. Cada proteı́na . . . . .
Archaea. Cada proteı́na . . . .
Bacteria. Cada proteı́na . . .
Eukaryota. Cada proteı́na . .
Mammalia. Cada proteı́na . .
Homo sapiens. Cada proteı́na
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
176
178
179
181
183
184
15.1. Aminoácidos. Naturales. Homo sapiens. Cada proteı́na .
15.2. Aminoácidos. Naturales. Homo sapiens. Una proteı́na . .
15.3. Dipéptidos. Naturales. Homo sapiens. Cada proteı́na . .
15.4. Dipéptidos. Naturales. Homo sapiens. Una proteı́na . . .
15.5. Tripéptidos. Naturales. Homo sapiens. Cada proteı́na . .
15.6. Tripéptidos. Naturales. Homo sapiens. Una proteı́na . .
15.7. Tetrapéptidos. Naturales. Homo sapiens. Cada proteı́na
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
186
187
188
190
191
193
194
Índice de figuras
4.1. Frecuencia relativa de aminoácidos . . . . . . . . . . . . . . . . . . .
4.2. Redundancia relativa de aminoácidos . . . . . . . . . . . . . . . . . .
29
35
5.1. Frecuencia relativa de dipéptidos . . . . . . . . . . . . . . . . . . . .
5.2. Frecuencia relativa de tripéptidos . . . . . . . . . . . . . . . . . . . .
5.3. Frecuencia relativa tripéptidos (Bacteria y Eukaryota) . . . . . . . .
40
45
49
6.1. Frecuencia relativa de tetrapéptidos 1 . . . . . . . . . . . . . . . . .
6.2. Frecuencia relativa de tetrapéptidos 2 . . . . . . . . . . . . . . . . .
56
57
7.1. Redundancia interna de micropéptidos . . . . . . . . . . . . . . . . .
65
8.1.
8.2.
8.3.
8.4.
.
.
.
.
80
83
85
85
9.1. Genes codificadores de proteı́nas y junk-DNA . . . . . . . . . . . . .
89
Redundancia de aminoácidos en Homo sapiens . . . . . .
Frecuencia relativa de tripéptidos en proteoma humano . .
Frecuencia relativa de tetrapéptidos en proteoma humano
Redundancia de micropéptidos . . . . . . . . . . . . . . .
xi
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1.-Introducción
Este trabajo puede considerarse como la segunda versión, notablemente
ampliada, de otro trabajo realizado por el autor al final de la década de
1980, con la ayuda de tres de sus antiguos alumnos (cuyos nombres creo
recordar eran José Carrillo, Juan Luis Hidalgo y Francisco Martı́nez a
los que agradezco aquella tediosa colaboración).
Aunque los objetivos y los métodos eran muy similares, el número de
proteı́nas analizadas fue muy pequeño (todas las secuencias se copiaron
a mano a partir de varias publicaciones). Creo recordar que el número
total de aminoácidos incluidos en todas las secuencias analizadas era
del orden de 40.000.
Un resumen del trabajo se envió al Journal of Molecular Biology, cuyo editor no encontró interesante su publicación. Recuerdo el tamaño
inusualmente largo (dos folios) de su carta de rechazo. Los años demostraron que el editor no estuvo muy acertado en aquella ocasión.
No hubo más intentos de publicación y el asunto quedó olvidado hasta
esta segunda década del siglo XXI. Motivado por la accesibilidad de
las modernas bases de datos expuestas en Internet, decidı́ poner al
dı́a aquella investigación sobre la redundancia de microsecuencias de
1
2 —— Introducción
residuos de aminoácidos en las proteı́nas. El resultado es este libro.
Antonio León
Salamanca, agosto de 2015
2.-La base de datos UniProt
Introducción
1 En este capı́tulo se introduce la base de datos UniProt, utilizada
en el resto del libro como fuente para el análisis de la redundancia de
microsecuencias de aminoácidos en las proteı́nas naturales. Se analiza su extracción a partir de uniprot sprot.xml (disponible en Internet
según se indica en la siguiente sección) y sus caracterı́sticas principales:
tamaño, tipos de proteı́nas, aminoácidos y tipos de organismos a los
que pertenecen las proteı́nas. Se discute sobre su idoneidad estadı́stica
y sobre su idoneidad como representante de lo que podrı́amos llamar
el proteoma de la biosfera.
2 Por las razones que se expondrán más adelante, UniProt puede considerarse apropiada para el tipo de análisis estadı́stico que realizamos
aquı́, de modo que las consecuencias del mismo serán significativas.
Serán también relevantes, porque la redundancia (interna y externa)
de micropéptidos en las cadenas peptı́dicas de las proteı́nas, como tal
redundancia, no ha sido aún analizada con el debido rigor ni, en consecuencia, debidamente interpretada en términos genéticos y evolutivos.
Bases de datos de proteı́nas en Internet
3 Como es bien sabido, existen en la Red un número considerable de
herramientas y de bases de datos bioquı́micas y moleculares disponi3
4 —— La base de datos UniProt
bles para cualquier usuario. Aunque, como es lógico, en la mayorı́a de
los casos se requieren conocimientos técnicos para su aprovechamiento. Algunas bases de datos se encuentran disponibles en formato .xml,
incluso en formato .txt, y aún estando comprimidas tienen un tamaño
considerable. En cualquier caso la descarga completa se realiza en unos
pocos minutos.
4 Aunque hemos secuenciado ya más de un genoma (incluyendo el
humano), aún estamos lejos de haber analizado el proteoma completo
de un organismo. En consecuencia, algunas de las proteı́nas incluidas
en las bases de datos contienen secuencias de aminoácidos derivadas de
secuencias de nucleótidos pero que aún no se han identificado como tales
proteı́nas. En algunos casos la existencia de estas proteı́nas hipotéticas
o probables está parcialmente confirmada por su parentesco (proteı́nas
putativas) con otras proteı́nas debidamente identificadas y analizadas
([5]). Naturalmente, los análisis estadı́sticos pueden considerar, o no, a
estas hipotéticas proteı́nas.
5 En esta moderna revisión del análisis de la redundancia en proteı́nas se han usado dos bases de datos. La primera fue psd7003.xml
(extraı́da de los 103 MB comprimidos de psd7003.xml.gz). La descarga es libre y está ofrecida por la Universidad de Washington en la
página XML Data Repository. Como es usual, cada registro de la base contiene un buen número de campos fácilmente localizables por sus
correspondientes etiquetas xml. Para los objetivos de nuestro análisis
solo son necesarios los campos: nombre de la proteı́na, organismo al
que pertenece y secuencia de aminoácidos.
6 En algunas secuencias de aminoácidos existen posiciones dudosas, en
estos casos lo más práctico es descartar las correspondientes proteı́nas.
De psd7003.xml se extrae con facilidad psd7003, un fichero de texto
plano formado por sucesivas lı́neas de texto. Cada tres lı́neas de texto
UniProt. Caracterı́sticas generales —— 5
definen una proteı́na:
1.- Nombre completo de la proteı́na.
2.- Nombre cientı́fico del organismo al que pertenece la proteı́na,
incluyendo los diferentes taxones a los que pertenece el organismo.
3.- Secuencia de aminoácidos de la proteı́na (códigos de una letra).
El número total de proteı́nas de psd7003 es de 203860, con un número
total de aminoácidos de 74076302. Suficiente para la mayorı́a de los
cálculos de redundancia.
7 La segunda base de datos utilizada es uniprot sprot.xml, extraı́da de
los 808 MB del fichero comprimido uniprot sprot.xml.gz, disponible en
la página uniprot.org/downloads. Uniprog.org ofrece libremente otros
recursos e instrumentos relacionados con la proteómica.
UniProt. Caracterı́sticas generales
8 La descompresión del fichero uniprot sprot.xml.gz genera el fichero
uniprot sprot.xml de 5,8 GB. De ahı́ se extrae UniProt, con los mismos criterios y objetivos que psd7003. También aquı́ se han eliminado
todas las proteı́nas cuyas secuencias de aminoácidos presentan algunas
posiciones dudosas. El resultado final es un fichero de texto plano de
202 MB en el que cada tres lı́neas de texto contiene la información
apropiada sobre cada una de las proteı́nas:
1.- Nombre completo de la proteı́na.
2.- Nombre cientı́fico del organismo al que pertenece la proteı́na,
incluyendo los diferentes taxones a los que pertenece el organismo.
3.- Secuencia de aminoácidos de la proteı́na (códigos de una letra).
6 —— La base de datos UniProt
9 UniProt contiene 483418 proteı́nas con 163636331 aminoácidos, una
cantidad más que suficiente para el tipo de investigación estadı́stica
que realizamos aquı́. Además, los resultados obtenidos con psd7003
son compatibles con los obtenidos a partir de UniProt, lo que confirma
las conclusiones del estudio. UniProt simplemente mejora la precisión
y la confianza de los cálculos.
10 Considerando todos los organismos incluidos en UniProt, tendrı́amos
los siguientes datos:
-
Número total de proteı́nas...........483418
Número total de aminoácidos......163636331
Número de especies....................9124
Secuencia mı́nima de aminoácidos.........30
Secuencia máxima de aminoácidos......13100
Secuencia media de aminoácidos.........338,5
Desviación tı́pica del no de aa.........276,2
11 Para el caso de los virus:
Número total de proteı́nas.........14187
Número total de aminoácidos.....5983070
Número de especies..................751
Secuencia mı́nima de aminoácidos......30
Secuencia máxima de aminoácidos....4036
Secuencia media de aminoácidos......421,7
Desviación tı́pica del no de aa......454,3
12 Para el caso Archaea:
Número total de proteı́nas.........18139
Número total de aminoácidos.....5212818
Número de especies..................143
UniProt. Caracterı́sticas generales —— 7
Secuencia mı́nima de aminoácidos......31
Secuencia máxima de aminoácidos....9159
Secuencia media de aminoácidos......287,4
Desviación tı́pica del no de aa......196,6
13 Para el caso Bacteria:
Número total de proteı́nas........314799
Número total de aminoácidos....98199016
Número de especies.................1722
Secuencia mı́nima de aminoácidos......30
Secuencia máxima de aminoácidos...10746
Secuencia media de aminoácidos......312
Desviación tı́pica del no de aa......217
14 Para el caso Eukaryota:
Número total de proteı́nas........136293
Número total de aminoácidos....54241427
Número de especies.................6508
Secuencia mı́nima de aminoácidos......30
Secuencia máxima de aminoácidos...13100
Secuencia media de aminoácidos......398
Desviación tı́pica del no de aa......359,3
15 Para el caso Mammalia:
Número total de proteı́nas.........43163
Número total de aminoácidos....17639176
Número de especies.................1698
Secuencia mı́nima de aminoácidos......30
Secuencia máxima de aminoácidos....5596
Secuencia media de aminoácidos......408,6
8 —— La base de datos UniProt
Desviación tı́pica del no de aa......356,5
16 Para el caso Homo sapiens:
Número total de proteı́nas..........7385
Número total de aminoácidos.....2849090
Número de especies....................1
Secuencia mı́nima de aminoácidos......31
Secuencia máxima de aminoácidos....5596
Secuencia media de aminoácidos......385,8
Desviación tı́pica del no de aa......377,6
17 Naturalmente, UniProt contiene proteı́nas hipotéticas derivadas de
la secuenciación de genes que aún no han sido observadas como tales
proteı́nas funcionales. En concreto UniProt contiene 41549 proteı́nas
declaradas como:
Probables: 13983
No caracterizadas: 14638
Putativas: 12928
En el capı́tulo siguiente se expondrán las razones por las que conviene
hacer análisis estadı́sticos que las incluyan y análisis estadı́sticos que
no las incluyan.
18 A partir de UniProt se ha construido RandomUniProt, un reflejo
aleatorio de UniProt. RandomUniProt es idéntica a UniProt, aunque
aquı́ las secuencias de aminoácidos son generadas aleatoriamente, teniendo en cuenta el número de codones que codifican a cada aminoácido. La secuencia (aleatoria) de aminoácidos de cada proteı́na de RandomUniProt tiene el mismo número de aminoácidos que su correspondiente reflejo natural en UniProt. Se mantiene también el nombre del
correspondiente organismo para poder hacer análisis comparativos en
Sobre la idoneidad de UniProt —— 9
Virus, Archaea, Bacteria y Eukaryota. Puesto que no se usan los nombres de las proteı́nas, en RandomUniProt todas las proteı́nas tienen el
mismo nombre, a saber: ’Random’.
Sobre la idoneidad de UniProt
19 Una base de datos con cerca de medio millón (483418) de proteı́nas que incluyen más de ciento sesenta y tres millones de aminoácidos
(163636311) es más que suficiente para el tipo de análisis estadı́stico
que desarrollamos aquı́ (en el capı́tulo siguiente, que trata sobre los
métodos de estudio, se explican los detalles):
Frecuencia relativa y redundancia de aminoácidos.
Ídem de dipéptidos.
Ídem de tripéptidos.
Ídem de tetrapéptidos.
Redundancia interna de micropéptidos (hasta 10 residuos).
Redundancia externa de micropéptidos (hasta 10 residuos).
Se trata por tanto de una base de datos idónea desde el punto de
vista estadı́stico. La idoneidad se confirma con los análisis equivalentes
realizados con las proteı́nas aleatorias de RandomUniProt y con las
expectativas deducibles de los cálculos teóricos. En la mayorı́a de los
casos se asegura una precisión de dos y hasta tres cifras decimales.
20 Discutiremos ahora brevemente la idoneidad biológica de UniProt.
Su representatividad como proteoma de la biosfera. Naturalmente, la
base de datos original uniprot sprot.xml no fue concebida para realizar
el tipo de análisis que realizamos aquı́, ni ningún otro tipo particular de
análisis estadı́stico. En este sentido la adecuación biológica de UniProt
a nuestro objetivo (el estudio de la redundancia interna y externa en el
proteoma biosférico) podrı́a ser mayor o menor. Además, la idoneidad
biológica podrı́a entenderse desde el punto de vista de la biomasa o de
la biodiversidad.
10 —— La base de datos UniProt
21 De las 483418 proteı́nas de UnitProt, 314799 corresponden a Bacteria, 18139 a Archaea, 14187 a Virus y 136293 a Eukaryota. La abundancia relativa de las bacterias es un pálido reflejo de su abundancia
relativa en la biomasa de la biosfera (su abundancia en relación con la
biomasa del resto de los organismos). Y peor es el caso de Archaea y
Virus. Eukaryota, por el contrario, está excesivamente representada en
la base de datos si atendemos a su biomasa relativa en la biosfera.
22 El número de especies catalogas varı́a con los diferentes autores,
la cifra seguramente es superior a 1700000. El desacuerdo es mayor en
el caso de la estimación del número total de especies, catalogadas y no
catalogadas. En este caso el número oscila entre 4 y más de 50 millones.
23 Una muestra de proteı́nas de 9124 especies podrı́a ser representativa si la muestra se hubiera elegido con criterios de representación
apropiados, lo que no ha sido el caso de UniProt. Ahora bien, conviene
recordar que las diferentes proteı́nas secuenciadas que recoge UniProt
provienen de numerosos equipos de investigación que persiguen objetivos muy diferentes. Esa diversidad de fines otorga a la muestra suficiente diversidad como para considerar que sı́ tiene al menos un cierto
carácter representativo.
24 De lo que se acaba de indicar se puede inferir que la muestra de
proteı́nas de UniProt no es la más apropiada desde el punto de vista
de su representatividad de la biomasa y de la diversidad de la biosfera.
Pero falta un detalle muy importante que hay que tener en cuenta:
el origen común de todos los seres vivos y sus estrechas relaciones de
parentesco evolutivo, sobre todo a la escala biomolecular. Un hecho
que confiere a UniProt la suficiente representatividad como para que
nuestras conclusiones sobre el análisis estadı́stico de la redundancia
interna y externa en las secuencias de aminoácidos de las proteı́nas
sean significativas.
Sobre la idoneidad de UniProt —— 11
25 Como veremos algunas de esas conclusiones son particularmente
interesantes desde el punto de vista de los procesos dinámicos de flujo
de la información genética en todos los seres vivos, particularmente en
los eucariotas, y dentro de ellos en los mamı́feros.
12 —— La base de datos UniProt
3.-Objetivos y métodos de estudio
Introducción
26 En este capı́tulo se introducen y explican los objetivos de nuestro
trabajo y los correspondientes métodos de estudio aplicados, teóricos
e informáticos. El objetivo principal del trabajo es el análisis de la
redundancia (véase más abajo) en las secuencias de aminoácidos de
las proteı́nas. El estudio fue motivado por la búsqueda de patrones
y mecanismos de cambio de la información genética diferentes de las
conocidas mutaciones.
27 En los primeros años 1980s (época de la primera versión de este trabajo) aún dominaba el llamado Dogma Central de la Biologı́a Molecular
(un gen, una proteı́na). Como es sabido, la única fuente considerada
para explicar los cambios en la información genética eran los diferentes
tipos de mutaciones. Aunque ya habı́a sospechas de otros mecanismos
[7], [8] esos mecanismos alternativos merecieron escasa consideración y
respeto.
28 Como veremos, el análisis de la redundancia en las secuencias
de aminoácidos de las proteı́nas revela de forma inequı́voca que han
de existir otros mecanismos sistemáticos responsables de alteraciones
significativas en la información genética. Mecanismos que seguramente están relacionados con la movilidad y la reinserción repetitiva de
pequeños fragmentos de información.
13
14 —— Objetivos y métodos de estudio
29 Como también veremos, los cálculos teóricos y los procedimientos
informáticos de exploración y recuento son muy sencillos y fiables. Y como suele ocurrir en la exploración estadı́stica de cantidades importantes
de datos, aquı́ también se desvelarán algunos detalles significativos.
Redundancia externa e interna
30 Como se sabe desde hace más de un siglo, las proteı́nas son polı́meros lineales de aminoácidos (los polı́meros ramificados, o proteinoides,
pudieron ser importantes en los tiempos abiogénicos [3], [2] pero finalmente no se incorporaron a la biosfera) unidos por enlaces peptı́dicos,
enlaces entre el grupo carboxilo de un aminoácido y el grupo amino
del siguiente. Los polı́meros ası́ formados se llaman péptidos o cadenas
peptı́dicas.
31 Las proteı́nas están formadas por una o más cadenas peptı́dicas. La secuencia de aminoácidos que define la cadena peptı́dica es la
estructura primaria del péptido. Esa estructura primaria es determinante en la conformación espacial definitiva que adquirirá la cadena de
aminoácidos. La conformación espacial, a su vez, determina la capacidad funcional de los péptidos y las proteı́nas.
32 El tamaño de los polı́meros protéicos es muy variable, desde unas
pocas decenas a varios miles de aminoácidos. La más pequeña de las
proteı́nas de UniProt contiene 30 residuos (aminoácidos) y la mayor
13100, con un tamaño medio de 338,5 residuos (término que hace referencia al aminoácido ya incorporado en una cadena peptı́dica mediante
uno o dos enlaces peptı́dicos, tiene sentido usarlo porque el aminoácido
incorporado peptı́dicamente ya no es un aminoácido completo).
33 Existen veintitrés aminoácidos proteinogénicos, de los cuales solo veinte están directamente codificados por los genes del material
genético celular (los otros tres necesitan ciertas intervenciones post-
Redundancia externa e interna —— 15
traducción). De esos veinte aminoácidos nos ocuparemos aquı́. Haremos
también un análisis similar de los correspondientes 400 dipéptidos, 8000
tripéptidos y 160000 tetrapéptidos. Micropétidos de hasta 10, o incluso
más, residuos serán también analizados, aunque con diferentes métodos
y objetivos. Para facilitar la exposición hablaremos de micropéptidos
de uno a diez residuos para referirnos a tanto a los residuos individuales como a las cadenas peptı́dicas de dos a diez residuos, que son el
objetivo de nuestro trabajo.
34 Los veinte aminoácidos están codificados por 61 codones (trinucleótidos), lo que significa que caben a más de un codón por aminoácido
(véase la tabla 3.1). Pero el reparto no es equitativo: algunos aminoácidos se codifican con seis codones (por ejemplo serina o arginina) mientras que a otros le corresponde un solo codón (triptófano y metionina).
Una de las cuestiones que abordaremos en el capı́tulo siguiente es si
la frecuencia observada de los aminoácidos en las proteı́nas refleja adecuadamente esas diferencias en sus correspondientes codificaciones.
Tabla 3.1
Aminoácido
Sı́mbolos
Ácido glutámico
Lisina
Ácido aspártico
Metionina
Alanina
Isoleucina
Asparagina
Fenilalanina
Glutamina
Glicina
Valina
Leucina
Tirosina
Treonina
Histidina
Glu,
Lys,
Asp,
Met,
Ala,
Ile,
Asn,
Phe,
Gln,
Gly,
Val,
Leu,
Tyr,
Thr,
His,
E
K
D
M
A
I
N
F
Q
G
V
L
Y
T
H
No codones
2
2
2
1
4
3
2
2
2
4
4
6
2
4
2
Codones
GAA,
AAA,
GAU,
AUG
GCU,
AUU,
AAU,
UUU,
CAA,
GGU,
GUU,
UUA,
UAU,
ACU,
CAU,
GAG
AAG
GAC
GCC,
AUC,
AAC
UUC
CAG
GGC,
GUC,
UUG,
UAC
ACC,
CAC
GCA, GCG
AUA
GGA, GGG
GUA, GUG
CUU, CUC, CUA, CUG
ACA, ACG
16 —— Objetivos y métodos de estudio
Tabla 3.1
Aminoácido
Sı́mbolos
Prolina
Triptófano
Serina
Arginina
Cisteı́na
Pro,
Trp,
Ser,
Arg,
Cys,
No codones
P
W
S
R
C
4
1
6
6
6
Codones
CCU,
UGG
UCU,
CGU,
UGU,
CCC, CCA, CCG
UCC, UCA, UCG, AGU, AGC
CGC, CGA, CGG, AGA, AGG
UGC
Tabla 3.1: Código genético de los 20 aminoácidos proteinogénicos.
35 En una cadena de, por ejemplo, 200 aminoácidos hecha con 20
aminoácidos, cada residuo se repetirá un cierto número de veces (aunque también puede ocurrir que falte alguno). Lo mismo ocurrirá con la
mayorı́a de los 400 dipéptidos, aunque en este caso es más probable la
ausencia de algunos dipéptidos. Naturalmente la probabilidad de las repeticiones de los micropéptidos disminuye rápidamente con su tamaño,
con el número de residuos del micropéptido.
36 El número de repeticiones de un micropéptido en una proteı́na
define la redundancia interna de ese micropéptido. Aquı́ analizaremos
la redundancia de micropéptidos de uno a diez residuos en la base de
datos UniProt. Analizaremos también las veces que un micropéptido
determinado se repite en las diferentes proteı́nas de UniProt, esa será la
redundancia externa del micropéptido.
37 Además de analizar la redundancia interna y externa de las 483418
proteı́nas de todos los organismos incluidos en UniProt, se hará lo mismo con las proteı́nas de los cuatro grandes de organismos incluidos en
UniProt:
1.- Virus (14187 proteı́nas).
2.- Archaea (18139 proteı́nas).
3.- Bacteria (314799 proteinas).
Objetivos —— 17
4.- Eukaryota (136293 proteı́nas).
Se analizará también la redundancia en dos grupos más reducidos de
organismos: mamı́feros y Homo sapiens.
Objetivos
38 Los objetivos básicos de esta investigación son los siguientes:
1.- Buscar signos o huellas de mecanismos moleculares no convencionales que ocasionen cambios irreversibles en la información
genética.
2.- Buscar signos de disconformidad aleatoria en la evolución de
la información genética.
3.- Analizar la idoneidad del código genético.
Donde no convencionales significa que no se pueden identificar con las
mutaciones conocidas (puntuales, génicas, cromosómicas y genómicas).
Algunos de esos mecanismos ya son conocidos, como por ejemplo los
relacionados con la saltación y la transposición. Con signos de disconformidad aleatoria nos referimos a datos estadı́sticos imposibles de
explicar mediante el azar como única causa de los mismos.
39 En el camino hacia los objetivos básicos anteriores, se plantean los
siguientes objetivos concretos:
1.- Analizar la frecuencia absoluta y relativa de todos los aminoácidos, dipéptidos, tripéptidos y tetrapéptidos en cerca de medio
millón de proteı́nas (base de datos UniProt).
2.- Comparar esas frecuencias con las expectativas teóricas y con
las frecuencias medidas en bases de datos aleatorias (RandomUniProt, reflejo aleatorio de UniProt)
3.- Medir la redundancia interna de diferentes tipos de micropéptidos en las proteı́nas de UniProt.
18 —— Objetivos y métodos de estudio
4.- Medir la redundancia externa de diferentes tipos de micropéptidos en las proteı́nas de UniProt.
Métodos de estudio
40 Como en la mayorı́a de los análisis estadı́sticos, la operación básica es aquı́ también el recuento de ciertos elementos en una población
de datos. En nuestro caso los datos son proteı́nas naturales y proteı́nas
aleatorias (483418 en ambos casos) y los elementos contados: aminoácidos (20), dipéptidos (400,) tripéptidos (8000), tetrapéptidos (160000) y
todos los micropéptidos de hasta 10 residuos que pueden definirse en la
estructura primaria de cada proteı́na. A partir de ahora, y por simplificar la exposición, usaremos el término ’elementos básicos’ (EB) para
referirnos a los aminoácidos, dipéptidos, tripéptidos y tetrapéptidos.
41 Inicialmente, al menos para ciertos análisis, cabe considerar dos
posibilidades
Tratar separadamente las secuencias de aminoácidos de cada proteı́na.
Tratar todas las secuencias como una única secuencia formada
por la suma de las secuencias separadas de cada proteı́na.
Parece que la primera alternativa tiene más sentido biológico porque la
información genética evoluciona y se expresa en unidades discretas y la
eficacia funcional de sus expresiones, las proteı́nas, también se mide en
términos de unidades discretas. En este sentido la primera alternativa
podrı́a sintonizar mejor con nuestros objetivos. Aunque, por otra parte,
los organismos se reproducen y evolucionan como totalidades genéticas y proteómicas. En cualquier caso, hemos realizado ambos tipos de
análisis y las diferencias no son muy significativas, ambas apuntan con
claridad hacia las mismas conclusiones.
Métodos de estudio —— 19
42 A pesar de la evolución discreta de las unidades de información
(genes) y de las unidades funcionales (proteı́nas), en la segunda alternativa quizás se manifiesten con mayor claridad ciertos rasgos repetitivos
de los EB en las secuencias aminoácidos que tienden a pasar desapercibidas en las proteı́nas individuales, sobre todo en las de menor tamaño.
La segunda alternativa es también interesante para investigar la redundancia externa e interna de micropéptidos, que no solo se repiten en
las proteı́nas individuales sino que además se repiten en las diferentes
proteı́nas.
43 Como se indicó en el capı́tulo anterior, UniProt contiene 41549
proteı́nas hipotéticas, derivadas de las secuencias de trinucleótidos de
los genes secuenciados que no han sido completamente identificadas
como tales proteı́nas. Por una parte hemos analizado la base completa
de todas las proteı́nas, hipotéticas y no hipotéticas, porque estamos
interesados en la evolución de la información genética inscritas en los
ácidos nucleicos, no en las proteı́nas, aunque las proteı́nas son esenciales
en todos los procesos de flujo de la información (cierre semántico [6]).
Por otra parte se podrı́an realizar análisis que excluyan a las proteı́nas
hipotéticas cuando se busquen datos relativos a las proteı́nas identificadas y cuando interese contrastar los datos de ambos tipos de análisis.
Los datos recogidos en este trabajo incluyen a todas las proteı́nas.
44 Nuestro análisis puede considerarse dividido en tres partes. En la
primera se analizan la frecuencia y la redundancia de los EB en las
proteı́nas de UniProt, de acuerdo con las alternativas descritas en 41.
En la segunda se analiza la redundancia interna de micropéptidos de
hasta diez residuos. En la tercera parte se analiza la frecuencia y la
redundancia de algunos micropéptidos de más de diez residuos.
45 De cada EB se ha calculado su:
1.- Frecuencia: número de veces que aparece en todas las pro-
20 —— Objetivos y métodos de estudio
teı́nas divido por el número total EB de ese tipo (aminoácidos,
dipéptidos, tripéptidos y tetrapéptidos) en todas las proteı́nas.
2.- Frecuencia relativa: frecuencia dividida por la frecuencia teórica (probabilidad de cada EB, que se calcula en función del
número de codones de cada aminoácido de los que componen
el EB).
3.- Redundancia interna Frecuencia dividida por el número de
proteı́nas en el que aparece el EB.
4.- Redundancia relativa: redundancia interna dividida por la redundancia teórica (calculada a partir de su probabilidad y del
tamaño (número de aminoácidos) de la proteı́na).
46 Aunque los conceptos de frecuencia y frecuencia relativa son suficientemente claros, no ocurre los mismo con los de redundancia y
redundancia relativa de los EB. La redundancia de un EB en una proteı́na es sencillamente el número de veces que aparece repetido en esa
proteı́na. Para calcular la redundancia media de un EB, calculamos primero el número total de repeticiones de ese EB en todas las proteı́nas
y luego dividimos el número total de repeticiones por el número de
proteı́nas diferentes en las que se repite. Para calcular la redundancia
relativa de un EB dividimos su redundancia media por su redundancia
teórica, que es el número que resulta de multiplicar la probabilidad del
EB por el número de aminoácidos de la proteı́na.
47 En el recuento de los EB se consideran todos los EB posibles que
se pueden distinguir al recorrer linealmente la proteı́na. Por ejemplo,
en la cadena peptı́dica:
MKIGHHGERTAGGEDETRAS
(1)
se considerarı́an los (EB) tripéptidos MKI, KIG, IGH, GHH, . . . RAS.
Métodos de estudio —— 21
Lo mismo vale para micropéptidos mayores que los EB.
48 En el análisis de la redundancia interna de un micropéptido, por
ejemplo de un tetrapéptido, se consideran los sucesivos micropéptidos
de acuerdo con lo indicado en 47. En el ejemplo anterior serı́an MKIG,
KIGH, IGHH . . . TRAS. Para calcular la redundancia de cada uno de
ellos, por ejemplo de KIGH, lo compararı́amos con todos los posibles
micropéptidos del mismo tamaño que se pueden distinguir a partir del
primer residuo que sigue al micropéptido considerado, en nuestro caso
con HGER, GERT, ERTA, . . . TRAS, y contarı́amos cada una de las
coincidencias.
49 Para evaluar el grado de confianza de las medidas estadı́sticas,
todos los análisis realizados con UniProt se han realizado también con
su equivalente aleatorio RandomUniProt y se han contrastado con las
expectativas teóricas cuando esas expectativas teóricas se han podido
calcular.
50 Además del análisis de UniProt, se han realizado también análisis equivalentes con ciertas partes de UniProt, como son las proteı́nas
correspondientes a:
1.- Virus.
2.- Archaea.
3.- Bacteria.
4.- Eukaryota.
5.- Mammalia
6.- Homo sapiens.
51 Huelga decir que un análisis estadı́stico de la envergadura del realizado aquı́ solo es posible con instrumentos informáticos, aunque no
22 —— Objetivos y métodos de estudio
necesariamente de una elevada potencia de cálculo, puede servir cualquier ordenador portátil. Incluso con equipos domésticos, la mayorı́a
de los procedimientos se resuelven en unos pocos minutos, aunque en
algunos otros se consumen varias horas.
4.-Redundancia de aminoácidos
Introducción
52 La frecuencia de los aminoácidos en las proteı́nas se ha ido conociendo con precisión creciente a medida que ha ido aumentando el
número de proteı́nas analizadas y el número de proteı́nas deducidas
de la secuenciación de genes y genomas. Hoy disponemos de datos
aceptables, no solo de la frecuencia de los aminoácidos en el proteoma
biosférico sino también de su frecuencia en ciertos grupos particulares
de organismos como los virus, las bacterias o el Homo sapiens.
53 Pero llama la atención el escaso interés que se presta a la notable
cuestión sobre si las frecuencias encontradas son las que se esperaban
desde el punto de vista teórico, asumiendo la evolución aleatoria de la
información genética. En la inmensa mayorı́a de textos universitarios
la cuestión simplemente se ignora, o se trata de pasada con vagas referencias al acuerdo de los datos con las expectativas. En las tablas
de frecuencias que aparecen en esos textos nunca (hasta donde yo se)
aparecen frecuencias relativas, las frecuencias que se obtienen dividiendo la frecuencia encontrada de cada aminoácido por su probabilidad
teórica deducida a partir del número de codones que se expresan en
cada aminoácido, número que como sabemos varı́a de 1 a 6 (sin incluir
el 5).
54 El interés del análisis que se ofrece en este capı́tulo es doble. Por
23
24 —— Redundancia de aminoácidos
una parte, el interés de una análisis de frecuencias e aminoácidos realizado en una base de datos de cerca de medio millón de proteı́nas que
incluyen más de 163 millones de residuos de aminoácidos. El análisis,
además, se contrasta con el análisis de una variante aleatoria de la misma base de datos del que se obtiene una estimación de la precisión de
los datos que alcanza la tercera cifra decimal.
55 Por otra parte el interés, mucho más notable en mi opinión, del
análisis de las frecuencias relativizadas. Veremos desviaciones muy significativas de los datos encontrados con respecto a los esperados. Tan
significativas que son imposibles de explicar por fluctuaciones aleatorias, de modo que el simple azar es insuficiente para explicarlas.
Habrá que plantear mecanismos restrictivos de ı́ndole fı́sico-quı́mica
o biológica que den cuenta de esas desviaciones.
56 Como colofón casi inevitable del capı́tulo se incluye una breve
discusión sobre la evolución y la idoneidad del actual código genético,
comparando la actual asignación de códigos con la que cabrı́a esperar
de un máximo ajuste o acuerdo con los datos estadı́sticos.
Frecuencia de los aminoácidos
57 El cálculo de la frecuencia de los aminoácidos en las proteı́nas de
UniProt no presenta dificultad alguna: se recorren las sucesivas secuencias de aminoácidos de sus proteı́nas y se cuenta el número de veces que
cada aminoácido aparece en ellas. Ese número de veces se divide luego
por el total de elementos (aminoácidos) recorridos. Hay dos formas de
llevar a cabo el recuento:
1) Proteı́na a proteı́na: en este caso se calcula la frecuencia de
cada aminoácido en cada una de las proteı́nas y luego el resultado se divide por el número de proteı́nas analizadas para
obtener la frecuencia media de cada aminoácido.
Frecuencia de los aminoácidos —— 25
2) Como una única proteı́na: ahora se calcula el número de veces
que cada aminoácido aparece en cada una de las proteı́nas y
luego ese número se divide por el número total de aminoácidos de todas las proteı́na para calcular la frecuencia de cada
aminoácido en la base de proteı́nas, como si la base fuese una
sola proteı́na.
Lo mismo vale para el resto de EB (dipéptidos, tripéptidos y tetrapéptidos).
58 Como es bien sabido, cada aminoácido tiene asignada una letra
mayúscula como sı́mbolo (existen también sı́mbolos de tres letras para
cada aminoácido). En consecuencia las secuencias de proteı́nas se representan mediante cadenas de texto de longitud variable en las que
el texto está siempre formado por las mismas veinte letras mayúsculas
diferentes. Una cadena peptı́dica serı́a, por ejemplo:
MKIRVHEPEEHKKLLAWEAS
59 En todos los lenguajes de programación existen funciones de búsqueda de subcadenas en cadenas de texto de mayor tamaño. Esas funciones
permiten una programación compacta (y muy eficiente) para llevar a
cabo el tipo de recuento que hemos realizado aquı́. Por ejemplo, las
lı́neas de código:
for (i = 1; i ¡= Seq.Length - (BELength - 1); i++) {
ind = Array.IndexOf(Symbol, Strings.Mid(Seq, i, BELength))
ThisProteinFreq(ind) += 1
}
calculan el número de veces que cada una de las subcadenas de texto
de longitud BELength contenidas en la matriz Symbol, aparecen en
la cadena de texto Seq. Naturalmente Seq puede ser la secuencia de
aminoácidos de una proteı́na (una letra por aminoácido) y Symbol una
26 —— Redundancia de aminoácidos
matriz que contiene los sı́mbolos de, por ejemplo, los 20 aminoácidos,
o los 400 sı́mbolos de dos letras de los 400 dipéptidos proteinogénicos.
60 En las tablas de los cinco últimos capı́tulos se exponen los resultados finales de todos los análisis de frecuencia y redundancia realizados
con los EB y otros micropéptidos. En esta sección expondremos y comentaremos solo los datos de las frecuencias relativas de los aminoácidos, tanto en UniProt como en RandomUniProt. Como veremos, el
contraste entre ambos conjuntos de datos es muy notable y es prácticamente imposible explicarlo en términos puramente estadı́sticos.
61 La frecuencia relativa de un EB expresa lo que su comportamiento
estadı́stico se desvı́a del comportamiento esperado en términos teóricos:
la frecuencia relativa de una aminoácido es su frecuencia real dividida
por su frecuencia teórica o probabilidad. Y puesto que la probabilidad
es siempre menor que 1, la suma de las frecuencias relativas, al contrario
de lo que ocurre con las frecuencias, puede ser mayor que uno.
62 La frecuencia relativa de un EB será tanto mayor cuanto mayor
sea la desviación positiva de su frecuencia con respecto a su probabilidad (frecuencia teórica), y tanto menor cuanto mayor sea la desviación
negativa de su frecuencia con respecto a su probabilidad, donde desviación positiva significa valores mayores que los esperados y desviación
negativa valores menores de los esperados.
63 Existen 64 codones distintos (trinucleótidos) y 20 aminoácidos que
codificar. Además, tres de los 64 codones codifican puntos finales en las
secuencias de nucleótidos. Los 61 restantes se reparten entre los veinte
aminoácidos, pero no de una manera equitativa: el número de codones
que corresponde a un aminoácido puede ser 1, 2, 3, 4 ó 6. Podrı́amos
discutir si la probabilidad (frecuencia teórica) de un aminoácido con N
codones es N/61 ó N/64. Hechos los recuentos, los resultados son casi
Frecuencia de los aminoácidos —— 27
los mismos para ambas alternativas y, en consecuencia, las conclusiones
finales serán idénticas. Aquı́ expondremos los resultados para el caso
N/61 porque 61 es el número de codones que codifican para los 20
aminoácidos analizados.
64 En la Tabla 4.1 se comparan las frecuencias relativas de los aminoácidos de las proteı́nas naturales de UniProt con los aminoácidos de las
proteı́nas aleatorias de RandomUniProt. Como puede verse, la desviación tı́pica (S.D) en el caso de las proteı́nas naturales es 1259,5 veces
mayor que en el caso de las proteı́nas aleatorias. Una diferencia imposible de explicar en términos estadı́sticos. Nótese que en el caso de las
proteı́nas aleatorias la frecuencia de sus aminoácidos apenas se distinguen en la tercera cifra decimal. La diferencia entre la máxima y la
mı́nima de esas frecuencias relativas es de 0.001258, mientras que en
el caso de las proteı́nas naturales es de 1,598892, y por lo tanto 1271
veces mayor.
Tabla 4.1
Aminoácidos
proteinogénicos
Proteı́nas
naturales
Proteı́nas
aleatorias
Ácido glutámico
Lisina
Ácido aspártico
Metionina
Alanina
Isoleucina
Asparagina
Fenilalanina
Glutamina
Glicina
Valina
Leucina
Tirosina
Treonina
Histidina
2,024570
1,902948
1,621299
1,563094
1,305299
1,262937
1,200812
1,174353
1,138860
1,097778
1,090396
0,973415
0,878584
0,800979
0,675667
1,049096
1,049062
1,048666
1,049659
1,049529
1,048972
1,048914
1,049160
1,049282
1,049173
1,049773
1,049025
1,049567
1,049428
1,049242
Núm. de
codones
2
2
2
1
4
3
2
2
2
4
4
6
2
4
2
28 —— Redundancia de aminoácidos
Tabla 4.1
Aminoácidos
proteinogénicos
Proteı́nas
naturales
Proteı́nas
aleatorias
Núm. de
codones
Prolina
Triptófano
Serina
Arginina
Cisteı́na
0,669555
0,627643
0,616173
0,591051
0,425678
1,049924
1,049700
1,049230
1,048808
1,049753
4
1
6
6
2
Total
Media
D. tı́pica
21,641090
1,082055
0,444621
20,985960
1,049298
0,000353
61
3.05
1,605090
Tabla 4.1: Frecuencia relativa de los aminoácidos en las proteı́nas naturales de UniProt comparada con la misma frecuencia en las proteı́nas
aleatorias de RandomUniProt. Número de proteı́nas: 483418. Número
de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 338,5 residuos. Tipo de
análisis: cada proteı́na. Todos los organismos. Número de especies: 9124.
65 Es muy destacable la elevada frecuencia relativa de los aminoácidos:
- Ácido glutámico: 2,024570
- Lisina: 1,902948
- Ácido aspártico: 1,621299
- Metionina: 1,563094
Y la baja frecuencia relativa de:
- Serina: 0,591051
- Arginina: 0,425678
- Cisteı́na: 0,425678
66 Sabemos bien que todos los aminoácidos tienen un carbono alfa
(Cα ) cuyos cuatro enlaces se saturan con cuatro grupos atómicos diferentes. De esos cuatro grupos atómicos, tres son siempre los mismos en
Frecuencia de los aminoácidos —— 29
Figura 4.1: Frecuencia relativa de los aminoácidos en las proteı́nas naturales de UniProt en relación y en las proteı́nas aleatorias de RandomUniProt, representada esta última por la lı́nea horı́zontal Fr = 1.
todos los aminoácidos: un grupo amino (H2 N −), un grupo carboxı́lico
(−COOH) y un hidrógeno (−H). El grupo amino y el grupo carboxilo
forman el eje peptı́dico de las proteı́nas. El cuarto grupo atómico (la
cadena lateral −R), que no participa en el eje peptı́dico, es distinto en
cada aminoácido, y es el que le confiere sus propiedades fı́sico-quı́micas
caracterı́sticas.
67 Sabemos también que la secuencia de aminoácidos (estructura primaria) es determinante para la configuración espacial final de la cadena
30 —— Redundancia de aminoácidos
peptı́dica, sea esta, o no, espontánea. Y que la conformación espacial
es, a su vez, determinante para la funcionalidad de la proteı́na. La distribución lineal de los grupos −R de cada aminoácido juega entonces
un papel esencial en la estructura y función de las proteı́nas.
68 En este sentido, las fuertes desviaciones estadı́sticas positivas y
negativas de las frecuencias relativas de los aminoácidos en las proteı́nas que se muestran en la Tabla 4.1 y en la Figura 4.1 solo pueden
explicarse en términos de presión selectiva positiva y negativa sobre los
correspondientes aminoácidos.
69 Aunque explicar esa presión selectiva en términos de las propiedades fı́sico-quimicas de las cadenas laterales de los aminoácidos en tanto
que implicadas en la estructura y función de las proteı́nas, es cualquier
cosa menos evidente. Hay que tener en cuenta que esas cadenas varı́an
en:
- Forma.
- Tamaño.
- Carga eléctrica.
- Capacidad de formar puentes de hidrógeno.
- Capacidad de formar enlaces disulfuro.
- Propiedades hidrofóbicas / hidrofı́licas.
- Reactividad quı́mica.
70 La conclusión que sı́ podemos sacar aquı́ es que el código genético, aunque sobradamente funcional, no es el código óptimo, el código
que producirı́a las menores desviaciones estadı́sticas en las frecuencias
relativas. O dicho con otras palabras, el código cuyos productos finales
(cadenas peptı́dicas y proteı́nas) más se aproximarı́a a las expectativas
teóricas basadas en las probabilidades de cada aminoácido, a su vez
función directa del número de códigos asignados por el código a cada
aminoácido.
Frecuencia de los aminoácidos —— 31
71 Podrı́a decirse también que el código genético ideal es el más funcional porque la evolución aleatoria de la información genética producirı́a proteı́nas en las que las frecuencias de los aminoácidos serı́an las
más parecidas a las expectativas teóricas, y su frecuencias relativas las
que más se aproximarı́an a la unidad. La Tabla 4.2 muestra el código genético ideal derivado de la frecuencia de los aminoácidos en las
proteı́nas de la base de datos UniProt.
Tabla 4.2
Aminoácidos
Leucina
Alanina
Glicina
Valina
Ácido glutámico
Serina
Isoleucina
Lisina
Arginina
Ácido aspártico
Treonina
Prolina
Asparagina
Fenilalanina
Glutamina
Tirosina
Metionina
Histidina
Cisteı́na
Trptófano
Total
Media
D. tı́pica
Frecuencia
real
Código
teórico
Código
ideal
Código
real
9,654961
8,425655
7,164989
6,965113
6,726853
6,336696
6,127532
5,850479
5,534758
5,515203
5,335600
4,557295
4,084007
3,884254
3,843612
2,945062
2,441242
2,242452
1,290198
1,074008
5,889681
5,139785
4,370759
4,248830
4,103488
3,865486
3,737893
3,568886
3,376291
3,364362
3,254802
2,780023
2,491310
2,369457
2,344665
1,796535
1,489196
1,367932
0,787042
0,655162
6
5
4
4
4
4
4
4
3
3
3
3
2
2
2
2
1
1
1
1
6
4
4
4
2
6
3
2
6
2
4
4
2
2
2
2
1
2
2
1
99,999960
4,999998
2,300427
61,001590
3,050079
1,403298
59,000000
2,950000
1,431782
61,000000
3,050000
1,605090
32 —— Redundancia de aminoácidos
Tabla 4.2
Aminoácidos
Frecuencia
real
Código
teórico
Código
ideal
Código
real
Tabla 4.2: Código genético ideal derivado de la frecuencia real de
los aminoácidos en la base de dato UniProt: 483418 proteı́nas con
163636331 aminoácidos pertenecientes a 9124 especies, incluidos virus,
bacterias, archaeas y eucariotas. Tipo de cálculo: Una proteı́na.
72 Con el código genético ideal, el análisis de la frecuencia relativa de
los aminoácidos da los resultados que se recogen en la primera columna
de la tabla 4.3. Como puede verse todos los valores están más próximos
a la unidad que en el caso del código genético real (columna de la
derecha). Nótese que la desviación tı́pica en el caso del código real es
más del doble que en el caso del código ideal. Naturalmente eso significa
un mayor esfuerzo selectivo en el caso del código genético real del que
serı́a necesario en el caso del código genético ideal.
Tabla 4.3
Aminoácidos
Metionina
Histidina
Asparagina
Fenilalanina
Glutamina
Arginina
Ácido aspártico
Glicina
Treonina
Valina
Alanina
Ácido glutámico
Leucina
Serina
Frec. relativa
código ideal
Frec. relativa
código real
1,489157
1,367896
1,245622
1,184698
1,172302
1,125401
1,121425
1,092661
1,084905
1,062180
1,027930
1,025845
0,981588
0,966346
1,489157
0,683948
1,245622
1,184698
1,172302
0,562700
1,682137
1,092661
0,813679
1,062180
1,284912
2,051690
0,981588
0,644231
Frecuencia de los aminoácidos —— 33
Tabla 4.3
Aminoácidos
Frec. relativa
código ideal
Frec. relativa
código real
Isoleucina
Prolina
Tirosina
Lisina
Cisteı́na
Trptófano
0,934449
0,926650
0,898244
0,892198
0,787021
0,655145
1,245932
0,694988
0,898244
1,784396
0,393511
0,655145
Total
Media
D. tı́pica
21,041660
1,052083
0,191048
21,623720
1,081186
0,436205
Tabla 4.3: Frecuencia relativa de los aminoácidos en la base de datos
UniProt calculada de acuerdo con el código genético ideal. Tipo de
cálculo: Una proteı́na. Nótese que la desviación tı́pica en el caso del
código real es más del doble que en el caso del código ideal.
73 Finalmente, hay que destacar el hecho de que el código genético
ideal, aunque es muy parecido, no es exactamente igual en los distintos
grupos examinados. El de Archaea es notoriamente distinto al de Bacteria y Eukaryota, como puede verse en la Tabla 4.4. Un código ideal
diferente en los diferentes grupos significa una diferente composición
en sus respectivos proteomas. Nótese que solo los aminoácidos arginina
(3), treonina (3), prolina (3), tirosina (2), histidina (1), cisteı́na (1) y
triptófano (1) tienen el mismo número de códigos en los tres grandes
grupos considerados.
Tabla 4.4
Aminoácidos
Leucina
Ácido glutámico
Valina
Alanina
Archaea
Bacteria
Eukaryota
Cod. real
5
5
5
5
6
4
5
6
6
4
4
4
6
2
4
4
34 —— Redundancia de aminoácidos
Tabla 4.4
Aminoácidos
Isoleucina
Glicina
Lisina
Ácido aspártico
Arginina
Serina
Treonina
Prolina
Asparagina
Fenilalanina
Tirosina
Metionina
Glutamina
Histidina
Cisteı́na
Triptófano
Total
Media
D. tı́pica
Archaea
Bacteria
Eukaryota
Cod. real
5
5
4
4
3
3
3
3
2
2
2
1
1
1
1
1
4
5
3
3
3
3
3
3
2
2
2
2
2
1
1
1
3
4
4
3
3
5
3
3
3
3
2
1
3
1
1
1
3
4
2
2
6
6
4
4
2
2
2
1
2
2
2
1
61
3,05
1,56
61
3,05
1,49
61
3,05
1,32
61
3.05
1,56
Tabla 4.4: Códigos genéticos ideales en Archaea, Bacteria y Eukaria.
Entre paréntesis el código genético de las correspondientes proteı́nas
aleatorias). Método de análisis: cada proteı́na.
74 Por el contrario, y como era de esperar, cuando se consideran
proteı́nas aleatorias en los tres grupos, Archaea, Bacteria y Eukaryota,
el código genético ideal es el mismo en los tres casos: el código genético
real usado para calcular la probabilidad de cada aminoácido (cuarta
columna numérica de la Tabla 4.4).
Redundancia de los aminoácidos
75 Puesto que existen 20 aminoácidos proteinogénicos diferentes y el
tamaño (número de residuos) de la inmensa mayorı́a de las proteı́nas
Redundancia de los aminoácidos —— 35
es mucho mayor de 20 (valor medio superior a 338 residuos en el caso
de UniProt), casi todos los aminoácidos se acaban repitiendo en casi
todas las proteı́nas. Por esta razón las medidas de redundancia interna
de los aminoácidos serán parecidas a las de su frecuencia. Aunque,
naturalmente, son medidas distintas que se calculan de manera distinta.
La redundancia interna de una aminoácido es el número medio de veces
que ese aminoácido se repite en cada una de las proteı́nas, en nuestro
caso en cada una de las proteı́nas de UniProt y RandomUniProt.
Figura 4.2: Redundancia relativa de los aminoácidos en las proteı́nas
naturales (cı́rculitos negros) de UniProt y en los aminoácidos de las
proteı́nas aleatorias (circulitos grises) de RandomUniProt. La redundancia de los aminoácidos de las proteı́nas aleatorias se distribuye en
cinco escalones horizontales correspondientes cada uno de ellos a los
aminoácidos con 1, 2, 3, 4 y 6 codones del código genético. La redundancia de los aminoácidos de las proteı́nas naturales presentan fuertes
desviaciones respecto a esos escalones.
36 —— Redundancia de aminoácidos
76 Como era de esperar, en las proteı́nas aleatorias las medidas de
redundancia en los aminoácidos se distribuye en forma de cinco escalones horizontales definidos por el número de codones asignados por
el código genético a cada aminoácido. Todos los aminoácidos con el
mismo número de codones (y por lo tanto con la misma probabilidad)
presentan la misma medida de redundancia. Es lo que se observa en la
figura 4.2 y en la tabla 4.5. Nótese el valor extremadamente bajo de la
desviación tı́pica: 0,000064.
Tabla 4.5
Aminoácido
Redundancia
relativa
Redundancia
absoluta
Trptófano
Metionina
Histidina
Glutamina
Valina
Leucina
Arginina
Glicina
Ácido glutámico
Lisina
Alanina
Serina
Cisteı́na
Isoleucina
Fenilalanina
Tirosina
Prolina
Ácido aspártico
Treonina
Asparagina
0,999989
0,999883
1,000024
1,000042
1,000055
1,000029
0,999993
0,999987
0,999865
1,000005
1,000014
1,000005
1,000082
0,999904
0,999963
1,000098
1,000001
0,999901
1,000058
0,999916
5,883404
5,879686
11,244590
11,240480
22,232060
33,306880
33,304790
22,230550
11,243060
11,242790
22,232360
33,306130
11,241000
16,719060
11,242840
11,242170
22,232570
11,241840
22,232650
11,243250
Total
Media
D. tı́pica
19,999810
0,999991
0,000067
340,742100
17,037110
8,826270
Redundancia de los aminoácidos —— 37
Tabla 4.5: Redundancia relativa y absoluta de los 20 aminoácidos en
las proteı́nas aleatorias de RandomUniProt. Método de análisis: cada
proteı́na.
77 Como puede verse en la misma figura, y observarse en la tabla
4.6, el comportamiento de los aminoácidos en las proteı́nas naturales
de UniProt es muy diferente. La mayorı́a de ellos presentan desviaciones importantes respecto a las expectativas teóricas. Esas desviaciones
son imposibles de explicar en términos puramente estadı́sticos. Como
veremos en los próximos capı́tulos la redundancia de los aminoácidos
en las proteı́nas es una consecuencia inevitable de la redundancia de
micropéptidos de dos o más residuos. Nótese que ahora la desviación
tı́pica de la redundancia relativa es 0,457949, es decir 6188,5 veces mayor que en el caso de las proteı́nas aleatorias.
Tabla 4.6
Aminoácido
Ácido glutámico
Lisina
Ácido aspártico
Metionina
Alanina
Isoleucina
Asparagina
Fenilalanina
Glutamina
Glicina
Valina
Leucina
Tirosina
Treonina
Histidina
Prolina
Trptófano
Redundancia
relativa
Redundancia
absoluta
2,051690
1,784396
1,682137
1,489157
1,284913
1,245932
1,245622
1,184698
1,172302
1,092661
1,062180
0,981588
0,898244
0,813679
0,683948
0,694988
0,655145
23,004530
19,963610
18,911470
8,301106
28,619120
20,866010
14,015370
13,367850
13,245640
24,331410
23,643920
32,772280
10,288640
18,160750
8,003811
15,623920
4,632117
38 —— Redundancia de aminoácidos
Serina
Arginina
Cisteı́na
0,644231
0,562700
0,393510
21,518220
18,866520
5,320808
Total
Media
D. tı́pica
21,623720
1,081186
0,436205
343,457100
17,172850
7,604870
Tabla 4.6: Redundancia relativa y absoluta de los 20 aminoácidos en
las proteı́nas naturales de UniProt. Método de análisis: cada proteı́na.
78 De nuevo resultan destacables las fuertes desviaciones positivas
del ácido glutámico (E), la lisina (K) y el ácido aspártico (D). Y las
desviaciones negativas de arginina (R), prolina (P), histidina (H) y
cisteı́na (C).
5.-Redundancia de dipéptidos y tripéptidos
Introducción
79 En este capı́tulo se examinan la frecuencia y la redundancia interna de los dipéptidos y tripéptidos en las proteı́nas de UniProt y
RandomUniProt. Aunque el número de dipéptidos diferentes (400) y el
de tripéptidos diferentes (8000) son claramente mayores que el número de aminoácidos diferentes (20), el tamaño de UniProt, y por tanto
de RandomUniProt, es suficientemente grande (más de 163 millones
de residuos) como para que la precisión de los cálculos estadı́sticos siga siendo significativa. En la mayorı́a de los casos las variaciones se
expresan a partir de la segunda o tercera cifra decimal.
80 Como se verá, las desviaciones positivas y negativas (sobre todo
las positivas) son mucho mayores que en el caso de los aminoácidos. Y
lo mismo ocurre con la redundancia interna. Hay variaciones también
en los datos de frecuencia y redundancia correspondientes a los distintos grupos considerados: Archaea, Bacteria, Eukaryota y Virus. Las
desviaciones más importantes, que puede ser cerca de treinta veces mayores de las expectativas teóricas, corresponden siempre a Eukaryota.
Lo que ya anuncia los resultados de la redundancia de micropéptidos
que veremos en el siguiente capı́tulo.
39
40 —— Redundancia de dipéptidos y tripéptidos
Frecuencia y redundancia relativas
81 El número de dipéptidos diferentes (400) es del orden de magnitud
del tamaño medio (número de residuos) de las proteı́nas, mientras que
su probabilidad media es del orden de 0.0008. Por su parte, el número de tripéptidos (8000) es claramente superior al tamaño medio de
las proteı́nas, mientras que la probabilidad media de un tripéptido es
0.00001. En estas condiciones es de esperar que los efectos de la redundancia, si existen, se manifiesten con mayor claridad que en el caso de
los aminoácidos. Como veremos, eso es exactamente lo que ocurre.
Figura 5.1: Frecuencia relativa de los dipéptidos en las proteı́nas naturales de UniProt comparada con la misma frecuencia en las proteı́nas
aleatorias (recta horizontal Fr ≈ 1) de RandomUniProt.
82 La Figura 5.1 muestra las fuertes desviaciones de las frecuencias
relativas de los dipéptidos de las proteı́nas naturales de UniProt comparada con la misma frecuencia en las proteı́nas de RandomUniProt,
la versión aleatoria de UniProt. Nótese que las desviaciones positivas
son bastante más notables que las negativas, el dipéptido EE alcanza
una desviación de su frecuencia relativa cinco veces superior a lo esperado en términos teóricos, lo que es imposible explicar por simples
Frecuencia y redundancia relativas —— 41
consideraciones estadı́sticas.
83 En los capı́tulos 12 y 13 se exponen las tablas de frecuencia y
redundancia relativas de los dipéptidos y tripéptidos en todos los organismos y en los grupos Archaea, Bacteria y Eukaryota (aunque solo se
exponen los treinta que sufren las desviaciones positivas mas fuertes y
los treinta que sufren las desviaciones negativas más importantes). En
la Tabla 5.2 de este capı́tulo se expone y comenta el caso correspondiente a todos los organismos.
Tabla 5.1
Dipéptido
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
EE
KK
EK
KE
DE
MK
ED
KD
ME
DK
EM
EI
DD
EA
IE
AE
EN
EQ
KN
KI
MA
IK
MM
AK
MD
ID
4,992191
4,799176
4,499742
4,224720
3,596615
3,418783
3,172202
2,945582
2,892102
2,872317
2,869384
2,829170
2,759097
2,734181
2,714757
2,704290
2,623441
2,615918
2,594225
2,515235
2,513322
2,424041
2,389865
2,387424
2,385083
2,379651
0,536651
0,515902
0,483713
0,454149
0,386629
0,183756
0,341005
0,316644
0,155448
0,308768
0,154227
0,456195
0,296597
0,587838
0,437746
0,581411
0,282015
0,281206
0,278874
0,405574
0,270177
0,390869
0,064226
0,513287
0,128196
0,383712
5,123930
4,140254
4,397487
4,165792
3,758457
2,924930
3,354291
2,979438
2,840932
2,822972
2,975516
2,789393
2,916480
2,720749
2,687842
2,652913
2,733113
2,651271
2,522937
2,347419
2,213750
2,266501
2,358842
2,194065
2,438996
2,422047
2,908596
2,529190
2,501615
2,500178
2,256279
1,401411
2,164484
2,022041
1,465419
1,931956
1,494781
2,336684
2,073569
2,757095
2,289828
2,722057
1,942946
1,885988
1,940813
2,200931
1,588714
2,144513
1,251446
2,360644
1,392223
2,154467
42 —— Redundancia de dipéptidos y tripéptidos
Tabla 5.1
Dipéptido
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
KA
NK
VE
KM
.
.
.
RT
SP
CY
SW
HR
HS
CC
CV
RW
LC
WS
WR
RP
CL
CP
CH
SR
TC
WP
PR
HC
RS
CT
WC
CS
CW
SC
CR
PC
RC
2,377729
2,368074
2,352405
2,323716
.
.
.
0,426107
0,425365
0,423991
0,415586
0,410002
0,408653
0,402771
0,398647
0,391217
0,384818
0,380716
0,380460
0,373217
0,369737
0,362473
0,361894
0,356980
0,353236
0,348246
0,343191
0,339188
0,332511
0,327516
0,317994
0,302817
0,294059
0,286602
0,264797
0,251578
0,238244
0,511202
0,254563
0,505758
0,124897
.
.
.
0,274834
0,274355
0,045578
0,067012
0,132223
0,131788
0,043297
0,085707
0,063083
0,124102
0,061389
0,061348
0,240720
0,119238
0,077930
0,038903
0,345372
0,075944
0,037436
0,221354
0,036462
0,321698
0,070415
0,017092
0,097657
0,015805
0,092427
0,085395
0,054088
0,076832
2,193489
2,280603
2,255527
2,268162
.
.
.
0,406727
0,464165
0,394290
0,446345
0,395244
0,429420
0,267530
0,382174
0,388602
0,382657
0,407148
0,399994
0,374221
0,365001
0,323190
0,332261
0,351300
0,331703
0,377322
0,339725
0,325516
0,329336
0,306159
0,295006
0,286612
0,294927
0,268014
0,224571
0,244629
0,209697
2,352404
1,865885
2,380200
1,385256
.
.
.
1,744983
2,029863
1,186463
1,294313
1,396836
1,467181
1,290137
1,307659
1,238557
1,444256
1,298076
1,256913
1,755977
1,443796
1,348857
1,171007
2,010930
1,330269
1,203743
1,707641
1,172324
1,962053
1,272206
1,111827
1,429711
1,101115
1,429507
1,282898
1,288481
1,285689
Total
Media
D. tı́pica
465,297200
1,163243
0,719313
100,008800
0,250022
0,172812
466,411400
1,166028
0,708574
710,927600
1,777319
0,497485
Frecuencia y redundancia relativas —— 43
Tabla 5.1
Dipéptido
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
Tabla 5.1: Frecuencia y redundancia de algunos dipéptidos: casos extremos de desviación positiva y de desviación negativa. Proteı́nas naturales
de UniProt. Tipo de análisis: cada proteı́na.
84 Como puede verse en la Tabla 5.2, los dipéptidos con una frecuencia relativa más alta contienen casi siempre ácido glutámico, lisina, ácido aspártico o metionina. Entre los que presentan una menor frecuencia relativa casi siempre contienen cisteı́na. Solo una acción selectiva
podrı́a explicar esas fuertes desviaciones estadı́sticas de los dipéptidos,
quizás no sobre los dipéptidos como tales dipéptidos sino como parte
de micropéptidos de mayor tamaño.
85 El mismo análisis de dipéptidos realizado con las proteı́na aleatorias de RandomUniProt revela como deberı́an ser las cosas si las
proteı́nas fueran el resultado final de una evolución puramente aleatoria de la información genética. Y lo que se observa en el caso aleatorio
es que las valores de las frecuencias relativas de todos los dipéptidos
son muy cercanos a la unidad, con variaciones que apenas afectan a la
tercera cifra decimal.
Tabla 5.2
Dipéptido
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
MF
WE
EM
QE
NW
TM
1,005744
1,005302
1,004948
1,004919
1,004914
1,004734
0,054058
0,054034
0,054015
0,108027
0,054013
0,108007
1,001072
0,999874
1,000695
1,000079
1,000741
1,000085
1,147573
1,142690
1,149892
1,296647
1,148695
1,284255
44 —— Redundancia de dipéptidos y tripéptidos
Tabla 5.2
Dipéptido
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
DM
VW
GW
KQ
FN
MW
KH
EW
AE
MM
CE
QY
EQ
AM
QQ
WF
MI
WI
HE
EK
MQ
CK
YV
QH
IK
RW
DT
QW
.
.
.
1,004521
1,004351
1,004118
1,003907
1,003760
1,003630
1,003459
1,003387
1,003331
1,003269
1,003129
1,003058
1,002936
1,002898
1,002892
1,002843
1,002765
1,002683
1,002648
1,002612
1,002602
1,002491
1,002368
1,002360
1,002353
1,002322
1,002288
1,002275
.
.
.
0,053992
0,107966
0,107941
0,107918
0,107902
0,026972
0,107870
0,053931
0,215712
0,026962
0,107834
0,107827
0,107814
0,107810
0,107809
0,053902
0,080846
0,080840
0,107783
0,107779
0,053889
0,107766
0,215505
0,107752
0,161626
0,161621
0,215488
0,053871
.
.
.
0,999965
1,000045
1,000353
1,000484
1,000285
0,998665
1,000268
0,999783
0,999763
1,000011
0,999663
0,999994
1,000222
1,000273
0,999829
0,999680
0,999676
0,999927
1,000188
0,999988
0,999771
1,000376
1,000612
1,000518
0,999635
1,000121
1,000134
0,999475
.
.
.
1,144928
1,285786
1,291740
1,287936
1,279471
1,076004
1,283719
1,144524
1,569275
1,088555
1,282108
1,283086
1,286258
1,292884
1,321487
1,142691
1,214865
1,221478
1,287224
1,290841
1,148138
1,292445
1,584770
1,284172
1,433603
1,431585
1,572333
1,144695
.
.
.
Total
Media
D. tı́pica
400,047200
1,000118
0,001675
100,009800
0,250024
0,193217
399,989400
0,999974
0,000317
673,516100
1,683790
0,545697
Tabla 5.2: Frecuencia y redundancia de algunos dipéptidos (valores decrecientes de la frecuencia relativa en la primera columna). Proteı́nas
aleatorias de RandomUniProt. Tipo de análisis: cada proteı́na.
Frecuencia y redundancia relativas —— 45
86 La desviación tı́pica en el caso de la frecuencia relativa de las
proteı́nas aleatorias es 0,001675, mientras que en el caso de las proteı́nas
naturales es 0,719313. O dicho con otras palabras las variaciones de la
frecuencia relativa en las proteı́nas naturales es 429 veces mayor que en
las proteı́nas aleatorias. En el caso natural la diferencia entre la máxima
y la mı́nima frecuencia relativa es 4,75, mientras que en el caso aleatoria
es 0,013192, y por lo tanto 360 veces más pequeña. Ninguna fluctuación
estadı́stica podrı́a dar cuenta de esas diferencias.
Figura 5.2: Frecuencia relativa de los tripéptidos en las proteı́nas naturales de UniProt comparada con la misma frecuencia en las proteı́nas
aleatorias (recta horizontal Fr ≈ 1) de RandomUniProt.
87 En el caso de los tripéptidos, los valores máximos y mı́nimos de
las frecuencia relativas divergen de forma aún más notable. La Figura 5.2 muestra las desviaciones negativas y positivas de la frecuencia
relativa de los tripéptidos en las proteı́nas naturales comparada con
46 —— Redundancia de dipéptidos y tripéptidos
la correspondientes desviaciones en el caso de los tripéptidos en proteı́nas aleatorias. La figura representa el caso de todos los organismos,
y puede observarse una diferencia de 15,5 entre la máxima y la mı́nima
frecuencia relativa. Considerando solo el grupo Eukaryota, esa diferencia llega a ser mayor de 25 (siempre con el método ’cada proteı́na’, con
el método ’única proteı́na’ la diferencia es aún mayor: 30,6). En el caso
de las proteı́nas aleatorias la misma diferencia es de 0.1343, 115 veces
menor que en el caso de las proteı́nas naturales.
Tabla 5.3
Dipéptido
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
EEE
KKK
KEK
MKK
EEK
KEE
EKE
DEE
KKE
EKK
EEM
EEI
EKM
MEK
EDE
EKI
MAK
KKI
EED
IEK
KEI
MKE
MEE
DDE
KNK
IEE
NNN
14,615340
10,946620
10,393710
10,285960
10,266800
9,636394
9,466668
9,430338
9,224192
8,534490
8,280358
8,171175
7,988013
7,763685
7,702605
7,611315
7,309571
7,284275
7,274119
7,265225
7,211823
7,167647
7,133473
7,067442
7,047207
7,044464
7,009557
0,051512
0,038582
0,036633
0,018127
0,036186
0,033964
0,033366
0,033237
0,032511
0,030080
0,014592
0,043199
0,014077
0,013682
0,027148
0,040239
0,025763
0,038510
0,025638
0,038410
0,038127
0,012631
0,012571
0,024909
0,024838
0,037243
0,024705
15,786300
9,756468
10,298560
8,283152
9,895306
9,729084
9,806875
9,912922
8,642803
8,243908
8,796641
8,253733
7,988035
7,399895
8,178849
7,089778
5,097217
6,328614
8,267803
6,947336
7,062568
6,978848
7,337453
7,658209
6,046405
7,033034
11,812870
1,642166
1,440747
1,222616
1,043736
1,198264
1,211371
1,228366
1,203626
1,186903
1,186579
1,066980
1,163620
1,058130
1,045542
1,229019
1,141798
1,034368
1,161361
1,203524
1,144732
1,163296
1,045136
1,060502
1,180264
1,141568
1,137345
4,210569
Frecuencia y redundancia relativas —— 47
Tabla 5.3
Dipéptido
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
EEA
DKK
AKK
.
.
.
TRC
PCS
CSW
SWC
CWS
CRT
CWP
WRC
PCW
HSC
RTC
SPC
RSC
SCR
CTW
CRS
WCS
PRC
CSR
CWR
WPR
HRC
CHW
CRW
PCR
RCT
SRC
RCS
RPC
WPC
6,905039
6,883803
6,858969
.
.
.
0,179824
0,177827
0,177399
0,176785
0,176103
0,174996
0,173980
0,170199
0,168651
0,162396
0,162082
0,161484
0,159370
0,159237
0,158293
0,158013
0,157521
0,155948
0,152781
0,151493
0,150979
0,149872
0,149579
0,145125
0,139789
0,137534
0,132022
0,128060
0,126542
0,114442
0,048674
0,024262
0,048349
.
.
.
0,003803
0,003761
0,000938
0,000935
0,000931
0,003701
0,000613
0,000900
0,000594
0,001717
0,003428
0,003415
0,005055
0,005051
0,000558
0,005012
0,000833
0,003298
0,004846
0,000801
0,001596
0,001585
0,000264
0,000767
0,002956
0,002908
0,004188
0,004062
0,002676
0,000403
6,933412
6,158731
5,542596
.
.
.
0,139826
0,191279
0,189535
0,161047
0,182442
0,157471
0,167791
0,174535
0,183663
0,170349
0,150494
0,173140
0,136841
0,126105
0,190814
0,147810
0,159768
0,137035
0,139806
0,184186
0,165524
0,154651
0,160117
0,132093
0,130320
0,134651
0,120291
0,125272
0,120494
0,117035
1,189541
1,115957
1,144599
.
.
.
1,017989
1,054656
1,039541
1,013909
1,008355
1,022847
1,004175
1,021088
1,000000
1,024476
1,045859
1,083697
1,043446
1,029914
1,023386
1,031373
1,033083
1,043844
1,033821
1,014084
1,029656
1,025048
1,006579
1,008881
1,038934
1,019815
1,024426
1,030448
1,029558
1,012066
Total
Media
D. tı́pica
10044,7
1,255588
1,038732
99,999320
0,012500
0,011497
10100,52
1,262565
1,034213
8431,288
1,053911
0,062133
48 —— Redundancia de dipéptidos y tripéptidos
Tabla 5.3
Dipéptido
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
Tabla 5.3: Frecuencia y redundancia de algunos tripéptidos: casos extremos de desviación positiva y de desviación negativa. Proteı́nas naturales
de UniProt. Tipo de análisis: cada proteı́na.
88 La Tabla 5.3 muestra las 30 frecuencias relativas mayores y las
30 menores. Nótese que la desviación tı́pica es ahora 1,038732 mientras
que para las proteı́nas aleatorias es de 0,009504. La desviación tı́pica es,
por lo tanto, 109 veces mayor en las proteı́nas naturales que en las aleatorias. Una diferencia que también es imposible explicar en términos
de fluctuaciones estadı́sticas.
89 Son también notables las diferencias entre grupos de organismos.
Para Eukaryota los desviaciones positivas pueden llega a ser el doble que en Bacteria. Es lo que ilustra la Figura 5.3. En los próximos
capı́tulos encontraremos diferencias similares en la redundancia interna
de micropéptidos de mayor tamaño.
Tabla 5.4
Tripéptido
Frecuencia
relativa
Redundancia
relativa
NNN
QQQ
EWM
DWM
DWW
7,009557
6,840882
1,848240
1,836000
0,848893
11,812870
9,778619
2,397911
2,439074
1,239769
Tabla 5.4: Algunos tripéptidos muestran valores de redundancia relativa
claramente superiores a los valores de frecuencia relativa.
Frecuencia y redundancia relativas —— 49
Figura 5.3: Frecuencia relativa de los tripéptidos en las proteı́nas naturales de Bacteria y Eukaryota de las proteı́nas naturales de UniProt
comparada con la misma frecuencia en las proteı́nas aleatorias (recta
horizontal Fr ≈ 1) de RandomUniProt.
90 Aunque la frecuencia relativa y la redundancia relativa siguen
estando claramente relacionas en el caso de los tripéptidos, podemos
encontrar algunas diferencias significativas, como las que se ilustran
en la Tabla 5.4, en las que los valores de la redundancia relativa son
claramente superiores a los de la frecuencia relativa. Esta diferencia solo
puede interpretarse en el sentido de que, al menos esos tripéptidos,
se encuentran más bien repetidos en unas cuantas proteı́nas que no
repetidos en muchas proteı́nas diferentes. Es decir, que presentan una
elevada redundancia interna.
50 —— Redundancia de dipéptidos y tripéptidos
6.-Redundancia de tetrapéptidos
Intorducción
91 Existen 160000 tetrapéptidos diferentes y 3200000 pentapéptidos
distintos. La base de datos UniProt permite continuar haciendo análisis
estadı́sticos de precisión con los primeros pero no ya con los segundos. Si
en lugar de UniProt se utiliza alguna de sus partes (la correspondiente
a algún tipo de organismos), la precisión también disminuye en el caso
de los tetrapéptidos.
92 En consecuencia los tetrapéptidos se analizarán con los mismos
métodos que los dipéptidos y tripéptidos, aunque no se analizarán todos
ellos sino solo los definidos a partir de los tripéptidos de mayor frecuencia relativa. De pentapéptidos a decapéptidos se analizarán con otros
métodos en el próximo capı́tulo, métodos que en realidad se aplicarán
a micropéptidos de tres a diez residuos y con los que solo se explora la
redundancia interna, el promedio de repeticiones de micropéptidos en
cada proteı́na.
93 Como era de esperar teniendo en cuenta los precedentes, los valores encontrados de frecuencia relativa y de redundancia relativa de los
tetrapéptidos examinados en UniProt son muy superiores a los examinados en RandomUniProt (proteı́nas aleatorias). También lo son con
respecto a los valores deducidos de los cálculos teóricos.
51
52 —— Redundancia de tetrapéptidos
Métodos de estudio
94 Los métodos de estudio aplicados a los tetrapéptidos son los mismos que los que se aplicaron a los aminoácidos, dipéptidos y tripéptidos,
tanto en el análisis de la frecuencia como en el de la redundancia. La
única diferencia es que esos métodos solo se aplican a una pequeña
parte de los tetrapéptidos: a los aproximadamente 1600 definidos a
partir de los 30 tripéptidos de mayor frecuencia relativa en cada grupo
examinado.
95 En cada grupo de organismos (en este caso Archaea, Bacteria, y
Eukaryota) se procede de la siguiente manera para definir el grupo de
tetrapéptidos que serán examinados:
1.- En cada grupo de organismos se eligen los 30 tripéptidos de
mayor frecuencia relativa.
2.- Se define un primer grupo de tetrapéptidos añadiendo a cada
uno de los 30 tripéptidos una primera letra correspondiente a
cada uno de los 20 aminoácidos proteinogénicos.
3.- Se define un segundo grupo de tetrapéptidos añadiendo a cada
uno de los 30 tripéptidos una última letra correspondiente a
cada uno de los 20 aminoácidos proteinogénicos.
4.- se eliminan los tetrapéptidos que resulten repetidos.
Frecuencia y redundancia de tetrapéptidos
96 El procedimiento indicado en 95 permite definir cerca de 1600
tetrapéptidos, todos ellos conteniendo tripéptidos de elevada frecuencia
relativa. A estos tetrapéptidos se les aplican los mismos métodos de
análisis que a los tripéptidos, dipéptidos y aminoácidos. Un resumen
de los resultados puede verse en las tres siguientes tablas, en la Figura
6.1, y con más detalle en las tablas del Capı́tulo 14.
Frecuencia y redundancia de tetrapéptidos —— 53
Tabla 6.1
Archaea
Tetrapéptido
EEEE
EEIK
EEIE
EKIK
KIEE
KKEE
EEKK
EIEK
EEKE
EIKE
EEMK
KIKE
KMKK
EKIE
EEEI
MKEK
KEEI
EIKK
KEEE
EKKE
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
80,695840
59,170990
58,517460
57,889350
56,283290
53,835170
53,020360
52,856990
52,700420
51,216510
48,689380
48,652030
48,029090
45,648720
44,953850
44,826040
44,203440
43,902710
42,703200
42,701400
0,009325
0,010257
0,010143
0,010034
0,009756
0,006221
0,006127
0,009162
0,006090
0,008878
0,002813
0,008433
0,002775
0,007913
0,007792
0,002590
0,007662
0,007610
0,004935
0,004934
81,866110
58,827290
54,241890
55,248440
53,347180
51,334080
47,643390
50,998560
45,462530
44,959260
50,327530
50,103850
28,183420
42,834320
44,735580
30,196520
45,071090
44,176380
41,939610
42,275120
1,820896
1,037475
1,027542
1,040000
1,017058
1,104693
1,126984
1,034014
1,066929
1,025510
1,000000
1,032258
1,012048
1,046448
1,036269
1,000000
1,022843
1,036745
1,063830
1,130045
Tabla 6.1: Frecuencia y redundancia de algunos tetrapéptidos en Archaea.
Tabla 6.2
Bacteria
Tetrapéptido
MAKK
MKKI
EKIK
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
45,546220
27,501450
26,436440
0,005263
0,002384
0,004582
20,420760
20,358470
20,904210
1,000436
1,005272
1,021745
54 —— Redundancia de tetrapéptidos
Tabla 6.2
Bacteria
Tetrapéptido
EMKK
MAKE
KEKE
EEIK
EEEK
KAKE
KNKK
EKME
EEEF
EKAK
EIEK
EEEE
EEME
EEIE
MKKF
KKEK
KEIE
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
26,100510
26,036300
25,466960
25,158920
24,427520
23,242470
23,186240
22,992840
22,849370
22,141650
22,038250
21,654460
21,597010
21,591860
21,508030
21,325530
21,254640
0,001508
0,003009
0,002943
0,004361
0,002823
0,005372
0,002679
0,001329
0,002640
0,005117
0,003820
0,002502
0,001248
0,003743
0,001243
0,002464
0,003684
23,045650
17,270890
22,271530
25,560800
20,447450
17,297580
16,674730
16,176450
15,518000
21,457370
23,164290
19,504270
19,237330
23,650710
11,069030
17,386560
24,172720
1,003098
1,007788
1,043787
1,038563
1,017264
1,025587
1,034787
1,002205
1,006928
1,026170
1,024128
1,209713
1,000926
1,012957
1,001610
1,017708
1,030602
Tabla 6.2: Frecuencia y redundancia de algunos tetrapéptidos en Bacteria.
Tabla 6.3
Eukaryota
Tetrapéptido
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
NNNN
QQQQ
EEEE
KKKK
DDDD
DEEE
EEED
EDEE
EEDE
378,971300
262,160100
218,708300
103,638000
86,703650
68,253950
66,565060
63,441480
61,428340
0,043793
0,030295
0,025274
0,011976
0,010019
0,007887
0,007692
0,007331
0,007099
654,916900
415,204500
247,251600
100,003400
108,330300
75,585260
73,431200
72,932870
66,518890
15,230280
7,680345
2,468068
1,759333
2,265972
1,179925
1,167391
1,213102
1,197685
Frecuencia y redundancia de tetrapéptidos —— 55
Tabla 6.3
Eukaryota
Tetrapéptido
EEEK
DEDE
EEKE
KEEE
EDED
KKEE
EKEE
KEKK
DDDE
DDEE
KKEK
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
59,169350
49,802450
49,366130
47,607970
47,312620
45,789390
44,818590
44,443180
43,552050
43,231280
43,053330
0,006838
0,005755
0,005705
0,005501
0,005467
0,005291
0,005179
0,005136
0,005033
0,004996
0,004975
60,313890
55,973610
46,296380
53,256910
54,526840
40,846900
47,148350
48,804100
49,688230
51,504720
44,753160
1,132850
1,272661
1,114983
1,121910
1,268986
1,099048
1,120321
1,247842
1,156811
1,131756
1,288292
Tabla 6.3: Frecuencia y redundancia de algunos tetrapéptidos en Eukaryota.
97 Nótense los elevadı́simos valores de frecuencia relativa y redundancia de los tetrapéptidos NNNN, QQQQ y EEEE en el grupo Eukaryota.
Nótese también que los cinco tetrapéptidos de mayor frecuencia y redundancia relativa están formados por un solo aminoácido: NNNN,
QQQQ, EEEE, KKKK, DDDD. Finalmente, es también destacable el
hecho de que los 20 (en realidad 33) tetrapéptidos de mayor frecuencia relativa en Eukaryota estén formados por solo cinco aminoácidos:
ácido aspártico (D), ácido glutámico (E), lisina (K), asparagina (N) y
glutamina (Q). En el capı́tulo sobre conclusiones ampliaremos este y
otros aspectos de los resultados obtenidos en nuestra exploración de la
redundancia en el proteoma de los diferentes grupos analizados.
98 En el caso humano, tabla siguiente y figura 8.3, entre los veinte
primeros tetrapéptidos no aparece el tetrapéptido monoaminoacı́dico
NNNN cuya frecuencia relativa en Eukaryota es casi 379 veces mayor
56 —— Redundancia de tetrapéptidos
Figura 6.1: Variación de la frecuencia relativa de los 60 tetrapéptidos
más abundantes en Archaea, Bacteria, Eukaryota de la base UniProt,
y en las proteı́nas aleatorias de RandomUniProt
que la esperada en términos teóricos. Tampoco aparece DDDD.
Tabla 6.4
Homo sapiens
Tetrapéptido
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
EEEE
QQQQ
MYFF
EKPY
KKKK
EEED
PMYF
EDEE
DEEE
EEDE
EEEK
EQEE
342,802800
229,014200
146,035400
97,154180
88,685210
87,512120
83,862900
81,391410
78,735760
73,977540
61,984830
61,396140
0,039614
0,026464
0,008438
0,022454
0,010248
0,010113
0,009691
0,009405
0,009099
0,008549
0,007163
0,007095
345,909100
134,690300
119,384600
139,894200
82,038640
88,773160
68,263490
77,753030
75,916350
68,569600
67,039030
87,854800
2,658823
4,036697
1,059783
5,345029
1,740260
1,203320
1,000000
1,198113
1,153488
1,230769
1,123077
2,432203
Frecuencia y redundancia de tetrapéptidos —— 57
Tabla 6.4
Homo sapiens
Tetrapéptido
GEKP
TGEK
EDED
KEEE
EKEE
EEKE
EEME
EEMK
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
58,524450
57,319090
55,945420
52,435020
48,919960
45,166960
44,960410
43,753000
0,027052
0,026495
0,006465
0,006059
0,005653
0,005219
0,002598
0,002528
81,273350
79,360130
55,712800
55,406680
52,039430
50,508860
37,345940
48,978290
5,009434
4,650224
1,246575
1,110429
1,111111
1,100000
1,016667
1,066667
Tabla 6.4: Frecuencia y redundancia de algunos tetrapéptidos en Homo
sapiens.
Figura 6.2: Variación de la frecuencia relativa de los 60 tetrapéptidos
más abundantes en Archaea, Bacteria, Homo sapiens de la base UniProt, y en las proteı́nas aleatorias de RandomUniProt
58 —— Redundancia de tetrapéptidos
7.-Redundancia interna de micropéptidos
Introducción
99 El objetivo original de la primera versión de este trabajo (años
1980s) era el análisis de la repetición de microsecuencias (de 3 a 10 residuos) en las secuencias de aminoácidos de las proteı́nas. Ese será también el objetivo de este capı́tulo.
100 Naturalmente, la frecuencia y la redundancia de los aminoácidos, dipéptidos, tripéptidos y tetrapéptidos analizadas en los capı́tulos
anteriores es también una consecuencia inmediata de la redundancia
de micropéptidos de mayor tamaño que analizamos aquı́. Tendremos
ocasión de comprobar que también existe redundancia interna en las
propias cadenas redundantes de mayor tamaño.
101 La redundancia analizada en la primera parte del capı́tulo es
exclusivamente redundancia interna: repeticiones de microsecuencias
de aminoácidos en cada proteı́na. En la segunda parte se examinan
algunos casos de redundancia externa: repetición de microsecuencias
(de tamaño relativamente grande) en proteı́nas distintas.
102 Como veremos, los resultados numéricos son conclusivos y, como
en los casos anteriores, no pueden ser explicados en términos de puras consideraciones estadı́sticas. Las desviaciones respecto a los valores
teóricos esperados son ahora tan grandes que su representación gráfica
59
60 —— Redundancia interna de micropéptidos
requiere el uso de escalas logarı́tmicas. Es también destacable el hecho
de que cada uno de los cuatro grandes grupos de organismos analizados (Virus, Archaea, Bacteria y Eukaryota) presentan valores propios
de redundancia, siendo la de los eucariotas notablemente superior a la
de los otros grupos.
Métodos de estudio
103 El recuento de repeticiones de micropéptidos en el interior de las
proteı́nas naturales (UniProt) y aleatorias (RandomUniProt) se ha realizado de un modo parecido al llevado a cabo con aminoácidos, dipéptidos, tripéptidos y tetrapéptidos: dada una longitud L (número de residuos), y a partir del primer residuo, se definen todos los micropéptidos
de longitud L, y para micropéptido definido se cuenta el número de
veces que aparece repetido en el resto de la proteı́na. Por ejemplo, en
MKIKHYPPEEKKKTRAVAPEDEAAIKHEWCSAAHPPEEKKK...
Se considerarı́an los sucesivos micropéptidos de longitud 6:
MKIKHY
KIKHYP
IKHYPP
KHYPPE
...
y se buscarı́an sus repeticiones en el resto de la secuencia de aminoácidos y a partir de la posición siguiente al último residuo del micropéptido
considerado.
104 Las repeticiones anteriores serán denominadas repeticiones directas porque se busca la repetición de cada micropéptido manteniendo el
Métodos de estudio —— 61
orden de su microsecuencia de residuos. Además de ellas, también se
cuentan las repeticiones inversas en las que el orden de los residuos de
la microsecuencia aparece invertido. En el ejemplo anterior las microsecuencias inversas serı́an YHKIKM, PYHKIK, etc.
105 Las siguientes lı́neas de código ejemplifican el recuento de repeticiones directas de micropéptidos de longitud RepLength en una
proteı́na cuya secuencia de aminoácidos está en la variable Sequence.
numDirectRep = 0;
for (i = 1; i ¡= Sequence.Length - 2 * RepLength + 1; i++) {
subString = Strings.Mid(Sequence, i, RepLength);
p = Sequence.IndexOf(subString, i + RepLength);
while (p ¿-1) {
numDirectRep += 1;
p = Sequence.IndexOf(subString, p + 1);
}}
106 El recuento de repeticiones inversas serı́a similar, invirtiendo previamente la secuencia del micropéptido, lo que se consigue en una simple instrucción del tipo:
subString = StrReverse(Strings.Mid(Sequence, i, RepLength));
donde subString es la secuencia que se ha de invertir.
107 Como en los casos anteriores de aminoácidos, dipéptidos, tripéptidos y tetrapéptidos, el estudio se ha completado realizando los mismos
recuentos en las proteı́nas aleatorias de la base de datos RandomUniProt y utilizándolos como contrapunto estadı́stico de los datos encontrados en las proteı́nas naturales de UniProt.
108 Puesto que existen 160000 tetrapéptidos distintos, 3200000 pentapéptidos distintos etc., y cada uno de ellos tiene una probabilidad
diferente, los cálculos teóricos han de usar matrices de probabilidades
62 —— Redundancia interna de micropéptidos
excesivamente grandes. Los resultados pueden, por otra parte, aproximarse bastante bien haciendo uso de ciertos factores (F) calculados
de forma experimental. La simplificación de suponer que todos los
aminoácidos tienen la misma probabilidad (1/20) produce un número de repeticiones que siempre es F veces menor que cuando se tienen
en cuenta las distintas probabilidades de los diferentes aminoácidos.
109 El número de repeticiones teóricas de micropéptidos de longitud
8, o mayor, es prácticamente cero incluso en las proteı́nas de mayor
tamaño de UniProt (13100 residuos). Para micropéptidos de menor
tamaño puede usarse la simplificación de la igualdad de probabilidades
de los aminoácidos, utilizando los factores de ajuste F encontrados de
forma experimental:
a) Micropéptidos de 3 residuos: 2.
b) Micropéptidos de 4 residuos: 2,49.
c) Micropéptidos de 5 residuos: 3,19.
d) Micropéptidos de 6 residuos: 3,87.
e) Micropéptidos de 7 residuos: 2,81.
Análisis de la redundancia
110 Naturalmente la probabilidad de que un micropéptido se repita
en la secuencia de aminoácidos de una proteı́na disminuye con el tamaño del micropéptido: es unas veinte veces menos probable con cada
aminoácido que se añada al micropéptido. La probabilidad P(4) de que
se repita un micropéptido de 4 residuos es aproximadamente:
P (4) ≈
1
204
(1)
de modo que el número medio de repeticiones esperadas en una proteı́na
de, por ejemplo, 500 residuos es de:
Análisis de la redundancia —— 63
500
≈ 0, 003125
204
(2)
En el caso de un micropéptido de 10 residuos ese número es aproximadamente 0,00000000004883.
111 Como en los casos anteriores, nos interesa más la redundancia
relativa, que en este caso será el cociente entre el número de repeticiones encontrado en UniProt y el número de repeticiones encontrado
en su versión aleatoria RandomUniProt. Debido a que las proteı́nas
naturales son realmente muy redundantes y a que las probabilidades
de redundancia disminuyen por un factor de 20 por cada residuo que
se añade al micropéptido, la redundancia relativa crece de manera exponencial con el número de residuos del micropéptido. Por esa razón,
la representación gráfica de los valores reales de redundancia relativa
requiere el uso de escalas logarı́tmicas.
112 La Tabla 7.1 resume los resultados de la redundancia interna de
micropéptidos de 3 a 10 residuos en las proteı́nas naturales de UniProt
y en las proteı́nas aleatorias de RandomUniProt. Los mismos datos se
reflejan en la parte izquierda de la Figura 7.1.
Tabla 7.1
Virus
Archaea
Bacteria
Eukaryota
Todos
3-Dir-Nat.
3-Dir-Ale.
3-Inv-Nat
3-Inv-Ale.
987062
677940
773767
678923
411484
270521
374867
271161
9572464
5589932
8811915
5586247
14286644
4857319
12079711
4858262
25257654
11395712
22040260
11394593
4-Dir-Nat.
4-Dir-Ale.
4-Inv-Nat
4-Inv-Ale.
238051
42073
93913
42781
46008
16715
29526
16964
1982414
348978
1520368
349787
5686269
302415
3944074
305257
7952742
710181
5587881
714789
5-Dir-Nat.
5-Dir-Ale.
140583
2618
11528
1102
1188393
22286
3871879
19329
5212383
45335
64 —— Redundancia interna de micropéptidos
Tabla 7.1
Virus
Archaea
Bacteria
Eukaryota
Todos
5-Inv-Nat
5-Inv-Ale.
35180
2679
2785
1050
819782
21716
2462765
19068
3320512
44513
6-Dir-Nat.
6-Dir-Ale.
6-Inv-Nat
6-Inv-Ale.
101511
160
24144
156
5204
61
318
60
913779
1338
583588
1441
2948423
1182
1752450
1216
3968917
2741
2360500
2873
7-Dir-Nat.
7-Dir-Ale.
7-Inv-Nat
7-Inv-Ale.
84190
7
19406
5
3029
1
54
5
807719
48
485662
94
2434096
43
1392285
59
3329034
99
1897407
163
8-Dir-Nat.
8-Dir-Ale.
8-Inv-Nat
8-Inv-Ale.
72254
0
16048
0
2273
0
14
0
712582
0
395949
8
2050243
0
1131792
1
2837352
0
1543803
9
9-Dir-Nat.
9-Dir-Ale.
9-Inv-Nat
9-Inv-Ale.
63561
0
14004
0
1885
0
3
0
651284
0
358420
0
1776167
0
944951
0
2492897
0
1317378
0
10-Dir-Nat.
10-Dir-Ale.
10-Inv-Nat
10-Inv-Ale.
57468
0
12279
0
1598
0
0
0
591135
0
323387
0
1564661
0
805750
0
2214862
0
1141416
0
Tabla 7.1: Repeticiones directas (Dir) e inversas Inv) de micropéptidos
3 a 10 residuos en las proteı́nas naturales (Nat) de UniProt y en las
proteı́nas aleatorias (Ale) de RandomUniProt.
113 De la tabla 7.1 conviene destacar los siguientes aspectos:
a) Los valores de redundancia interna en las proteı́nas naturales son siempre muy superiores a los mismos valores en las
proteı́nas aleatorias.
b) Las diferencias entre los valores de redundancia interna en las
proteı́nas naturales y las proteı́nas aleatorias son imposibles
Análisis de la redundancia —— 65
de explicar en términos puramente estadı́sticos.
c) En las proteı́nas naturales el número de repeticiones directas
es siempre muy superior al número de repeticiones inversas.
Ambos valores muy lejos de lo que se podrı́a esperar desde el
punto de vista estadı́stico.
d) En las proteı́nas aleatorias las repeticiones directas y las inversas presentan valores muy parecidos, dentro del rango de
lo que cabrı́a esperar en términos estadı́sticos.
e) La redundancia interna es siempre mayor en Eukaryota que en
Bacteria, y mayor en Bacteria que en Archaea. Las diferencias
aumentan con el tamaño de los micropéptidos repetidos.
Figura 7.1: Izquierda: Representación en escala logarı́tmica de la proporción entre la redundancia interna de micropéptidos en las proteı́nas
naturales de UniProt y en las proteı́nas aleatorias de RandomUniProt.
Derecha: Ídem entre las proteı́nas naturales de UniProt y las expectativas teóricas calculadas usando la equiprobabilidad de los aminoácidos
y los factores de corrección F . Como puede verse ambas gráficas son
casi indistinguibles.
66 —— Redundancia interna de micropéptidos
114 Otra forma de presentar la redundancia interna de micropéptidos es comparando los valores encontrados con las previsiones teóricas. Aunque en este caso, y debido a la diferente probabilidad de los
aminoácidos y al tamaño de los micropéptidos mayores, aparecen problemas que requieren el uso de aproximaciones. Como se ha indicado
en 109, la simplificación de considerar la equiprobabilidad de todos los
aminoácidos y el uso de los factores de ajuste F da unos resultados
suficientemente precisos. Son los que aparecen en la Tabla 7.2 y en la
parte derecha de la figura 7.1.
Tabla 7.2
Virus
Archaea
Bacteria
Eukaryota
Todos
3-Dir
3-Inv
3-Teo.
987062
773767
677594
411484
374867
271600,7
9572464
8811915
5620445,5
14286644
12079711
4863657,5
25257654
22040260
11433297,7
4-Dir.
4-Inv.
4-Teo.
238051
93913
42087
46008
29526
16827,5
1982414
1520368
348341,9
5686269
3944074
301918,2
7952742
5587881
709174,5
5-Dir.
5-Inv.
5-Teo.
140583
35180
2690,1
11528
2785
1072,8
1188393
819782
22213,2
3871879
2462765
19285
5212383
3320512
45261
6-Dir.
6-Inv.
6-Teo.
101511
24144
162,8
5204
318
64,7
913779
583588
1341,7
2948423
1752450
1166,6
3968917
2360500
2735,8
7-Dir.
7-Inv.
7-Teo.
84190
19406
5,9
3029
54
2,3
807719
485662
48,5
2434096
1392285
42,2
3329034
1897407
99
Tabla 7.2: Repeticiones directas (Dir.) e inversas (Inv.) de micropéptidos 3 a 7 residuos en las proteı́nas de UniProt comparadas con las
repeticiones teóricas (Teo.) calculadas asumiendo la equiprobabilidad
de los aminoácidos y usando los factores de ajuste F.
115 Los logaritmos decimales de las redundancias internas (redundan-
Micropéptidos de un solo aminoácido —— 67
cias reales divididas por las redundancias teóricas calculadas haciendo
uso de la equiprobabilidad de los aminoácidos y de los factores de ajuste F ) directas e inversas en los grandes grupos celulares, aparecen en
las tablas 7.3 y 7.4.
Tabla 7.3
Todos
Virus
Archaea
Bacteria
Eukaryota
3
4
5
6
7
0,65
0,46
0,48
0,53
0,77
1,45
1,15
0,83
1,15
1,67
2,57
2,22
1,54
2,23
2,81
3,75
3,38
2,49
3,42
3,99
4,98
4,60
3,56
4,67
5,21
Tabla 7.3: Logaritmo decimal de la redundancia relativa de micropéptidos (secuencias directas) en las proteı́nas naturales de UniProt.
Tabla 7.4
Todos
Virus
Archaea
Bacteria
Eukaryota
3
4
5
6
7
0,59
0,36
0,44
0,50
0,70
1,29
0,74
0,64
1,04
1,51
2,37
1,62
0,92
2,07
2,61
3,52
2,76
1,28
3,23
3,76
4,73
3,97
1,81
4,45
4,97
Tabla 7.4: Logaritmo decimal de la redundancia relativa de micropéptidos (secuencias inversas) en las proteı́nas naturales de UniProt.
Micropéptidos de un solo aminoácido
116 Las frecuencias relativas de micropéptidos formados por un solo
aminoácido se desvı́an de forma muy significativa de las expectativas
teóricas. La Tabla 7.5 muestra los resultados de los veinte pentapéptidos
68 —— Redundancia interna de micropéptidos
monoaminoacı́dicos, y la Tabla 7.6 los correspondientes a los veinte
decapéptidos monoaminoacı́dicos.
Tabla 7.5
Pentapéptido
AAAAA
SSSSS
QQQQQ
EEEEE
NNNNN
GGGGG
PPPPP
DDDDD
TTTTT
KKKKK
LLLLL
RRRRR
HHHHH
VVVVV
IIIII
FFFFF
CCCCC
YYYYY
MMMMM
WWWWW
Frecuencia
absoluta
Frecuencia
teórica
Proteı́nas
diferentes
1443059
1364870
1067719
1058630
1015240
865387
809679
613174
602979
600271
425717
189073
159160
60473
30835
13291
11956
5963
3631
0
198,39484962
1506,56145990
6,19983905
6,19983905
6,19983905
198,39484962
198,39484962
6,19983905
198,39484962
6,19983905
1506,56145990
1506,56145990
6,19983905
198,39484962
47,08004562
6,19983905
6,19983905
6,19983905
0,19374497
0,19374497
5554
3775
2342
2957
1894
2725
2127
1489
1529
1405
2759
957
524
262
108
74
48
35
20
0
Tabla 7.5: Frecuencia absoluta, frecuencia teórica y número de proteı́nas diferentes en las que aparecen los veinte pentapéptidos monoaminoacı́dicos en las proteı́nas de UniProt (todos los organismos).
Tabla 7.6
Decapéptido
NNNNNNNNNN
QQQQQQQQQQ
SSSSSSSSSS
Frecuencia
absoluta
Frecuencia
teórica
Proteı́nas
diferentes
525046
362794
154135
0,00000023
0,00000023
0,01387056
836
693
323
Micropéptidos de un solo aminoácido —— 69
Tabla 7.6
Decapéptido
TTTTTTTTTT
EEEEEEEEEE
PPPPPPPPPP
AAAAAAAAAA
DDDDDDDDDD
GGGGGGGGGG
HHHHHHHHHH
KKKKKKKKKK
LLLLLLLLLL
RRRRRRRRRR
IIIIIIIIII
FFFFFFFFFF
YYYYYYYYYY
VVVVVVVVVV
CCCCCCCCCC
WWWWWWWWWW
MMMMMMMMMM
Frecuencia
absoluta
Frecuencia
teórica
Proteı́nas
diferentes
128622
100860
78576
70676
48169
44575
18808
4573
2431
922
341
166
24
0
0
0
0
0,00024054
0,00000023
0,00024054
0,00024054
0,00000023
0,00024054
0,00000023
0,00000023
0,01387056
0,01387056
0,00001355
0,00000023
0,00000023
0,00024054
0,00000023
0,00000000
0,00000000
234
263
155
232
100
188
64
12
21
7
1
4
1
0
0
0
0
Tabla 7.6: Frecuencia absoluta, frecuencia teórica y número de proteı́nas diferentes en las que aparecen los veinte decapéptidos monoaminoacı́dicos en las proteı́nas de UniProt (todos los organismos).
Tabla 7.7
Pentadecapéptido
NNNNNNNNNNNNNNN
QQQQQQQQQQQQQQQ
SSSSSSSSSSSSSSS
EEEEEEEEEEEEEEE
TTTTTTTTTTTTTTT
DDDDDDDDDDDDDDD
PPPPPPPPPPPPPPP
GGGGGGGGGGGGGGG
AAAAAAAAAAAAAAA
HHHHHHHHHHHHHHH
LLLLLLLLLLLLLLL
Frecuencia
absoluta
Frecuencia
teórica
Proteı́nas
diferentes
392063
198525
47405
33870
22351
17788
8778
7632
7136
396
98
0,0000000000000089
0,0000000000000089
0,0000001277029981
0,0000000000000089
0,0000000002916297
0,0000000000000089
0,0000000002916297
0,0000000002916297
0,0000000002916297
0,0000000000000089
0,0000001277029981
604
349
90
60
34
23
20
34
35
2
2
70 —— Redundancia interna de micropéptidos
Tabla 7.7
Pentadecapéptido
RRRRRRRRRRRRRRR
VVVVVVVVVVVVVVV
IIIIIIIIIIIIIII
YYYYYYYYYYYYYYY
KKKKKKKKKKKKKKK
FFFFFFFFFFFFFFF
CCCCCCCCCCCCCCC
WWWWWWWWWWWWWWW
MMMMMMMMMMMMMMM
Frecuencia
absoluta
Frecuencia
teórica
Proteı́nas
diferentes
0
0
0
0
0
0
0
0
0
0,0000001277029981
0,0000000002916297
0,0000000000038972
0,0000000000000089
0,0000000000000089
0,0000000000000089
0,0000000000000089
0,0000000000000000
0,0000000000000000
0
0
0
0
0
0
0
0
0
Tabla 7.7: Frecuencia absoluta, frecuencia teórica y número de proteı́nas diferentes en las que aparecen los veinte pentadecapéptidos monoaminoacı́dicos en las proteı́nas de UniProt (todos los organismos).
Otras redundancias
117 Alguna proteı́nas de RandomUniProt presenta una elevadı́sima
redundancia interna, estando casi completamente formadas por varias
decenas de repeticiones sucesivas de secuencias de 8 o más residuos.
A su vez las secuencias repetidas presentan también un elevado ı́ndice
de redundancia de dipéptidos y tripéptidos. Terminamos el capı́tulo
exponiendo algunos ejemplos de proteı́nas muy redundantes.
Nombre: Polyubiquitin-C
Organismo: Pan troglodytes
Formada por 10 repeticiones sucesivas de la secuencia de 76 residuos:
MQIFVKTLTGKTITLEVEPSDTIENVKAKIQDKEGIPPDQQRLIF
AGKQLEDGRTLSDYNIQKESTLHLVLRLRGG
que, a su vez, contiene repetidos los dipéptidos TL (4 veces), GK, IF,
IQ, KE, KT, LE, LR, RL, SD, TI, VK.
Otras redundancias —— 71
Nombre: Apolipoprotein(a)
Organismo: Homo sapiens
Contiene 29 repeticiones sucesivas de la secuencia de 114 residuos:
YPNAGLIMNYCRNPDAVAAPYCYTRDPGVRWEYCNLTQCSDAE
GTAVAPPTVTPVPSLEAPSEQAPTEQRPGVQECYHGNGQSYRG
TYSTTVTGRTCQAWSSMTPHSHSRTPEY
que, a su vez contiene repetidos los tripéptidos AVA, PGV, TVT, y los
dipéptidos AP (4 veces) AV, CY, DA, EQ, E,Y, GT, GV, HS, PG, PS,
PT, QA, RT, TP (3 veces), TV, VA, VT, YC (3 veces).
Nombre: Mucin-2
Organismo: Homo sapiens
Contiene 20 repeticiones sucesivas de la secuencia de 115 residuos:
PTTTPITTTTTVTPTPTPTGTQTPTTTPITTTTTVTPTPTPTG
TQTPTTTPITTTTTVTPTPTPTGTQTPTTTPITTTTTVTPTPT
PTGTQTPTTTPITTTTTVTPTPTPTGTQT que a su vez contiene
4 repeticiones de la secuencia de 23 residuos:
PITTTTTVTPTPTPTGTQTPTTT.
Nombre: S-antigen protein
Organismo: Plasmodium falciparum
Contiene 72 repeticiones sucesivas de la secuencia de 18 residuos:
GPNSDGDK.
Nombre: Uncharacterized protein LF3
Organismo: Epstein-Barr virus
24 repeticiones sucesivas de la cadena de 34 residuos:
72 —— Redundancia interna de micropéptidos
PRRSGAADPADPVGHPAAPRAPGPEPRTRLQPAT
que, a su vez, contiene repetido el tripéptido ADP y los dipéptidos AA,
AD, AP, DP, PA (3 veces), PR (3 veces).
Nombre: Uncharacterized protein DDB G0271670
Organismo: Dictyostelium discoideum
Contiene la secuencia de 306 residuos:
SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS
SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS
SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS
SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS
SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS
SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS.
Nombre: Platelet binding protein GspB
Organismo: Streptococcus gordonii
137 repeticiones sucesivas de la cadena de 12 residuos:
SASTSASVSASE
Que a su vez contiene tres repeticiones de SAS.
Nombre: Polysialoglycoprotein
Organismo: Oncorhynchus mykiss
34 repeticiones sucesivas de la secuencia de 13 residuos:
ATSEAATGPSGDD
que, a su vez contiene repetido el dipéptido AT.
8.-Redundancia en el proteoma humano
Introducción
118 La frecuencia y la redundancia de aminoácidos, dipéptidos, tripéptidos, tetrapéptidos y micropéptidos analizada en los capı́tulos anteriores para el caso de todos los organismos, se analizan en este capı́tulo
para el caso de nuestra propia especie (ya incluida en el gran grupo
Eukaryota en los análisis previos). La exclusividad de este análisis de
la redundancia en el proteoma humano se justifica por su elevado valor,
muy superior al valor medio encontrado en el resto de los organismos.
119 Aunque el origen de los mamı́feros se remonta al Carbonı́fero (a
través de sus ancestros sinápsidos), es a partir del lı́mite KT (CretácicoTerciario) cuando sufren un proceso de diversificación y expansión sin
precedentes en su historia evolutiva, uno de los más importantes de
la historia reciente de la Biosfera. Algo mas moderna es la historia
del Orden Primates de la Clase Mamı́feros, al que pertenece el género
Homo. Los primates son uno de los grupos más complejos de seres
vivos, al menos desde el punto de vista de su constitución nerviosa y
su comportamiento individual y social. Y seguramente Homo sapiens
es, en ese mismo sentido, el animal más complejo de la Biosfera.
120 Los primates, por otra parte, presentan algunas peculiaridades
genéticas y epigenéticas entre las que destaca la presencia de una gran
cantidad de material genético no codificador (de proteı́nas) tanto en el
73
74 —— Redundancia en el proteoma humano
interior de los genes codificadores de proteı́nas1 como en largas zonas no
codificadoras (junk-DNA). Una caracterı́stica de este material genético
no codificador de proteı́nas es su elevadı́sima tasa de redundancia. Nos
ocuparemos de ella en el capı́tulo dedicado a epigenética y junk-DNa
y en el capı́tulo sobre conclusiones finales. Por ahora nos limitaremos
a estudiar la redundancia en el proteoma humano.
Frecuencia y redundancia de aminoácidos
121 La base de datos UniProt contiene 7385 proteı́nas humanas con
un total de 2849090 residuos de aminoácidos. Naturalmente, lo mismo vale para RandomUniProt. La desviación tı́pica en la frecuencia
de aminoácidos en la última base mencionada es de 0.003494, lo que
indica que el tamaño de esa base es suficiente para sacar conclusiones
estadı́sticas significativas.
122 Sólo tres aminoácidos muestran diferencias significativas en el
proteoma humano y en el proteoma del resto de los organismos. Son
la cisteı́na, el ácido aspártico y la isoleucina. Las diferencias en sus
respectivas frecuencias son las siguientes:
Cisteı́na
Isoleucia
A. aspártico
H. sapiens
Resto
Diferencia
0,885732
0,882164
1,287512
0,425678
1,262937
1,621299
0,460054
0,380773
0,333787
Tabla 8.1: Aminoácidos de especial frecuencia en el proteoma humano
123 La desviación tı́pica de las frecuencias de los aminoácidos proteinogénicos en el proteoma humano de UniProt es 0,325395, ligeramente
1
Las zonas codificadoras de los genes se conocen como exones; las no codificadores
como intrones.
Frecuencia y redundancia de aminoácidos —— 75
inferior a la correspondiente al caso de todos los organismos, que es
0,444621. En ambos casos muy superior a las correspondientes versiones aleatorias de RandomUniprot: 0,003494 y 0,000396 respectivamente. En el caso del proteoma humano de UniProt, la desviación tı́pica en
las frecuencias de los aminoácidos es 93 veces mayor que la desviación
tı́pica correspondiente a su versión aleatoria.
124 La Tabla 8.2 recoge los valores de frecuencia relativa, frecuencia
absoluta, redundancia relativa y redundancia absoluta de los aminoácidos en las 7385 proteı́nas de Homo sapiens de UniProt. Los datos aparecen ordenados por el valor decreciente de la primera columna (frecuencia relativa, es decir la frecuencia encontrada dividida por la frecuencia
esperada en términos probabilı́sticos).
Tabla 8.2
Aminoácido
Ácido glutámico
Lisina
Metionina
Glutamina
Ácido aspártico
Fenilalanina
Alanina
Glicina
Leucina
Asparagina
Prolina
Valina
Cisteı́na
Isoleucina
Tirosina
Trptófano
Serina
Treonina
Histidina
Arginina
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,913201
1,679810
1,441490
1,358908
1,287512
1,201866
1,123918
1,052552
1,035577
1,006603
0,961937
0,916895
0,885732
0,882164
0,872867
0,852166
0,808753
0,792402
0,787095
0,602555
6,272790
5,507574
2,363098
4,455435
4,221349
3,940544
7,369956
6,901978
10,186010
3,300339
6,307781
6,012427
2,904038
4,338513
2,861860
1,396994
7,954945
5,196076
2,580638
5,926768
2,005143
1,657942
1,332880
1,392336
1,355339
1,185052
1,105636
1,043642
1,029135
1,056590
0,957294
0,914088
0,802385
0,885660
0,858480
0,816591
0,817757
0,808615
0,824191
0,586672
25,581260
21,209670
8,459574
17,753480
17,434040
15,304710
28,115010
26,502510
39,308030
13,702490
24,339550
23,253680
10,627110
17,128780
11,286840
5,757850
31,069280
20,578940
10,906640
22,398910
76 —— Redundancia en el proteoma humano
Total
Media
D. tı́pica
21,464000
1,073200
0,325395
99,999110
4,999956
2,182170
21,435430
1,071771
0,337882
390,718400
19,535920
8,370809
Tabla 8.2: Frecuencia y redundancia de los aminoácidos en las proteı́nas
humanas de UniProt.
125 Ácido glutámico, lisina, metionina y glutamina son los aminoácidos que presentan una mayor frecuencia relativa en las proteı́nas humanas de UniProt, aunque el que presenta una mayor frecuencia absoluta
es la Leucina, lo mismo que ocurre en el resto de los grupos de organismos analizados.
126 También es interesante comparar las frecuencias relativas de los
aminoácidos del proteoma humano con sus correspondientes versiones
aleatorias de RandomUniProt. Es lo que se muestra en la Tabla 8.3.
Los valores muy próximos a la unidad en la columna de las proteı́nas
aleatorias indica que el tamaño de la muestra utilizada (7385 proteı́nas
con 2849090 residuos de aminoácidos) es más que suficiente. La comparación de la frecuencia de cada aminoácido en las proteı́nas naturales
con su equivalente en las proteı́nas aleatorias indica la desviación estadı́stica de esa frecuencia, desviación que en la mayorı́a de los casos no
se pueden explicar por puras consideraciones estadı́sticas. Parece claro
que esas desviaciones solo se pueden explicar con criterios funcionales
fisico-quı́micos y biológicos.
Tabla 8.3
Homo sapiens
Aminoácido
Ácido glutámico
Proteı́nas
naturales
Proteı́nas
aleatorias
1,913201
1,000408
Frecuencia y redundancia de aminoácidos —— 77
Tabla 8.3
Homo sapiens
Aminoácido
Lisina
Metionina
Glutamina
Ácido aspártico
Fenilalanina
Alanina
Glicina
Leucina
Asparagina
Prolina
Valina
Cisteı́na
Isoleucina
Tirosina
Trptófano
Serina
Treonina
Histidina
Arginina
Total
Media
D. tı́pica
Proteı́nas
naturales
Proteı́nas
aleatorias
1,679810
1,441490
1,358908
1,287512
1,201866
1,123918
1,052552
1,035577
1,006603
0,961937
0,916895
0,885732
0,882164
0,872867
0,852166
0,808753
0,792402
0,787095
0,602555
0,994138
0,997883
0,996447
1,005947
0,999115
0,999987
1,002509
1,004643
1,002797
1,002414
0,994817
0,999509
0,997184
1,004481
0,995641
0,999661
0,997691
0,994809
1,000687
21,464000
1,073200
0,325395
19,990770
0,999538
0,003494
Tabla 8.3: Frecuencia relativa de los amino ácidos en las proteı́nas humanas de UniProt y en las proteı́nas aleatorias de RandomUniProt.
127 Como ya vimos, la frecuencia relativa de los aminoácidos plantea
la cuestión del ajuste idóneo del código genético: la asignación ideal
de los 61 codones a los 20 aminoácidos proteinogénicos para que una
evolución aleatoria de la información genética produzca una frecuencia
relativa de los aminoácidos codificados lo más parecida posible a la frecuencia relativa observada. O dicho con otras palabras, una asignación
de códigos que requiera la mı́nima presión selectiva funcional sobre la
78 —— Redundancia en el proteoma humano
constitución quı́mica de las proteı́nas.
128 Como puede verse en la tabla 8.5, solo la codificación de dos
aminoácidos está idealmente ajustada en todos los organismos: la tirosina y el triptófano. El número de aminoácidos idealmente ajustados
(aquellos aminoácidos en los que el número de códigos asignados coincide con el número ideal de códigos deducidos de su frecuencia relativa)
en los diferentes grupos de la Tabla 8.5 es el siguiente:
Archaea
Bacteria
Eukaryota
Homo sapiens
5
6
8
13
Como era de esperar, cuando se emplean las proteı́nas aleatorias de
RandomUniProt el código genético ideal coincide con el real en todos
los casos considerados en la Tabla 8.5.
Tabla 8.5
Código genético ideal / real
Aminoácidos
Leucina
Ácido glutámico
Valina
Alanina
Isoleucina
Glicina
Lisina
Ácido aspártico
Arginina
Serina
Treonina
Prolina
Asparagina
Fenilalanina
Archaea
Bacteria
Eukaryota
H. sapiens
Real
5
5
5
5
5
5
4
4
3
3
3
3
2
2
6
4
5
6
4
5
3
3
3
3
3
3
2
2
6
4
4
4
3
4
4
3
3
5
3
3
3
3
6
4
4
4
3
4
3
3
3
5
3
4
2
2
6
2
4
4
3
4
2
2
6
6
4
4
2
2
Redundancia de micropéptidos —— 79
Tabla 8.5
Código genético ideal / real
Aminoácidos
Archaea
Bacteria
Eukaryota
H. sapiens
Real
Tirosina
Metionina
Glutamina
Histidina
Cisteı́na
Triptófano
2
1
1
1
1
1
2
2
2
1
1
1
2
1
3
1
1
1
2
1
3
2
2
1
2
1
2
2
2
1
61
3,05
1,6
5
61
3,05
1,5
6
61
3,05
1,35
8
61
3,05
1,29
13
61
3.05
1,61
20
Total
Media
D. tı́pica
Códigos ideales
Tabla 8.5: Código genético ideal en diferentes grupos de organismos
comparados con el código genético real (última columna de la derecha).
La última fila recoge el número de códigos ideales de cada uno de los
grupos considerados.
129 Aunque las diferencias en la redundancia relativa de micropéptidos en Homo sapiens respecto a otros grupos de organismos es mayor
cuanto mayor es el tamaño del micropéptido (véase la Figura 8.4 más
adelante), aparecen ya algunas diferencias en la redundancia interna de
los propios aminoácidos como puede verse comparando la Figura 8.1
con la Figura 4.2 del Capı́tulo 4.
Redundancia de micropéptidos
130 La frecuencia relativa de los dipéptidos, y especialmente la de los
tripéptidos y tetrapéptidos, en el proteoma humano es significativamente más elevada que en el resto de los organismos. Tampoco coinciden
los tripéptidos mas abundantes, y los menos abundantes, en las proteı́nas humanas y en las del resto de los organismos. Lo mismo ocurre
con los tetrapéptidos. Aunque en todos los casos suelen estar presentes
80 —— Redundancia en el proteoma humano
Figura 8.1: Redundancia relativa de los aminoácidos en las proteı́nas
naturales de Homo sapiens (cı́rculitos negros) de UniProt y en la correspondiente versión aleatoria de RandomUniProt (circulitos grises). Los
valores de redundancia de los aminoácidos de las proteı́nas aleatorias se
distribuyen en cinco escalones horizontales correspondientes cada uno
de ellos a los aminoácidos con 1, 2, 3, 4 y 6 codones del código genético. Como puede verse, la redundancia de los aminoácidos del proteoma
humano presentan fuertes desviaciones respecto a esos escalones.
los aminoácidos ácido glutámico (E), glutamiona (Q), lisina (K), ácido
aspártico (D) y metionina (M).
131 En el Capı́tulo 8 se muestran las tablas completas de resultados
Redundancia de micropéptidos —— 81
de frecuencia y redundancia de dipéptidos, tripéptidos y tetrapéptidos
de las proteı́nas humanas de UniProt. En la Tabla 8.6 de este capı́tulo
se recogen los 20 tripéptidos de mayor frecuencia relativa y los 20 de
menor frecuencia relativa.
Tabla 8.6
Tripéptido
EEE
KKK
QQQ
EEK
EED
EDE
KEE
DEE
QEE
KEK
EKE
EEM
MEE
KKE
EKK
EEQ
EQE
GEK
DED
MYF
EME
.
.
.
IRP
RTS
RSI
TRY
CMW
TRS
PIR
RTR
IWC
VWC
Frecuencia
Relativa
Frequency
Redundancia
relativa
Redundancia
33,156740
14,822770
13,956780
13,183690
12,786660
12,744740
11,875500
11,526520
10,924640
10,862820
10,344140
9,714064
9,454300
9,347754
9,144328
8,768473
8,538439
8,048815
8,019942
8,005039
7,810014
.
.
.
0,304607
0,300064
0,299173
0,297301
0,296922
0,293728
0,292576
0,289280
0,288338
0,287490
0,116862
0,052243
0,049191
0,046466
0,045067
0,044919
0,041855
0,040625
0,038504
0,038286
0,036458
0,017119
0,016661
0,032946
0,032229
0,030905
0,030094
0,056736
0,028266
0,014107
0,013763
.
.
.
0,009662
0,019036
0,014235
0,006287
0,000262
0,018635
0,009281
0,018352
0,000762
0,001013
34,145420
13,754270
10,500890
14,595140
13,123610
11,592020
12,482950
11,321740
12,583050
11,511940
11,712150
10,110490
9,269614
9,299645
8,929261
9,539895
10,510900
9,800165
8,438753
6,586832
8,388700
.
.
.
0,280291
0,306985
0,300311
0,280291
0,520540
0,285296
0,276954
0,276398
0,293638
0,360374
2,362188
1,673569
2,280435
1,468278
1,378549
1,327982
1,286894
1,283768
1,529197
1,370679
1,366822
1,163594
1,110312
1,284924
1,220246
1,215561
1,583710
2,438356
1,302937
1,085809
1,088312
.
.
.
1,041322
1,112903
1,074271
1,024390
1,000000
1,117647
1,064103
1,147806
1,000000
1,058824
82 —— Redundancia en el proteoma humano
Tabla 8.6
Tripéptido
PCR
WPI
RCT
STR
RTN
WTR
RHA
TRR
TRC
TTR
WWH
Total
Average
D. tı́pica
Frecuencia
Relativa
Frequency
Redundancia
relativa
Redundancia
0,283747
0,276992
0,276114
0,274149
0,269797
0,268172
0,267255
0,265292
0,259688
0,246799
0,242440
0,006000
0,001464
0,005839
0,017392
0,005705
0,002836
0,005652
0,016830
0,005492
0,010438
0,000214
0,306985
0,273617
0,288633
0,276398
0,306985
0,286964
0,296975
0,249703
0,250260
0,269446
0,200208
1,115152
1,000000
1,081250
1,089912
1,057471
1,075000
1,078788
1,095122
1,034483
1,129371
1,000000
9957,922000
1,244740
0,997294
99,998480
0,012500
0,011621
9976,780000
1,247097
1,015551
8738,302000
1,092288
0,133134
Tabla 8.6: Frecuencia y redundancia de tripéptidos en el proteoma humano.
132 La figura 8.2 es una representación gráfica de la variación de la
frecuencia relativa en los tripéptidos de las proteı́nas humanas comparada con la misma variación en las proteı́nas de todos los organismos
de UniProt.
133 Los valores de frecuencia relativa y de redundancia relativa de
los tetrapéptidos son muy superiores a los encontrados en Bacteria y
Archaea y muy parecidos a los encontrados en Eukaryota. La Tabla
8.7 recoge los 40 tetrapéptidos de mayor frecuencia relativa. Nótese la
elevada redundancia de algunos tetrapéptidos como QQQQ, EKPY,
GEKP y TGEK, todos ellos repetidos 4 ó 5 veces de promedio en las
proteı́nas en las que aparecen.
Redundancia de micropéptidos —— 83
Figura 8.2: Variación de la frecuencia relativa de los 8000 tripéptidos en
el proteoma humano comparada con la misma variación en el proteoma
del resto de los organismos.
Tabla 8.7
Tetrapéptido
Frecuencia
Relativa
Frequency
Redundancia
relativa
Redundancia
EEEE
QQQQ
MYFF
EKPY
KKKK
EEED
PMYF
EDEE
DEEE
EEDE
EEEK
EQEE
GEKP
TGEK
342,802800
229,014200
146,035400
97,154180
88,685210
87,512120
83,862900
81,391410
78,735760
73,977540
61,984830
61,396140
58,524450
57,319090
0,039614
0,026464
0,008438
0,022454
0,010248
0,010113
0,009691
0,009405
0,009099
0,008549
0,007163
0,007095
0,027052
0,026495
345,909100
134,690300
119,384600
139,894200
82,038640
88,773160
68,263490
77,753030
75,916350
68,569600
67,039030
87,854800
81,273350
79,360130
2,658823
4,036697
1,059783
5,345029
1,740260
1,203320
1,000000
1,198113
1,153488
1,230769
1,123077
2,432203
5,009434
4,650224
84 —— Redundancia en el proteoma humano
Tabla 8.7
Tetrapéptido
EDED
KEEE
EKEE
EEKE
EEME
EEMK
DEDE
MEEM
EEEM
EEDD
QEEK
DEED
QEEE
KEEK
KEKK
MEEE
EEKK
KKKE
KKEE
KKEK
.
.
.
Frecuencia
Relativa
Frequency
Redundancia
relativa
Redundancia
55,945420
52,435020
48,919960
45,166960
44,960410
43,753000
43,226530
43,095170
42,979710
41,451100
41,273970
40,486670
39,616680
38,203470
36,551030
34,923650
34,114940
33,910320
33,828630
33,129570
.
.
.
0,006465
0,006059
0,005653
0,005219
0,002598
0,002528
0,004995
0,001245
0,002483
0,004790
0,004770
0,004679
0,004578
0,004415
0,004224
0,002018
0,003942
0,003919
0,003909
0,003828
.
.
.
55,712800
55,406680
52,039430
50,508860
37,345940
48,978290
47,753830
23,264690
47,141600
39,794860
56,937260
39,488740
41,019310
46,529370
35,509250
28,162520
39,488740
29,386970
33,672570
35,509260
.
.
.
1,246575
1,110429
1,111111
1,100000
1,016667
1,066667
1,181818
1,055556
1,013158
1,092437
2,513514
1,075000
1,055118
1,151515
1,074074
1,022222
1,066116
1,054945
1,100000
1,137255
.
.
.
Tabla 8.7: Frecuencia y redundancia relativa de los tetrapéptidos más
abundantes en el proteoma humano.
134 La Figura 8.3 es una representación gráfica de la frecuencia relativa de los tetrapéptidos más abundantes en Homo sapiens, comparada
con la frecuencia relativa de los tetrapéptidos más abundantes en Archaea y Bacteria.
135 Los valores de redundancia interna de micropéptidos de 3 a 10
residuos son también considerablemente mayores en el caso de las proteı́nas humanas comparados con las del resto de los organismos. Las
diferencias, en escala logarı́tmica, se representan de forma gráfica en la
Figura 8.4.
Redundancia de micropéptidos —— 85
Figura 8.3: Frecuencia relativa de los tetrapéptidos más abundantes
en Archaea, Bacteria y Homo sapiens. Como en casos anteriores la
intersección de una lı́nea vertical con las tres gráficas no corresponde
necesariamente con el mismo tetrapéptido (de hecho en casi todos los
casos son tetrapéptidos diferentes).
Figura 8.4: Cada lı́nea representa el logaritmo decimal del cociente entre
redundancia real y redundancia teórica de micropéptidos de 3, 4, 5, 6
y 7 residuos en diferentes grupos de organismos.
136 Los resultados que se acaban de exponer en las tablas y figuras (y
que se completan en las tablas del Capı́tulo 8) prueban la elevadı́sima
frecuencia relativa de algunos micropéptidos en el proteoma humano y
86 —— Redundancia en el proteoma humano
la naturaleza altamente redundante de sus proteı́nas.
9.-junk-ADN
Introducción
137 Durante algo más de la primera mitad del siglo XX, se hicieron
descubrimientos fundamentales en la biologı́a que culminaron con el
desciframiento del código genético y el nacimiento de la biologı́a molecular. Desde finales de los años 60 hasta esta segunda década del siglo
XXI el desarrollo espectacular de la nueva ciencia biológica ha confirmado una y otra vez los fundamentos moleculares de los seres vivos
como sistemas infodinámicos, pero también ha tenido que ampliar el
escenario de esas interacciones hasta lı́mites inimaginables en aquellos
años 60, e incluso en estos de la segunda década del siglo XXI.
138 Si existe una palabra que nunca deberı́a formar parte de las
ciencias experimentales, esa palabra es ’dogma’. Sin embargo llegó a
formar parte, y parte importante, de la biologı́a molecular del siglo XX.
Una vez más, vendimos la piel antes de cazar el oso y enunciamos, no sin
cierta arrogancia, el llamado Dogma Central de la Biologı́a Molecular,
que establece la relación inmediata directa y única de los genes con las
proteı́nas: un gen, una proteı́na. Incluyendo en el esquema explicativo
la intervención de los genes operadores y de los genes reguladores.
139 Aunque hubo sospechas previas, fue el descubrimiento del ADN
basura (junk DNA, jADN de ahora en adelante) y sobre todo el desciframiento completo del genoma humano y el de otros organismos lo que
87
88 —— junk-ADN
acabó definitivamente pulverizando los esquemas simplistas de flujos de
información derivados del Dogma Central, incluyendo el propio contenido del dogma. Las cosas no eran tan sencillas. En realidad parece que
son inconcebiblemente más complicadas.
140 El hecho de llamar basura al nuevo ADN (junk-DNA, jADN)
tuvo que ver tanto con el hecho de que este jADN no codifica proteı́nas como con el hecho de que contenı́a secuencias aparentemente
absurdas de pares de bases (nucleótidos) que incluı́an microsecuencias
repetidas hasta millones de veces. Esas repeticiones indican la existencia de procesos de copiar y pegar fragmentos de ADN. De algunos de
esos procesos se conocen ciertos detalles (por ejemplo la producción de
retrogenes). De otros se desconoce prácticamente todo.
141 Tampoco sabemos gran cosa acerca de qué y cómo se regulan esos
procesos de copiar y pegar. Sabemos que ocurren, pero no de manera
sistemática. Ocurren de forma esporádica en los diferentes grupos de
organismos y en algunos más que en otros. Ocurren seguramente bajo
el control de señales epigenéticas celulares (marcajes quı́micos del ADN
o de sus proteı́nas histónicas). En cualquier caso, es posible que esos
mecanismos tengan que ver finalmente con la excesiva redundancia interna encontrada en las proteı́nas naturales, y que hemos analizado en
los capı́tulos precedentes. También es posible que la inimaginable complejidad de las redes moleculares que parecen gobernar la expresión
génica tenga que ver con esa redundancia. Por esa razón las introducimos en este capı́tulo.
junk-DNA
142 Antes de descifrar por completo el genoma humano se tenı́a la
impresión de que habrı́a una proporcionalidad entre el número de genes
(codificadores de proteı́nas) y la complejidad del organismos. Como es
junk-DNA —— 89
bien sabido, no es ası́. El genoma humano tiene unos 19000 genes según
las estimaciones más recientes [4], aproximadamente el mismo número
que el nemátodo Caenorhabditis elegans, de no más de 1mm de largo.
Lo único que realmente aumenta con la complejidad del organismo es
la cantidad de jADN, como puede verse en la Figura 9.1.
Figura 9.1: Abajo: genes codificadores de proteı́nas en millones de pares
de bases. Arriba: porcentaje de jADN en el genoma. (Modificado de [1,
p. 187].)
143 En el caso del genoma humano los genes codificadores de proteı́nas apenas constituyen el 2 %, siendo el 98 % restante jADN. Por
otra parte, algunos organismos completamente funcionales, como el pez
globo (Fugu rubripes) apenas si contiene jADN.
144 En términos energéticos no es fácil justificar la presencia de 98 %
de material genético inútil en todas las células del organismos, ni que
90 —— junk-ADN
se tenga que duplicar inmediatamente antes de cada división celular.
Ası́ que, a pesar del nombre, algunos autores pensaron que deberı́a tener
alguna función. Una de las primeras funciones que se consideraron fue la
de protección de los genes codificadores, se pensaba que al dispersarlos
en el seno del jADN quedarı́an más protegidos frente a las mutaciones
(Teorı́a del Aislamiento).
145 Es fácil ver, sin embargo, que esa protección no existe para el caso
de mutaciones producidas por impactos aleatorios de fotones energéticos u otros objetos mutagénicos. Imagı́nese un suelo enlosado con 95
ladrillos blancos y 5 ladrillos rojos sobre el que dejamos caer de forma
aleatoria bolas de plomo que rompen los ladrillos. No importa como
coloque los ladrillos rojos en el seno de los ladrillos blancos, juntos o
separados, al cabo de 100 impactos de promedio todos ellos estarán
rotos. Puede comprobarlo con una pequeña aplicación informática. O
derivando la conclusión del cálculo de probabilidades.
146 En la posición contraria se sitúan los que piensan que casi todo
el jADN es funcional. El proyecto ENCODE, que también tiene sus
detractores, asigna funciones bioquı́micas al 80 % del genoma. La expresión génica de las células estarı́a utilizando redes muy complejas de
interacciones moleculares en las que el jADN serı́a fundamental. Una
buena parte del jADN tendrı́a funciones regulatorias. Lo que parece
confirmarse al menos por el detalle de que las zonas regulatorias presentan una diversidad mucho menor que las zonas que no lo son.
147 Si bien las técnicas para demostrar las funciones de jADN no
están suficientemente desarrolladas, algunas de esas funciones podrı́an
ser:
1.- Formación de estructuras 3D especı́ficas con diferentes propósitos estructurales y regulatorios.
2.- Formación de puntos de anclaje para el aparato mitótico.
junk-DNA —— 91
3.- Codificación de diferentes tipos de ARN no codificadores de
proteı́nas:
a) Long non-coding RNA (lncRNA).
b) Long interacting non-coding RNA (lincRNA).
c) Micro RNA (miRNA).
d) Small interfering RNA (siRNA).
4.- Puntos de anclaje de complejos moleculares reguladores de
la expresión génica (potenciadores de genes). Podrı́an existir
más de 400000 regiones reguladoras.
5.- Interacciones con el sistema epigenético (marcas de desactivación en el ADN y en sus proteı́nas histónicas).
6.- Intrones (secciones no codificadoras de los genes) funcionales
que pueden actuar como promotores de otros genes.
7.- Posibilidad de regular la formación de diferentes proteı́nas a
partir de un mismo gen: splicings alternativos, distintas formas de unir los exones (zonas codificadoras del gen).
Con respecto al último punto sabemos que, por ejemplo, al menos el
70 % de los genes humanos codifican cada uno de ellos dos o más proteı́nas diferentes.
148 Gracias a la complicadı́sima maquinaria regulatoria de la expresión génica, los genes no solo se expresan o no se expresan sino que
pueden hacerlo en grados muy variables, como si existiera una especie
de potenciómetro (como el de los mandos del volumen de los aparatos de música) que regula la intensidad de su expresión, lo que abre un
mundo de nuevas opciones de regulación y coordinación de las funciones
celulares y del funcionamiento de los organismos.
92 —— junk-ADN
149 Muchas zonas reguladoras de jADN contienen repeticiones que
se han mantenido durante millones de años y en algunos casos la variación en el número de repeticiones tiene consecuencias funcionales.
Aquı́ nos planteamos las consecuencias de esta complejı́sima maquinaria reguladora de la expresión génica y de los procesos de cortar y pegar
información genética en el exceso de redundancia interna de las proteı́nas. Y nos preguntamos también sobre cuándo y por qué se ponen
en marcha esos procesos.
10.-Conclusiones
Introducción
150 En este capı́tulo se resumen los datos de los análisis de frecuencia
y redundancia llevados a cabo en las proteı́nas naturales de UniProt
y en las proteı́nas aleatorias de RandomUniProt. Puesto que los datos
presentan desviaciones estadı́sticas que no se pueden explicar en términos puramente probabilı́sticos se ha de concluir en un origen funcional
de las mismas.
151 Los datos no son compatibles con procesos sistemáticos, sino más
bien con procesos esporádicos separados por largos periodos de tiempo,
seguramente de decenas a cientos de millones de años. Además no ocurren con la misma intensidad en los diferentes grupos de organismos.
Se plantea entonces el arduo problema del control de esos procesos no
aleatorios de cambios en la información genética.
Discusión
152 El análisis estadı́stico de la frecuencia y de la redundancia de
aminoácidos y micropéptidos recogido en los capı́tulos anteriores pone
de manifiesto los siguientes hechos:
1.- La frecuencia relativa de los aminoácidos en las proteı́nas naturales de UniProt presenta desviaciones muy significativas
93
94 —— Conclusiones
respecto a las expectativas teóricas derivadas del cálculo de
probabilidades y respecto a las proteı́nas aleatorias de RandomUniProt.
2.- Lo mismo ocurre con los dipéptidos, tripéptidos y tetrapéptidos, siendo las desviaciones tanto más intensas cuanto mayor
es el tamaño de los micropéptidos considerados.
3.- Ciertos micropéptidos monoaminoacı́dicos de 5 a 15 residuos
presentan valores de frecuencia relativa y redundancia extremadamente altos.
4.- La redundancia interna de micropéptidos de 3 a 10 residuos
es también muy elevada e imposible de explicar en términos
estadı́sticos.
5.- Existen proteı́nas extremadamente redundantes, formadas exclusivamente por la repetición sucesiva, de varias decenas de
veces, de secuencias de 10 o más aminoácidos, que a su vez
incluyen un elevado número de repeticiones de dipéptidos y
tripéptidos.
6.- Siendo elevadas las desviaciones estadı́sticas encontradas, no
lo son tantos como para que resulten de procesos sistemáticos
realizados en todos los organismos.
7.- Las desviaciones estadı́sticas de frecuencias y redundancias
no afectan por igual a todos los organismos. Es mayor en
Eukaryota que en Bacteria, y mayor aún en mamı́feros, sobre
todo en los primates como el Homo sapiens.
153 Aún reconociendo que lo ignoramos casi todo sobre el origen de
las anomalı́as encontradas en la exploración estadı́stica de la base de
datos UniProt, es claro que al menos una conclusión sı́ puede sacarse:
que dichas anomalı́as no tienen explicación estadı́stica y que por tanto
Discusión —— 95
han de tener un origen funcional. Resulta también claro que los procesos
causantes de esas anomalı́as ni son sistemáticos ni tienen una intensidad
universal.
154 Es probable que se trate de mecanismos relacionados con cortar
y pegar fragmentos de información genética (algunos ya conocidos con
cierto detalle) sometidos a algún tipo de control epigenético que solo
funcione en ciertas condiciones.
155 Por otra parte, y dicho en términos muy generales, la elevada frecuencia relativa de algunos aminoácidos, y la de unos pocos micropéptidos de 2 a 4 residuos, solo puede explicarse bajo la intervención de una
presión selectiva sobre ellos, en estos casos seguramente debida a sus
caracterı́sticas fı́sico-quı́micas y a su empleo estructural y funcional.
96 —— Conclusiones
11.-Resultados numéricos: aminoácidos
Introducción
156 En este capı́tulo se exponen los principales datos numéricos encontrados en nuestro análisis de la frecuencia y de la redundancia de
los aminoácidos en las proteı́nas naturales de la base de datos UniProt
y en las proteı́nas aleatorias de RandomUniProt. En todos los casos,
los datos se exponen en forma de tablas con filas ordenadas por el valor
decreciente de la primera columna numérica.
157 Para facilitar el análisis y el contraste de datos, cada tabla extraı́a
de UniProt (proteı́nas naturales) va seguida de su correspondiente versión extraı́da de RandomUniProt (proteı́nas aleatorias). Con el mismo
propósito de facilitar el trabajo, cada tabla ocupa una página completa.
Para el tipo de análisis realizado en cada tabla (cada proteı́na / una
proteı́na) véase el capı́tulo sobre métodos de estudio.
158 Las tablas correspondientes a dipéptidos, tripéptidos y tetrapéptidos se exponen en los tres capı́tulos siguientes, aunque en estos casos
las tablas son completas, solo se muestran los primeros y los últimos
elementos de las tablas (que lógicamente corresponde a los mayores y
menores valores respectivamente de la primera columna, valores de la
frecuencia relativa. Tampoco se muestran los datos de proteı́nas aleatorias. En el penúltimo capı́tulo se exponen las tablas de redundancia
97
98 —— Resultados numéricos: aminoácidos
para micropéptidos de dos a diez residuos y las redundancias de algunos micropéptidos monoaminoacı́dicos y otros micropéptidos de mayor
tamaño. Los datos sobre el proteoma humano se incluyen en el último
capı́tulo.
159 Cada capı́tulo de esta última parte numérica se inicia con una
pequeña introducción seguida de un ı́ndice con las tablas del capı́tulo.
Índice de tablas —— 99
Índice de tablas
Aminoácidos.
Aminoácidos.
Aminoácidos.
Aminoácidos.
Naturales. Cada. Todos.
Aleatorias. Cada. Todos.
Naturales. Una. Todos.
Aleatorias. Una. Todos.
100
101
102
103
Aminoácidos.
Aminoácidos.
Aminoácidos.
Aminoácidos.
Naturales. Cada. Virus.
Aleatorias. Cada. Virus.
Naturales. Una. Virus.
Aleatorias. Una. Virus.
104
105
106
107
Aminoácidos.
Aminoácidos.
Aminoácidos.
Aminoácidos.
Naturales. Cada. Archaea.
Aleatorias. Cada. Archaea.
Naturales. Una. Archaea.
Aleatorias. Una. Archaea.
108
109
110
111
Aminoácidos.
Aminoácidos.
Aminoácidos.
Aminoácidos.
Naturales. Cada. Bacteria.
Aleatorias. Cada. Bacteria.
Naturales. Una. Bacteria.
Aleatorias. Una. Bacteria.
112
113
114
115
Aminoácidos.
Aminoácidos.
Aminoácidos.
Aminoácidos.
Naturales. Cada. Eukaryota.
Aleatorias. Cada. Eukaryota.
Naturales. Una. Eukaryota.
Aleatorias. Una. Eukaryota.
116
117
118
119
Aminoácidos.
Aminoácidos.
Aminoácidos.
Aminoácidos.
Naturales. Cada. Mammalia.
Aleatorias. Cada. Mammalia.
Naturales. Una. Mammalia.
Aleatorias. Una. Mammalia.
120
121
122
123
Aminoácidos.
Aminoácidos.
Aminoácidos.
Aminoácidos.
Naturales. Cada. Homo sapiens.
Aleatorias. Cada. Homo sapiens.
Naturales. Una. Homo sapiens.
Aleatorias. Una. Homo sapiens.
186
125
187
127
100 —— Resultados numéricos: aminoácidos
Tabla 11.1: Proteı́nas naturales de UniProt. Número de proteı́nas:
483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 338,5 residuos. Tipo de análisis: Cada proteı́na. Todos los organismos. Número de especies: 9124.
Aminoácido
Ácido glutámico
Lisina
Ácido aspártico
Metionina
Alanina
Isoleucina
Asparagina
Fenilalanina
Glutamina
Glicina
Valina
Leucina
Tirosina
Treonina
Histidina
Prolina
Triptófano
Serina
Arginina
Cisteı́na
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
2,024570
1,902948
1,621299
1,563094
1,305299
1,262937
1,200812
1,174353
1,138860
1,097778
1,090396
0,973415
0,878584
0,800979
0,675667
0,669555
0,627643
0,616173
0,591051
0,425678
6,637934
6,239175
5,315734
2,562449
8,559340
6,211167
3,937089
3,850336
3,733968
7,198547
7,150135
9,574573
2,880604
5,252320
2,215301
4,390523
1,028923
6,060722
5,813621
1,395667
2,051690
1,784396
1,682137
1,489157
1,284913
1,245932
1,245622
1,184698
1,172302
1,092661
1,062180
0,981588
0,898244
0,813679
0,683948
0,694988
0,655145
0,644231
0,562700
0,393510
23,004530
19,963610
18,911470
8,301106
28,619120
20,866010
14,015370
13,367850
13,245640
24,331410
23,643920
32,772280
10,288640
18,160750
8,003811
15,623920
4,632117
21,518220
18,866520
5,320808
21,641090
1,082055
0,444621
100,008100
5,000407
2,317696
21,623720
1,081186
0,436205
343,457100
17,172850
7,604870
Índice de tablas —— 101
Tabla 11.2: Proteı́nas aleatorias de RandomUniProt. Número de
proteı́nas: 483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media:
338,5 residuos. Tipo de análisis: Cada proteı́na. Todos los organismos. Número de especies: 9124.
Aminoácido
Triptófano
Metionina
Histidina
Glutamina
Valina
Leucina
Arginina
Glicina
Ácido glutámico
Lisina
Alanina
Serina
Cisteı́na
Isoleucina
Fenilalanina
Tirosina
Prolina
Ácido aspártico
Treonina
Asparagina
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,001129
1,000886
1,000542
1,000492
1,000314
1,000240
1,000220
1,000212
1,000206
1,000133
1,000080
1,000064
0,999993
0,999970
0,999905
0,999898
0,999796
0,999754
0,999636
0,999498
1,641195
1,640796
3,280465
3,280301
6,559438
9,838423
9,838225
6,558765
3,279364
3,279125
6,557902
9,836699
3,278665
4,917885
3,278376
3,278352
6,556039
3,277881
6,554992
3,277043
0,999989
0,999883
1,000024
1,000042
1,000055
1,000029
0,999993
0,999987
0,999865
1,000005
1,000014
1,000005
1,000082
0,999904
0,999963
1,000098
1,000001
0,999901
1,000058
0,999916
5,883404
5,879686
11,244590
11,240480
22,232060
33,306880
33,304790
22,230550
11,243060
11,242790
22,232360
33,306130
11,241000
16,719060
11,242840
11,242170
22,232570
11,241840
22,232650
11,243250
20,002970
1,000148
0,000396
100,009900
5,000497
2,631533
19,999810
0,999991
0,000067
340,742100
17,037110
8,826270
102 —— Resultados numéricos: aminoácidos
Tabla 11.3: Proteı́nas naturales de UniProt. Número de proteı́nas:
483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 338,5 residuos. Tipo de análisis: Una proteı́na. Todos los organismos. Número
de especies: 9124.
Aminoácido
Ácido glutámico
Lisina
Ácido aspártico
Metionina
Alanina
Isoleucina
Asparagina
Fenilalanina
Glutamina
Glicina
Valina
Leucina
Tirosina
Treonina
Prolina
Histidina
Triptófano
Serina
Arginina
Cisteı́na
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
2,051690
1,784396
1,682137
1,489157
1,284912
1,245932
1,245622
1,184698
1,172302
1,092661
1,062180
0,981588
0,898244
0,813679
0,694988
0,683948
0,655145
0,644231
0,562700
0,393511
6,726853
5,850479
5,515203
2,441242
8,425655
6,127532
4,084007
3,884254
3,843612
7,164989
6,965113
9,654961
2,945062
5,335600
4,557295
2,242452
1,074008
6,336696
5,534758
1,290198
2,072759
1,798765
1,703965
1,495896
1,289323
1,253418
1,262815
1,204473
1,193461
1,096157
1,065184
0,984313
0,927030
0,818162
0,703875
0,721161
0,834728
0,646298
0,566655
0,479417
23,004530
19,963610
18,911470
8,301106
28,619120
20,866010
14,015370
13,367850
13,245640
24,331410
23,643920
32,772280
10,288640
18,160750
15,623920
8,003811
4,632117
21,518220
18,866520
5,320808
21,623720
1,081186
0,436205
99,999960
4,999998
2,300427
22,117850
1,105893
0,424951
343,457100
17,172850
7,604870
Índice de tablas —— 103
Tabla 11.4: Proteı́nas aleatorias de RandomUniProt. Número de
proteı́nas: 483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media:
338,5 residuos. Tipo de análisis: Una proteı́na. Todos los organismos. Número de especies: 9124.
Aminoácido
Tirosina
Cisteı́na
Treonina
Valina
Glutamina
Leucina
Histidina
Alanina
Serina
Lisina
Prolina
Arginina
Triptófano
Glicina
Fenilalanina
Asparagina
Isoleucina
Ácido aspártico
Metionina
Ácido glutámico
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,000098
1,000082
1,000058
1,000055
1,000042
1,000029
1,000024
1,000014
1,000005
1,000005
1,000001
0,999993
0,999989
0,999987
0,999963
0,999916
0,999904
0,999902
0,999883
0,999865
3,279010
3,278958
6,557760
6,557736
3,278827
9,836355
3,278766
6,557470
9,836113
3,278703
6,557383
9,836001
1,639325
6,557290
3,278567
3,278411
4,917560
3,278365
1,639152
3,278244
1,012944
1,012839
1,001605
1,001579
1,012792
1,000370
1,013162
1,001592
1,000347
1,013000
1,001602
1,000307
1,060215
1,001511
1,013005
1,013042
1,004311
1,012915
1,059545
1,013024
11,242170
11,241000
22,232650
22,232060
11,240480
33,306880
11,244590
22,232360
33,306130
11,242790
22,232570
33,304790
5,883404
22,230550
11,242840
11,243250
16,719060
11,241840
5,879686
11,243060
19,999810
0,999991
0,000067
100,000000
5,000000
2,631373
20,249710
1,012486
0,017167
340,742100
17,037110
8,826270
104 —— Resultados numéricos: aminoácidos
Tabla 11.5: Proteı́nas naturales de UniProt. Número de proteı́nas:
14187. Número de aminoácidos: 5983070. Secuencia mı́nima: 30 residuos. Secuencia máxima: 4036 residuos. Secuencia media: 421,73 residuos. Tipo de análisis: Cada proteı́na. Virus. Número de especies:
751.
Aminoácido
Lisina
Ácido glutámico
Asparagina
Ácido aspártico
Metionina
Isoleucina
Fenilalanina
Tirosina
Glutamina
Valina
Leucina
Alanina
Treonina
Glicina
Triptófano
Serina
Prolina
Histidina
Cisteı́na
Arginina
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,859471
1,744778
1,602398
1,596265
1,576407
1,351213
1,269723
1,168827
1,117525
0,958577
0,934832
0,931967
0,931012
0,862810
0,807771
0,747150
0,730075
0,688094
0,657427
0,567220
6,096626
5,720583
5,253765
5,233657
2,584273
6,645308
4,163025
3,832218
3,664016
6,285747
9,195071
6,111258
6,104994
5,657769
1,324215
7,349017
4,787374
2,256044
2,155498
5,579214
1,776274
1,735472
1,590462
1,628522
1,509444
1,289773
1,255522
1,150764
1,119020
0,970368
0,924700
0,978887
0,961481
0,912757
0,812821
0,753998
0,751855
0,681162
0,606190
0,558010
24,887150
24,388640
22,280580
22,821900
10,474070
26,896880
17,704770
16,280180
15,855110
26,945080
38,398600
27,361710
26,713410
25,575200
6,490068
31,343290
21,184790
10,003820
9,231737
23,407800
22,103540
1,105177
0,395439
99,999680
4,999984
1,938576
21,967480
1,098374
0,381456
428,244800
21,412240
8,105198
Índice de tablas —— 105
Tabla 11.6: Proteı́nas aleatorias de RandomUniProt. Número de
proteı́nas: 14187. Número de aminoácidos: 5983070. Secuencia mı́nima:
30 residuos. Secuencia máxima: 4036 residuos. Secuencia media: 421,73
residuos. Tipo de análisis: Cada proteı́na. Virus. Número de especies:
751.
Aminoácido
Metionina
Glutamina
Glicina
Lisina
Arginina
Fenilalanina
Serina
Ácido aspártico
Tirosina
Valina
Isoleucina
Treonina
Prolina
Asparagina
Leucina
Triptófano
Histidina
Alanina
Ácido glutámico
Cisteı́na
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,008514
1,005834
1,003653
1,003452
1,002752
1,002010
1,001453
1,001009
1,000264
1,000176
0,999211
0,998780
0,998214
0,997931
0,997839
0,997780
0,997717
0,996852
0,996294
0,991895
1,653301
3,297816
6,581328
3,290007
9,863138
3,285278
9,850358
3,281996
3,279553
6,558528
4,914153
6,549376
6,545665
3,271906
9,814807
1,635704
3,271202
6,536736
3,266539
3,252115
1,007329
1,000463
1,001166
1,001034
1,002179
0,999688
1,000334
1,000534
0,999785
1,001235
0,999034
0,999744
1,000697
0,998572
0,998203
1,001406
0,997700
0,999609
0,997338
0,994922
7,446639
14,046450
27,727660
14,067560
41,583660
14,036580
41,510010
14,022360
14,017870
27,733480
20,826430
27,684360
27,738170
14,033960
41,415750
7,425234
14,016690
27,709960
14,058920
13,947690
20,001630
1,000081
0,003701
99,999510
4,999976
2,632527
20,000970
1,000048
0,002408
425,049400
21,252470
10,981140
106 —— Resultados numéricos: aminoácidos
Tabla 11.7: Proteı́nas naturales de UniProt. Número de proteı́nas:
14187. Número de aminoácidos: 5983070. Secuencia mı́nima: 30 residuos. Secuencia máxima: 4036 residuos. Secuencia media: 421,73 residuos. Tipo de análisis: Una proteı́na. Virus. Número de especies:
751.
Aminoácido
Lisina
Ácido glutámico
Ácido aspártico
Asparagina
Metionina
Isoleucina
Fenilalanina
Tirosina
Glutamina
Alanina
Valina
Treonina
Leucina
Glicina
Triptófano
Serina
Prolina
Histidina
Cisteı́na
Arginina
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,776274
1,735472
1,628522
1,590462
1,509444
1,289773
1,255522
1,150764
1,119020
0,978887
0,970368
0,961481
0,924700
0,912757
0,812821
0,753998
0,751855
0,681162
0,606190
0,558010
5,823850
5,690072
5,339416
5,214631
2,474499
6,343148
4,116465
3,772996
3,668919
6,418929
6,363071
6,304790
9,095414
5,985288
1,332493
7,416377
4,930195
2,233318
1,987508
5,488620
1,799877
1,763824
1,650515
1,611366
1,515002
1,296817
1,280436
1,177408
1,146666
0,989421
0,974355
0,965977
0,925683
0,924819
0,938744
0,755599
0,766058
0,723492
0,667654
0,564296
24,887150
24,388640
22,821900
22,280580
10,474070
26,896880
17,704770
16,280180
15,855110
27,361710
26,945080
26,713410
38,398600
25,575200
6,490068
31,343290
21,184790
10,003820
9,231737
23,407800
21,967490
1,098374
0,381456
99,999990
5,000000
1,961955
22,438010
1,121900
0,378084
428,244800
21,412240
8,105198
Índice de tablas —— 107
Tabla 11.8: Proteı́nas aleatorias de RandomUniProt. Número de
proteı́nas: 14187. Número de aminoácidos: 5983070. Secuencia mı́nima:
30 residuos. Secuencia máxima: 4036 residuos. Secuencia media: 421,73
residuos. Tipo de análisis: Una proteı́na. Virus. Número de especies:
751.
Aminoácido
Metionina
Arginina
Triptófano
Valina
Glicina
Lisina
Prolina
Ácido aspártico
Glutamina
Serina
Tirosina
Treonina
Fenilalanina
Alanina
Isoleucina
Asparagina
Leucina
Histidina
Ácido glutámico
Cisteı́na
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,007329
1,002179
1,001406
1,001235
1,001166
1,001034
1,000697
1,000534
1,000463
1,000334
0,999785
0,999744
0,999688
0,999609
0,999034
0,998572
0,998203
0,997700
0,997338
0,994922
1,651360
9,857498
1,641649
6,565475
6,565024
3,282078
6,561949
3,280440
3,280206
9,839347
3,277983
6,555698
3,277665
6,554812
4,913280
3,274005
9,818388
3,271147
3,269960
3,262038
1,077105
1,002465
1,074009
1,002864
1,002653
1,017387
1,003034
1,014119
1,015861
1,000690
1,013794
1,001088
1,015147
1,002013
1,004133
1,014958
0,998417
1,013708
1,016763
1,008718
7,446639
41,583660
7,425234
27,733480
27,727660
14,067560
27,738170
14,022360
14,046450
41,510010
14,017870
27,684360
14,036580
27,709960
20,826430
14,033960
41,415750
14,016690
14,058920
13,947690
20,000970
1,000048
0,002408
99,999990
5,000000
2,632663
20,298930
1,014946
0,021706
425,049400
21,252470
10,981140
108 —— Resultados numéricos: aminoácidos
Tabla 11.9: Proteı́nas naturales de UniProt. Número de proteı́nas:
18139. Número de aminoácidos: 5212818. Secuencia mı́nima: 31 residuos. Secuencia máxima: 9159 residuos. Secuencia media: 287,38 residuos. Tipo de análisis: Cada proteı́na. Archaea. Número de especies:
143.
Aminoácido
Ácido glutámico
Lisina
Ácido aspártico
Isoleucina
Metionina
Valina
Alanina
Glicina
Asparagina
Fenilalanina
Tirosina
Leucina
Treonina
Glutamina
Prolina
Arginina
Histidina
Serina
Triptófano
Cisteı́na
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
2,558446
2,325388
1,713365
1,585684
1,565549
1,239794
1,164516
1,139648
1,100842
1,029299
1,006461
0,892102
0,714857
0,667488
0,631187
0,607204
0,526142
0,526128
0,478352
0,315614
8,388346
7,624224
5,617589
7,798446
2,566474
8,129798
7,636168
7,473100
3,609318
3,374750
3,299872
8,774770
4,687587
2,188486
4,138928
5,972500
1,725056
5,175030
0,784183
1,034800
2,592567
2,179267
1,797375
1,563346
1,491504
1,222992
1,188421
1,152426
1,112578
1,055116
1,034497
0,900288
0,732251
0,663487
0,642951
0,577833
0,536563
0,532910
0,503347
0,274937
24,571670
20,597410
17,146290
22,160350
7,028676
23,081270
22,467290
21,760320
10,690560
10,147540
9,948684
25,506130
13,895580
6,602119
12,226080
16,395110
5,479178
15,158220
3,275012
3,512746
21,788060
1,089403
0,606798
99,999430
4,999971
2,625978
21,754650
1,087733
0,598200
291,650200
14,582510
7,345428
Índice de tablas —— 109
Tabla 11.10: Proteı́nas aleatorias de RandomUniProt. Número
de proteı́nas: 18139. Número de aminoácidos: 5212818. Secuencia mı́nima: 31 residuos. Secuencia máxima: 9159 residuos. Secuencia media:
287,38 residuos. Tipo de análisis: Cada proteı́na. Archaea. Número
de especies: 143.
Aminoácido
Triptófano
Glutamina
Alanina
Tirosina
Serina
Arginina
Ácido aspártico
Metionina
Glicina
Histidina
Isoleucina
Leucina
Ácido glutámico
Prolina
Treonina
Lisina
Valina
Cisteı́na
Fenilalanina
Asparagina
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,004066
1,002378
1,002343
1,001643
1,001630
1,001348
1,001234
1,001222
1,001133
1,000766
1,000617
1,000610
1,000510
0,999112
0,998701
0,997286
0,997162
0,997147
0,995940
0,991699
1,646010
3,286486
6,572742
3,284074
9,852095
9,849329
3,282733
1,641347
6,564808
3,281201
4,921068
9,842060
3,280361
6,551552
6,548862
3,269789
6,538764
3,269335
3,265377
3,251472
1,005406
1,003300
1,000535
1,001714
1,000840
1,000674
0,999163
0,998794
0,999821
1,001527
1,001938
1,000138
1,000216
1,000368
1,002223
0,995840
0,996281
0,998285
0,995840
0,995693
5,049544
9,570576
18,875600
9,568267
28,292370
28,290800
9,535374
5,006041
18,859010
9,559533
14,220510
28,272520
9,536372
18,874540
18,912660
9,509499
18,794320
9,528594
9,501005
9,509695
19,996550
0,999827
0,002825
99,999460
4,999973
2,635114
19,998600
0,999930
0,002593
289,266800
14,463340
7,492521
110 —— Resultados numéricos: aminoácidos
Tabla 11.11: Proteı́nas naturales de UniProt. Número de proteı́nas:
18139. Número de aminoácidos: 5212818. Secuencia mı́nima: 31 residuos. Secuencia máxima: 9159 residuos. Secuencia media: 287,38 residuos. Tipo de análisis: Una proteı́na. Archaea. Número de especies:
143.
Aminoácido
Ácido glutámico
Lisina
Ácido aspártico
Isoleucina
Metionina
Valina
Alanina
Glicina
Asparagina
Fenilalanina
Tirosina
Leucina
Treonina
Glutamina
Prolina
Arginina
Histidina
Serina
Triptófano
Cisteı́na
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
2,592567
2,179267
1,797375
1,563346
1,491504
1,222992
1,188421
1,152426
1,112578
1,055116
1,034497
0,900288
0,732251
0,663487
0,642951
0,577833
0,536563
0,532910
0,503347
0,274937
8,500220
7,145137
5,893032
7,688586
2,445088
8,019616
7,792925
7,556891
3,647797
3,459396
3,391793
8,855287
4,801645
2,175369
4,216069
5,683605
1,759221
5,241733
0,825158
0,901432
2,607805
2,186015
1,819746
1,567930
1,491914
1,224814
1,192233
1,154717
1,134595
1,076964
1,055859
0,902329
0,737373
0,700687
0,648780
0,580009
0,581508
0,536251
0,695158
0,372810
24,571670
20,597410
17,146290
22,160350
7,028676
23,081270
22,467290
21,760320
10,690560
10,147540
9,948684
25,506130
13,895580
6,602119
12,226080
16,395110
5,479178
15,158220
3,275012
3,512746
21,754650
1,087733
0,598200
100,000000
5,000000
2,619791
22,267500
1,113375
0,582826
291,650200
14,582510
7,345428
Índice de tablas —— 111
Tabla 11.12: Proteı́nas aleatorias de UniProt. Número de proteı́nas: 18139. Número de aminoácidos: 5212818. Secuencia mı́nima: 31
residuos. Secuencia máxima: 9159 residuos. Secuencia media: 287,38 residuos. Tipo de análisis: Una proteı́na. Archaea. Número de especies:
143.
Aminoácido
Triptófano
Glutamina
Treonina
Isoleucina
Tirosina
Histidina
Serina
Arginina
Alanina
Prolina
Ácido glutámico
Leucina
Glicina
Ácido aspártico
Metionina
Cisteı́na
Valina
Lisina
Fenilalanina
Asparagina
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,005406
1,003300
1,002223
1,001938
1,001714
1,001527
1,000840
1,000674
1,000535
1,000368
1,000216
1,000138
0,999821
0,999163
0,998794
0,998285
0,996281
0,995840
0,995840
0,995693
1,648206
3,289507
6,571954
4,927565
3,284308
3,283694
9,844330
9,842699
6,560885
6,559792
3,279397
9,837424
6,556205
3,275944
1,637368
3,273067
6,532992
3,265048
3,265048
3,264568
1,071822
1,015731
1,003606
1,006156
1,015485
1,014559
1,000897
1,000842
1,001639
1,001583
1,012100
1,000195
1,000759
1,011994
1,062588
1,011275
0,997326
1,009248
1,008347
1,009269
5,049544
9,570576
18,912660
14,220510
9,568267
9,559533
28,292370
28,290800
18,875600
18,874540
9,536372
28,272520
18,859010
9,535374
5,006041
9,528594
18,794320
9,509499
9,501005
9,509695
19,998600
0,999930
0,002593
100,000000
5,000000
2,633202
20,255420
1,012771
0,019516
289,266800
14,463340
7,492521
112 —— Resultados numéricos: aminoácidos
Tabla 11.13: Proteı́nas naturales de UniProt. Número de proteı́nas:
314799. Número de aminoácidos: 98199016. Secuencia mı́nima: 30 residuos. Secuencia máxima: 10746 residuos. Secuencia media: 311,94 residuos. Tipo de análisis: Cada proteı́na. Bacteria. Número de especies:
1722.
Aminoácido
Ácido glutámico
Lisina
Ácido aspártico
Metionina
Alanina
Isoleucina
Glicina
Valina
Glutamina
Asparagina
Fenilalanina
Leucina
Tirosina
Treonina
Histidina
Prolina
Arginina
Triptófano
Serina
Cisteı́na
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
2,069770
1,874050
1,670561
1,587105
1,431857
1,297489
1,146948
1,145660
1,141201
1,132851
1,118625
0,975884
0,818675
0,786743
0,673493
0,628058
0,612642
0,562817
0,544975
0,302986
6,786129
6,144425
5,477249
2,601811
9,389223
6,381094
7,520967
7,512523
3,741643
3,714266
3,667623
9,598859
2,684180
5,158968
2,208174
4,118410
6,025990
0,922651
5,360414
0,993398
2,089114
1,721344
1,737589
1,530405
1,442299
1,290927
1,167664
1,125345
1,152414
1,145945
1,131331
0,987949
0,845269
0,795737
0,671253
0,646437
0,583251
0,592804
0,549502
0,290676
21,519960
17,694090
17,946390
7,830096
29,548510
19,871740
23,927450
23,041790
11,934630
11,855850
11,763290
30,365730
8,942415
16,351670
7,192397
13,390900
17,973300
4,032980
16,912820
3,795067
21,522390
1,076119
0,476514
100,008000
5,000400
2,495270
21,497250
1,074863
0,467362
315,891100
15,794550
7,620098
Índice de tablas —— 113
Tabla 11.14: Proteı́nas aleatorias de RandomUniProt. Número de
proteı́nas: 314799. Número de aminoácidos: 98199016. Secuencia mı́nima: 30 residuos. Secuencia máxima: 10746 residuos. Secuencia media:
311,94 residuos. Tipo de análisis: Cada proteı́na. Bacteria. Número
de especies: 1722.
Aminoácido
Triptófano
Histidina
Cisteı́na
Alanina
Ácido glutámico
Metionina
Isoleucina
Leucina
Valina
Lisina
Arginina
Serina
Glutamina
Treonina
Tirosina
Fenilalanina
Glicina
Prolina
Asparagina
Ácido aspártico
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,001004
1,000690
1,000672
1,000607
1,000479
1,000465
1,000420
1,000307
1,000237
1,000201
1,000029
0,999974
0,999882
0,999832
0,999829
0,999726
0,999695
0,999627
0,999488
0,999450
1,640990
3,280949
3,280892
6,561356
3,280258
1,640106
4,920100
9,839087
6,558928
3,279346
9,836349
9,835805
3,278302
6,556278
3,278126
3,277791
6,555376
6,554932
3,277008
3,276883
1,000159
1,000272
1,000357
1,000320
1,000053
0,999967
0,999878
0,999896
1,000161
1,000360
0,999891
0,999998
0,999474
0,999963
0,999948
0,999908
0,999968
0,999871
0,999933
0,999895
5,410071
10,346340
10,342500
20,481860
10,343140
5,406820
15,389690
30,685070
20,480230
10,347720
30,685420
30,688400
10,335600
20,476560
10,340560
10,341850
20,478050
20,476380
10,340640
10,342640
20,002610
1,000130
0,000443
100,008900
5,000443
2,631379
20,000270
1,000014
0,000211
313,739500
15,686980
8,137665
114 —— Resultados numéricos: aminoácidos
Tabla 11.15: Proteı́nas naturales de UniProt. Número de proteı́nas:
314799. Número de aminoácidos: 98199016. Secuencia mı́nima: 30 residuos. Secuencia máxima: 10746 residuos. Secuencia media: 311,94 residuos. Tipo de análisis: Una proteı́na. Bacteria. Número de especies:
1722.
Aminoácido
Ácido glutámico
Ácido aspártico
Lisina
Metionina
Alanina
Isoleucina
Glicina
Glutamina
Asparagina
Fenilalanina
Valina
Leucina
Tirosina
Treonina
Histidina
Prolina
Triptófano
Arginina
Serina
Cisteı́na
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
2,089114
1,737589
1,721344
1,530405
1,442299
1,290927
1,167664
1,152414
1,145945
1,131331
1,125345
0,987949
0,845269
0,795737
0,671253
0,646437
0,592804
0,583251
0,549502
0,290676
6,849553
5,697011
5,643750
2,508861
9,457695
6,348820
7,656812
3,778407
3,757195
3,709283
7,379314
9,717533
2,771375
5,217949
2,200830
4,238932
0,971810
5,736890
5,404940
0,953035
2,104176
1,754760
1,730090
1,531220
1,444595
1,295266
1,169788
1,166943
1,159240
1,150190
1,126489
0,989639
0,874371
0,799416
0,703257
0,654667
0,788673
0,585762
0,551200
0,371074
21,519960
17,946390
17,694090
7,830096
29,548510
19,871740
23,927450
11,934630
11,855850
11,763290
23,041790
30,365730
8,942415
16,351670
7,192397
13,390900
4,032980
17,973300
16,912820
3,795067
21,497250
1,074863
0,467362
99,999990
5,000000
2,498789
21,950820
1,097541
0,452823
315,891100
15,794550
7,620098
Índice de tablas —— 115
Tabla 11.16: Proteı́nas aleatorias de RandomUniProt. Número de
proteı́nas: 314799. Número de aminoácidos: 98199016. Secuencia mı́nima: 30 residuos. Secuencia máxima: 10746 residuos. Secuencia media:
311,94 residuos. Tipo de análisis: Una proteı́na. Bacteria. Número de
especies: 1722.
Aminoácido
Lisina
Cisteı́na
Alanina
Histidina
Valina
Triptófano
Ácido glutámico
Serina
Glicina
Metionina
Treonina
Tirosina
Asparagina
Fenilalanina
Leucina
Ácido aspártico
Arginina
Isoleucina
Prolina
Glutamina
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,000360
1,000357
1,000320
1,000272
1,000161
1,000159
1,000053
0,999998
0,999968
0,999967
0,999963
0,999948
0,999933
0,999908
0,999896
0,999895
0,999891
0,999878
0,999871
0,999474
3,279870
3,279860
6,559477
3,279580
6,558433
1,639604
3,278861
9,836045
6,557169
1,639290
6,557133
3,278518
3,278468
3,278388
9,835040
3,278343
9,834993
4,917431
6,556532
3,276965
1,011778
1,011268
1,001337
1,011643
1,001257
1,057971
1,011330
1,000155
1,001150
1,057335
1,001078
1,011078
1,011086
1,011204
1,000047
1,011281
1,000058
1,003120
1,001069
1,010593
10,347720
10,342500
20,481860
10,346340
20,480230
5,410071
10,343140
30,688400
20,478050
5,406820
20,476560
10,340560
10,340640
10,341850
30,685070
10,342640
30,685420
15,389690
20,476380
10,335600
20,000270
1,000014
0,000211
100,000000
5,000000
2,631114
20,225840
1,011292
0,016630
313,739500
15,686980
8,137665
116 —— Resultados numéricos: aminoácidos
Tabla 11.17: Proteı́nas naturales de UniProt. Número de proteı́nas:
136293. Número de aminoácidos: 54241427. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 397,98 residuos. Tipo de análisis: Cada proteı́na. Eukaryota. Número de especies: 6508.
Aminoácido
Lisina
Ácido glutámico
Metionina
Ácido aspártico
Asparagina
Fenilalanina
Glutamina
Isoleucina
Alanina
Glicina
Leucina
Tirosina
Valina
Treonina
Serina
Triptófano
Prolina
Cisteı́na
Histidina
Arginina
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,917793
1,878291
1,505548
1,497886
1,329161
1,312225
1,198322
1,130792
1,070570
1,003017
0,982514
0,969565
0,956556
0,831760
0,778950
0,778236
0,764139
0,699445
0,699154
0,541456
6,287847
6,158332
2,468111
4,911102
4,357905
4,302376
3,928924
5,561270
7,020130
6,577157
9,664069
3,178900
6,272499
5,454160
7,661805
1,275796
5,010745
2,293261
2,292307
5,325797
1,861494
1,966838
1,412019
1,576586
1,400828
1,285953
1,263083
1,129131
1,043009
0,970976
0,984159
0,953201
0,942497
0,837683
0,814318
0,765203
0,781612
0,567619
0,721403
0,524559
24,659910
26,113420
9,347548
20,990710
18,613720
17,048590
16,898440
22,377370
27,412920
25,482980
38,732880
12,800660
24,773940
22,026860
31,975230
5,797478
20,661210
8,145520
10,031810
20,806350
21,845380
1,092269
0,383227
100,002500
5,000125
2,064268
21,802170
1,090109
0,397875
404,697500
20,234880
8,268866
Índice de tablas —— 117
Tabla 11.18: Proteı́nas aleatorias de RandomUniProt. Número de
proteı́nas: 136293. Número de aminoácidos: 54241427. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media:
397,98 residuos. Tipo de análisis: Cada proteı́na. Eukaryota. Número
de especies: 6508.
Aminoácido
Triptófano
Glutamina
Valina
Glicina
Metionina
Asparagina
Fenilalanina
Prolina
Leucina
Histidina
Arginina
Ácido aspártico
Serina
Lisina
Ácido glutámico
Tirosina
Cisteı́na
Treonina
Isoleucina
Alanina
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,000977
1,000905
1,000828
1,000754
1,000578
1,000509
1,000360
1,000319
1,000283
1,000228
1,000203
0,999976
0,999872
0,999839
0,999714
0,999611
0,999428
0,999251
0,998863
0,998802
1,640945
3,281655
6,562808
6,562320
1,640292
3,280356
3,279870
6,559465
9,838851
3,279436
9,838059
3,278608
9,834807
3,278161
3,277749
3,277412
3,276814
6,552467
4,912438
6,549521
0,999004
1,000712
1,000095
0,999906
0,999013
1,000438
1,000488
1,000124
1,000463
0,999687
0,999872
0,999915
0,999901
0,999647
0,999769
1,000249
1,000326
1,000058
0,999852
0,999455
6,934621
13,272330
26,169950
26,160580
6,932356
13,281880
13,277390
26,169180
39,191830
13,267440
39,162650
13,267790
39,168950
13,257710
13,269720
13,269960
13,275130
26,169570
19,705920
26,160730
20,001300
1,000065
0,000642
100,002000
5,000102
2,631403
19,998980
0,999949
0,000453
401,365700
20,068290
10,367080
118 —— Resultados numéricos: aminoácidos
Tabla 11.19: Proteı́nas naturales de UniProt. Número de proteı́nas:
136293. Número de aminoácidos: 54241427. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 397,98 residuos. Tipo de análisis: Una proteı́na. Eukaryota. Número de especies:
6508.
Aminoácido
Ácido glutámico
Lisina
Ácido aspártico
Metionina
Asparagina
Fenilalanina
Glutamina
Isoleucina
Alanina
Leucina
Glicina
Tirosina
Valina
Treonina
Serina
Prolina
Triptófano
Histidina
Cisteı́na
Arginina
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,966838
1,861494
1,576586
1,412018
1,400828
1,285953
1,263083
1,129131
1,043009
0,984159
0,970976
0,953201
0,942497
0,837684
0,814318
0,781612
0,765203
0,721403
0,567619
0,524559
6,448650
6,103258
5,169136
2,314784
4,592877
4,216240
4,141255
5,553104
6,839405
9,680252
6,367054
3,125248
6,180305
5,493006
8,009689
5,125324
1,254431
2,365255
1,861046
5,159600
2,001297
1,889902
1,608699
1,432767
1,426530
1,306581
1,295073
1,143291
1,050444
0,989459
0,976490
0,981025
0,949321
0,844054
0,816830
0,791724
0,888622
0,768824
0,624262
0,531513
26,113420
24,659910
20,990710
9,347548
18,613720
17,048590
16,898440
22,377370
27,412920
38,732880
25,482980
12,800660
24,773940
22,026860
31,975230
20,661210
5,797478
10,031810
8,145520
20,806350
21,802170
1,090109
0,397875
99,999920
4,999996
2,110246
22,316710
1,115835
0,397451
404,697500
20,234880
8,268866
Índice de tablas —— 119
Tabla 11.20: Proteı́nas aleatorias de RandomUniProt. Número de
proteı́nas: 136293. Número de aminoácidos: 54241427. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media:
397,98 residuos. Tipo de análisis: Una proteı́na. Eukaryota. Número
de especies: 6508.
Aminoácido
Glutamina
Fenilalanina
Leucina
Asparagina
Cisteı́na
Tirosina
Prolina
Valina
Treonina
Ácido aspártico
Glicina
Serina
Arginina
Isoleucina
Ácido glutámico
Histidina
Lisina
Alanina
Metionina
Triptófano
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,000712
1,000488
1,000463
1,000438
1,000326
1,000249
1,000124
1,000095
1,000058
0,999915
0,999906
0,999901
0,999872
0,999852
0,999769
0,999687
0,999647
0,999455
0,999013
0,999004
3,281022
3,280290
9,840619
3,280126
3,279757
3,279506
6,558188
6,557997
6,557756
3,278409
6,556757
9,835092
9,834809
4,917304
3,277932
3,277661
3,277532
6,553804
1,637726
1,637711
1,017173
1,017561
1,001183
1,017905
1,017388
1,016991
1,002785
1,002815
1,002800
1,016826
1,002456
1,000599
1,000438
1,006803
1,016973
1,016798
1,016053
1,002461
1,062573
1,062920
13,272330
13,277390
39,191830
13,281880
13,275130
13,269960
26,169180
26,169950
26,169570
13,267790
26,160580
39,168950
39,162650
19,705920
13,269720
13,267440
13,257710
26,160730
6,932356
6,934621
19,998980
0,999949
0,000453
99,999990
5,000000
2,631528
20,301500
1,015075
0,017828
401,365700
20,068290
10,367080
120 —— Resultados numéricos: aminoácidos
Tabla 11.21: Proteı́nas naturales de UniProt. Número de proteı́nas:
43163. Número de aminoácidos: 17639176. Secuencia mı́nima: 30 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 408,66 residuos. Tipo de análisis: Cada proteı́na. Mammalia. Número de especies: 1698.
Aminoácido
Ácido glutámico
Lisina
Metionina
Ácido aspártico
Glutamina
Fenilalanina
Asparagina
Alanina
Leucina
Glicina
Isoleucina
Valina
Tirosina
Prolina
Trptófano
Treonina
Serina
Histidina
Cisteı́na
Arginina
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,925802
1,742931
1,547740
1,383774
1,300611
1,263917
1,096256
1,094026
1,063049
1,007279
0,966404
0,952174
0,918557
0,870472
0,856765
0,810533
0,771941
0,770497
0,753719
0,572662
6,314105
5,714526
2,537278
4,536963
4,264299
4,143991
3,594280
7,173942
10,456220
6,605108
4,752807
6,243761
3,011661
5,708011
1,404533
5,314973
7,592862
2,526218
2,471209
5,632737
2,007639
1,704655
1,438537
1,436825
1,348611
1,239269
1,123213
1,077755
1,052045
1,008869
0,968127
0,949553
0,889376
0,890511
0,832990
0,818043
0,792205
0,780288
0,697148
0,554260
27,127520
23,155280
9,684018
19,505280
18,214980
16,837240
15,263330
28,977310
42,522980
27,168770
19,800330
25,600000
12,172950
24,032880
6,190198
22,020600
31,887460
10,829800
9,824651
22,399690
21,669110
1,083455
0,350219
99,999480
4,999974
2,146805
21,609920
1,080496
0,358274
413,215200
20,660760
8,801924
Índice de tablas —— 121
Tabla 11.22: Proteı́nas aleatorias de RandomUniProt. Número de
proteı́nas: 43163. Número de aminoácidos: 17639176. Secuencia mı́nima: 30 residuos. Secuencia máxima: 5596 residuos. Secuencia media:
408,66 residuos. Tipo de análisis: Cada proteı́na. Mammalia. Número de especies: 1698.
Aminoácido
Ácido glutámico
Leucina
Asparagina
Glicina
Arginina
Ácido aspártico
Tirosina
Prolina
Alanina
Glutamina
Trptófano
Isoleucina
Fenilalanina
Treonina
Lisina
Serina
Valina
Histidina
Metionina
Cisteı́na
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,002648
1,001577
1,001077
1,000894
1,000380
1,000327
1,000163
1,000141
1,000083
1,000080
0,999871
0,999655
0,999530
0,999163
0,999154
0,999121
0,999058
0,998872
0,998617
0,997371
3,287369
9,851580
3,282219
6,563242
9,839807
3,279759
3,279222
6,558301
6,557922
3,278949
1,639132
4,916337
3,277146
6,551888
3,275916
9,827418
6,551199
3,274990
1,637076
3,270070
1,000099
1,001191
1,001175
1,000780
1,000339
0,999909
1,000092
0,999432
0,999978
1,000305
0,997435
1,001084
0,999197
0,999607
0,999999
0,999673
0,999234
0,999000
0,997867
0,999281
13,495840
40,250880
13,520440
26,832850
40,213840
13,496730
13,499210
26,802920
26,820680
13,499560
6,970660
20,166760
13,496250
26,807610
13,499520
40,185190
26,798230
13,488550
6,968460
13,493610
19,997780
0,999889
0,001148
99,999530
4,999977
2,632451
19,995670
0,999784
0,000983
410,307800
20,515390
10,694000
122 —— Resultados numéricos: aminoácidos
Tabla 11.23: Proteı́nas naturales de UniProt. Número de proteı́nas:
43163. Número de aminoácidos: 17639176. Secuencia mı́nima: 30 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 408,66 residuos. Tipo de análisis: Una proteı́na. Mammalia. Número de especies:
1698.
Aminoácido
Ácido glutámco
Lisina
Metionina
Ácido aspártico
Glutamina
Fenilalanina
Asparagina
Alanina
Leucina
Glicina
Isoleucina
Valina
Prolina
Tirosina
Trptófano
Treonina
Serina
Histidina
Cisteı́na
Arginina
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
2,007639
1,704655
1,438537
1,436825
1,348611
1,239269
1,123213
1,077755
1,052045
1,008869
0,968127
0,949553
0,890511
0,889376
0,832990
0,818043
0,792205
0,780288
0,697148
0,554260
6,582422
5,589031
2,358257
4,710900
4,421675
4,063178
3,682666
7,067246
10,347980
6,615536
4,761282
6,226578
5,839417
2,915987
1,365557
5,364213
7,792184
2,558322
2,285730
5,451735
2,024606
1,728145
1,445493
1,455736
1,359436
1,256612
1,139146
1,081330
1,057888
1,013842
0,985187
0,955301
0,896822
0,908503
0,923985
0,821730
0,793297
0,808260
0,733242
0,557260
27,127520
23,155280
9,684018
19,505280
18,214980
16,837240
15,263330
28,977310
42,522980
27,168770
19,800330
25,600000
24,032880
12,172950
6,190198
22,020600
31,887460
10,829800
9,824651
22,399690
21,609920
1,080496
0,358274
99,999900
4,999995
2,171898
21,945820
1,097291
0,357395
413,215200
20,660760
8,801924
Índice de tablas —— 123
Tabla 11.24: Proteı́nas aleatorias de RandomUniProt. Número de
proteı́nas: 43163. Número de aminoácidos: 17639176. Secuencia mı́nima: 30 residuos. Secuencia máxima: 5596 residuos. Secuencia media:
408,66 residuos. Tipo de análisis: Una proteı́na. Mammalia. Número
de especies: 1698.
Aminoácido
Leucina
Asparagina
Isoleucina
Glicina
Arginina
Glutamina
Ácido glutámico
Tirosina
Lisina
Alanina
Ácido aspártico
Serina
Treonina
Prolina
Cisteı́na
Valina
Fenilalanina
Histidina
Metionina
Trptófano
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,001191
1,001175
1,001084
1,000780
1,000339
1,000305
1,000099
1,000092
0,999999
0,999978
0,999909
0,999673
0,999606
0,999432
0,999281
0,999234
0,999197
0,999000
0,997867
0,997435
9,847779
3,282540
4,923365
6,562490
9,839399
3,279688
3,279014
3,278991
3,278685
6,557234
3,278390
9,832846
6,554796
6,553651
3,276332
6,552353
3,276055
3,275408
1,635847
1,635139
1,001362
1,009070
1,003418
1,001307
1,000441
1,007511
1,007233
1,007485
1,007508
1,000853
1,007300
0,999728
1,000365
1,000190
1,007068
1,000015
1,007264
1,006689
1,040153
1,040481
40,250880
13,520440
20,166760
26,832850
40,213840
13,499560
13,495840
13,499210
13,499520
26,820680
13,496730
40,185190
26,807610
26,802920
13,493610
26,798230
13,496250
13,488550
6,968460
6,970660
19,995670
0,999784
0,000983
100,000000
5,000000
2,632860
20,155440
1,007772
0,011615
410,307800
20,515390
10,694000
124 —— Resultados numéricos: aminoácidos
Tabla 11.25: Proteı́nas naturales de UniProt. Número de proteı́nas:
7385. Número de aminoácidos: 2849090. Secuencia mı́nima: 31 residuos.
Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Cada proteı́na. Homo sapiens. Número de especies:
1.
Aminoácido
Ácido glutámco
Lisina
Metionina
Glutamina
Ácido aspártico
Fenilalanina
Alanina
Glicina
Leucina
Asparagina
Prolina
Valina
Cisteı́na
Isoleucina
Tirosina
Trptófano
Serina
Treonina
Histidina
Arginina
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,913201
1,679810
1,441490
1,358908
1,287512
1,201866
1,123918
1,052552
1,035577
1,006603
0,961937
0,916895
0,885732
0,882164
0,872867
0,852166
0,808753
0,792402
0,787095
0,602555
6,272790
5,507574
2,363098
4,455435
4,221349
3,940544
7,369956
6,901978
10,186010
3,300339
6,307781
6,012427
2,904038
4,338513
2,861860
1,396994
7,954945
5,196076
2,580638
5,926768
2,005143
1,657942
1,332880
1,392336
1,355339
1,185052
1,105636
1,043642
1,029135
1,056590
0,957294
0,914088
0,802385
0,885660
0,858480
0,816591
0,817757
0,808615
0,824191
0,586672
25,581260
21,209670
8,459574
17,753480
17,434040
15,304710
28,115010
26,502510
39,308030
13,702490
24,339550
23,253680
10,627110
17,128780
11,286840
5,757850
31,069280
20,578940
10,906640
22,398910
21,464000
1,073200
0,325395
99,999110
4,999956
2,182170
21,435430
1,071771
0,337882
390,718400
19,535920
8,370809
Índice de tablas —— 125
Tabla 11.26: Proteı́nas aleatorias de RandomUniProt. Número de
proteı́nas: 7385. Número de aminoácidos: 2849090. Secuencia mı́nima:
31 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 385,8
residuos. Tipo de análisis: Cada proteı́na. Homo sapiens. Número de
especies: 1.
Aminoácido
Ácido aspártico
Leucina
Tirosina
Asparagina
Glicina
Prolina
Arginina
Ácido glutámico
Alanina
Serina
Cisteı́na
Fenilalanina
Metionina
Treonina
Isoleucina
Glutamina
Trptófano
Valina
Histidina
Lisina
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,005947
1,004643
1,004481
1,002797
1,002509
1,002414
1,000687
1,000408
0,999987
0,999661
0,999509
0,999115
0,997883
0,997691
0,997184
0,996447
0,995641
0,994817
0,994809
0,994138
3,298186
9,881737
3,293379
3,287859
6,573829
6,573208
9,842822
3,280028
6,557288
9,832735
3,277079
3,275785
1,635874
6,542233
4,904184
3,267040
1,632198
6,523392
3,261670
3,259467
1,004713
1,004292
1,003310
1,000409
1,001592
1,001014
1,001319
0,999735
1,000741
0,997554
1,000313
1,001212
0,997080
0,997904
1,001098
0,998429
0,995603
0,994655
0,996769
0,995817
12,819700
38,114980
12,798310
12,752590
25,362290
25,344220
37,997020
12,733570
25,344180
37,854160
12,772280
12,764570
6,608486
25,265480
19,043310
12,734300
6,635417
25,172990
12,707930
12,695780
19,990770
0,999538
0,003494
99,999990
5,000000
2,636572
19,993560
0,999678
0,002862
387,521500
19,376080
10,091440
126 —— Resultados numéricos: aminoácidos
Tabla 11.27: Proteı́nas naturales de UniProt. Número de proteı́nas:
7385. Número de aminoácidos: 2849090. Secuencia mı́nima: 31 residuos.
Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Una proteı́na. Homo sapiens. Número de especies:
1.
Aminoácido
Ácido glutámico
Lisina
Glutamina
Ácido aspártico
Metionina
Fenilalanina
Alanina
Asparagina
Glicina
Leucina
Prolina
Valina
Isoleucina
Tirosina
Histidina
Serina
Triptófano
Treonina
Cisteı́na
Arginina
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
2,005143
1,657942
1,392336
1,355339
1,332880
1,185052
1,105636
1,056590
1,043642
1,029135
0,957294
0,914088
0,885660
0,858480
0,824191
0,817757
0,816591
0,808615
0,802385
0,586672
6,574240
5,435876
4,565037
4,443735
2,185049
3,885416
7,250069
3,464229
6,843554
10,122640
6,277338
5,994020
4,355707
2,814688
2,702266
8,043516
1,338673
5,302395
2,630770
5,770545
2,022393
1,676785
1,403547
1,378293
1,337587
1,209954
1,111353
1,083285
1,047612
1,035869
0,962113
0,919190
0,902776
0,892310
0,862253
0,818757
0,910404
0,813461
0,840154
0,590270
25,581260
21,209670
17,753480
17,434040
8,459574
15,304710
28,115010
13,702490
26,502510
39,308030
24,339550
23,253680
17,128780
11,286840
10,906640
31,069280
5,757850
20,578940
10,627110
22,398910
21,435430
1,071771
0,337882
99,999760
4,999988
2,193906
21,818370
1,090918
0,335762
390,718400
19,535920
8,370809
Índice de tablas —— 127
Tabla 11.28: Proteı́nas aleatorias de RandomUniProt. Número de
proteı́nas: 7385. Número de aminoácidos: 2849090. Secuencia mı́nima:
31 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 385,8
residuos. Tipo de análisis: Una proteı́na. Homo sapiens. Número de
especies: 1
Aminoácido
Ácido aspártico
Leucina
Tirosina
Glicina
Arginina
Fenilalanina
Isoleucina
Prolina
Alanina
Asparagina
Cisteı́na
Ácido glutámico
Glutamina
Treonina
Serina
Metionina
Histidina
Lisina
Trptófano
Valina
Total
Media aritmética
Desviación tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,004713
1,004292
1,003310
1,001592
1,001319
1,001212
1,001098
1,001014
1,000741
1,000409
1,000313
0,999735
0,998429
0,997904
0,997554
0,997080
0,996769
0,995817
0,995603
0,994655
3,294139
9,878277
3,289542
6,567816
9,849039
3,282662
4,923431
6,564025
6,562236
3,280030
3,279714
3,277818
3,273537
6,543633
9,812010
1,634557
3,268096
3,264972
1,632135
6,522328
1,013494
1,004429
1,011803
1,002541
1,001321
1,009136
1,003682
1,001826
1,001825
1,008189
1,009746
1,006685
1,006743
0,998714
0,997556
1,044902
1,004658
1,003698
1,049160
0,995058
12,819700
38,114980
12,798310
25,362290
37,997020
12,764570
19,043310
25,344220
25,344180
12,752590
12,772280
12,733570
12,734300
25,265480
37,854160
6,608486
12,707930
12,695780
6,635417
25,172990
19,993560
0,999678
0,002862
100,000000
5,000000
2,634237
20,175170
1,008758
0,013901
387,521500
19,376080
10,091440
128 —— Resultados numéricos: aminoácidos
12.-Resultados numéricos: Dipéptidos
Introducción
160 En este capı́tulo se exponen los principales datos numéricos encontrados en nuestro análisis de la frecuencia y redundancia de los
dipéptidos en las proteı́nas naturales de la base de datos UniProt y
en las proteı́nas aleatorias de RandomUniProt, aunque en este último
caso solo en las dos primeras tablas, correspondientes a las proteı́nas de
todos los organismos. Los datos se exponen en forma de tablas con filas
ordenadas por el valor decreciente de la primera columna numérica.
161 Cada tabla incluye los 30 dipéptidos de mayor frecuencia relativa y los 30 de menor frecuencia relativa, separados por una fila de
puntos suspensivos. Las medidas estadı́sticas, total, media aritmética
y desviación tı́pica, corresponden a los datos de la tabla completa de
los 400 dipéptidos.
Índice de tablas
Dipéptidos.
Dipéptidos.
Dipéptidos.
Dipéptidos.
Dipéptidos.
Dipéptidos.
Dipéptidos.
Naturales. Cada. Todos.
Aleatorias. Cada. Todos.
Naturales. Una. Todos.
Aleatorias. Una. Todos.
Naturales. Cada. Virus.
Naturales. Cada. Archaea.
Naturales. Cada. Bacteria.
129
131
133
135
137
139
141
143
130 —— Resultados numéricos: Dipéptidos
Dipéptidos. Naturales. Cada. Eukaryota.
Dipéptidos. Naturales. Cada. Mammalia.
Dipéptidos. Naturales. Cada. Homo sapiens.
145
147
188
Tabla 12.1
Dipéptido
EE
KK
EK
KE
DE
MK
ED
KD
ME
DK
EM
EI
DD
EA
IE
AE
EN
EQ
KN
KI
MA
IK
MM
AK
MD
ID
KA
NK
VE
KM
..
.
RT
SP
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
4,992191
4,799176
4,499742
4,224720
3,596615
3,418783
3,172202
2,945582
2,892102
2,872317
2,869384
2,829170
2,759097
2,734181
2,714757
2,704290
2,623441
2,615918
2,594225
2,515235
2,513322
2,424041
2,389865
2,387424
2,385083
2,379651
2,377729
2,368074
2,352405
2,323716
..
.
0,426107
0,425365
0,536651
0,515902
0,483713
0,454149
0,386629
0,183756
0,341005
0,316644
0,155448
0,308768
0,154227
0,456195
0,296597
0,587838
0,437746
0,581411
0,282015
0,281206
0,278874
0,405574
0,270177
0,390869
0,064226
0,513287
0,128196
0,383712
0,511202
0,254563
0,505758
0,124897
..
.
0,274834
0,274355
5,123930
4,140254
4,397487
4,165792
3,758457
2,924930
3,354291
2,979438
2,840932
2,822972
2,975516
2,789393
2,916480
2,720749
2,687842
2,652913
2,733113
2,651271
2,522937
2,347419
2,213750
2,266501
2,358842
2,194065
2,438996
2,422047
2,193489
2,280603
2,255527
2,268162
..
.
0,406727
0,464165
2,908596
2,529190
2,501615
2,500178
2,256279
1,401411
2,164484
2,022041
1,465419
1,931956
1,494781
2,336684
2,073569
2,757095
2,289828
2,722057
1,942946
1,885988
1,940813
2,200931
1,588714
2,144513
1,251446
2,360644
1,392223
2,154467
2,352404
1,865885
2,380200
1,385256
..
.
1,744983
2,029863
Índice de tablas —— 131
Tabla 12.1
Dipéptido
CY
SW
HR
HS
CC
CV
RW
LC
WS
WR
RP
CL
CP
CH
SR
TC
WP
PR
HC
RS
CT
WC
CS
CW
SC
CR
PC
RC
Total
Average
S.D.
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
0,423991
0,415586
0,410002
0,408653
0,402771
0,398647
0,391217
0,384818
0,380716
0,380460
0,373217
0,369737
0,362473
0,361894
0,356980
0,353236
0,348246
0,343191
0,339188
0,332511
0,327516
0,317994
0,302817
0,294059
0,286602
0,264797
0,251578
0,238244
0,045578
0,067012
0,132223
0,131788
0,043297
0,085707
0,063083
0,124102
0,061389
0,061348
0,240720
0,119238
0,077930
0,038903
0,345372
0,075944
0,037436
0,221354
0,036462
0,321698
0,070415
0,017092
0,097657
0,015805
0,092427
0,085395
0,054088
0,076832
0,394290
0,446345
0,395244
0,429420
0,267530
0,382174
0,388602
0,382657
0,407148
0,399994
0,374221
0,365001
0,323190
0,332261
0,351300
0,331703
0,377322
0,339725
0,325516
0,329336
0,306159
0,295006
0,286612
0,294927
0,268014
0,224571
0,244629
0,209697
1,186463
1,294313
1,396836
1,467181
1,290137
1,307659
1,238557
1,444256
1,298076
1,256913
1,755977
1,443796
1,348857
1,171007
2,010930
1,330269
1,203743
1,707641
1,172324
1,962053
1,272206
1,111827
1,429711
1,101115
1,429507
1,282898
1,288481
1,285689
465,297200
1,163243
0,719313
100,008800
0,250022
0,172812
466,411400
1,166028
0,708574
710,927600
1,777319
0,497485
Tabla 12.1: Proteı́nas naturales de UniProt. Número de proteı́nas:
483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 338,5 residuos. Tipo de análisis: Cada proteı́na. Todos los organismos. Número de especies: 9124.
132 —— Resultados numéricos: Dipéptidos
Tabla 12.2
Dipéptido
MF
WE
EM
QE
NW
TM
DM
VW
GW
KQ
FN
MW
KH
EW
AE
MM
CE
QY
EQ
AM
QQ
WF
MI
WI
HE
EK
MQ
CK
YV
QH
.
.
.
YW
DF
NG
MN
IN
NK
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,005744
1,005302
1,004948
1,004919
1,004914
1,004734
1,004521
1,004351
1,004118
1,003907
1,003760
1,003630
1,003459
1,003387
1,003331
1,003269
1,003129
1,003058
1,002936
1,002898
1,002892
1,002843
1,002765
1,002683
1,002648
1,002612
1,002602
1,002491
1,002368
1,002360
.
.
.
0,998095
0,998059
0,998044
0,998024
0,998015
0,997979
0,054058
0,054034
0,054015
0,108027
0,054013
0,108007
0,053992
0,107966
0,107941
0,107918
0,107902
0,026972
0,107870
0,053931
0,215712
0,026962
0,107834
0,107827
0,107814
0,107810
0,107809
0,053902
0,080846
0,080840
0,107783
0,107779
0,053889
0,107766
0,215505
0,107752
.
.
.
0,053647
0,107289
0,214576
0,053643
0,160927
0,107281
1,001072
0,999874
1,000695
1,000079
1,000741
1,000085
0,999965
1,000045
1,000353
1,000484
1,000285
0,998665
1,000268
0,999783
0,999763
1,000011
0,999663
0,999994
1,000222
1,000273
0,999829
0,999680
0,999676
0,999927
1,000188
0,999988
0,999771
1,000376
1,000612
1,000518
.
.
.
1,000444
1,000233
0,999618
0,999053
0,999848
0,999720
1,147573
1,142690
1,149892
1,296647
1,148695
1,284255
1,144928
1,285786
1,291740
1,287936
1,279471
1,076004
1,283719
1,144524
1,569275
1,088555
1,282108
1,283086
1,286258
1,292884
1,321487
1,142691
1,214865
1,221478
1,287224
1,290841
1,148138
1,292445
1,584770
1,284172
.
.
.
1,148700
1,295352
1,584454
1,146143
1,441807
1,297726
Índice de tablas —— 133
Tabla 12.2
Dipéptido
FQ
IG
TP
KI
YF
AD
WQ
FY
FF
ND
KN
CN
CC
TY
NP
YK
TW
EN
VC
PI
QF
FW
YM
MK
Total
Average
S.D.
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
0,997883
0,997863
0,997783
0,997543
0,997529
0,997491
0,997294
0,997268
0,997247
0,997107
0,997098
0,996846
0,996661
0,996650
0,996614
0,996537
0,996427
0,996243
0,996231
0,996007
0,995295
0,995132
0,994566
0,992552
0,107270
0,321805
0,429039
0,160851
0,107232
0,214456
0,053604
0,107204
0,107202
0,107187
0,107186
0,107159
0,107139
0,214276
0,214268
0,107126
0,107114
0,107094
0,214186
0,321206
0,106992
0,053487
0,053457
0,053349
0,999332
0,999834
0,999773
0,999817
1,000336
0,999358
1,000079
0,999618
0,999424
0,999874
1,000096
0,999897
1,000039
0,999923
0,999555
0,999675
1,000844
1,000188
1,000299
1,000036
1,000057
0,999441
0,999452
0,999954
1,286208
1,868276
2,182158
1,435876
1,288360
1,578649
1,146840
1,293791
1,328279
1,288039
1,284082
1,286434
1,322204
1,584930
1,571578
1,292672
1,289175
1,288481
1,580264
1,888674
1,288019
1,143461
1,148298
1,144855
400,047200
1,000118
0,001675
100,009800
0,250024
0,193217
399,989400
0,999974
0,000317
673,516100
1,683790
0,545697
Tabla 12.2: Proteı́nas aleatorias de RandomUniProt. Número de
proteı́nas: 483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media:
338,5 residuos. Tipo de análisis: Cada proteı́na. Todos los organismos. Número de especies: 9124.
134 —— Resultados numéricos: Dipéptidos
Tabla 12.3
Dipéptido
EE
EK
KE
KK
DE
ED
KD
EM
MK
DD
ME
DK
EI
EN
EA
IE
AE
EQ
KN
MD
ID
MM
KI
DI
NE
FD
QE
FE
NK
KM
.
.
.
QC
TR
WS
RT
WR
HR
CY
RR
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
5,123930
4,397487
4,165792
4,140254
3,758457
3,354291
2,979438
2,975516
2,924930
2,916480
2,840932
2,822972
2,789393
2,733113
2,720749
2,687841
2,652913
2,651271
2,522937
2,438996
2,422047
2,358842
2,347419
2,341805
2,313462
2,308182
2,306871
2,288380
2,280603
2,268162
.
.
.
0,416601
0,416021
0,407148
0,406727
0,399994
0,395244
0,394290
0,393024
0,550812
0,472721
0,447814
0,445069
0,404027
0,360580
0,320284
0,159931
0,157212
0,313516
0,152697
0,303464
0,449781
0,293804
0,584950
0,433406
0,570366
0,285006
0,271211
0,131094
0,390548
0,063393
0,378514
0,377609
0,248693
0,248125
0,247984
0,245996
0,245160
0,121911
.
.
.
0,044784
0,268329
0,065651
0,262334
0,064498
0,127464
0,042385
0,380244
8,016909
6,895155
6,891193
6,971158
6,218940
5,965927
5,573313
8,240075
7,725364
5,715338
8,078213
5,325013
4,293801
5,355305
3,799665
4,207700
3,751378
5,198313
5,349428
7,674715
3,958965
13,797350
4,044345
3,897357
5,030309
4,800632
5,023207
4,788952
5,142903
7,636311
.
.
.
3,424250
0,796213
2,385293
0,801628
2,309654
1,283386
3,270226
0,688043
2,908596
2,501615
2,500178
2,529190
2,256279
2,164484
2,022041
1,494781
1,401411
2,073569
1,465419
1,931956
2,336684
1,942946
2,757095
2,289828
2,722057
1,885988
1,940813
1,392223
2,154467
1,251446
2,200931
2,120940
1,825035
1,741706
1,822458
1,737468
1,865885
1,385256
.
.
.
1,242344
1,733195
1,298076
1,744983
1,256913
1,396836
1,186463
2,246675
Índice de tablas —— 135
Tabla 12.3
Dipéptido
RW
LC
CV
WP
RP
CL
SR
PR
CH
TC
RS
HC
CP
CT
WC
CW
CS
SC
CC
PC
CR
RC
Total
Average
S.D.
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
0,388602
0,382657
0,382174
0,377322
0,374221
0,365001
0,351300
0,339725
0,332261
0,331703
0,329336
0,325516
0,323190
0,306159
0,295006
0,294927
0,286612
0,268014
0,267530
0,244629
0,224571
0,209697
0,062661
0,123405
0,082166
0,040561
0,241368
0,117710
0,339876
0,219118
0,035717
0,071315
0,318626
0,034992
0,069485
0,065823
0,015856
0,015852
0,092430
0,086433
0,028759
0,052594
0,072423
0,067626
2,275925
1,326955
1,802138
3,317855
0,806679
1,326532
0,615846
0,784474
3,227625
1,833298
0,600878
3,231254
1,858914
1,753279
6,129018
6,069968
1,313590
1,313403
3,555981
1,775709
1,178702
1,181267
1,238557
1,444256
1,307659
1,203743
1,755977
1,443796
2,010930
1,707641
1,171007
1,330269
1,962053
1,172324
1,348857
1,272206
1,111827
1,101115
1,429711
1,429507
1,290137
1,288481
1,282898
1,285689
466,411400
1,166028
0,708574
99,999920
0,250000
0,170519
1258,021000
3,145054
1,967275
710,927600
1,777319
0,497485
Tabla 12.3: Proteı́nas naturales de UniProt. Número de proteı́nas:
483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 338,5 residuos. Tipo de análisis: Una proteı́na. Todos los organismos. Número
de especies: 9124.
136 —— Resultados numéricos: Dipéptidos
Tabla 12.4
Dipéptido
MF
TW
NW
EM
AY
CQ
WC
YV
HL
AC
FT
FD
WP
YG
QH
HC
NF
YQ
MT
KQ
QV
MP
YT
YW
VK
KP
CR
HK
YA
VQ
.
.
.
GC
FM
DK
YD
KW
NM
PE
AN
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,001071
1,000843
1,000741
1,000695
1,000655
1,000650
1,000615
1,000612
1,000568
1,000553
1,000547
1,000541
1,000535
1,000533
1,000518
1,000513
1,000507
1,000501
1,000484
1,000484
1,000467
1,000467
1,000461
1,000444
1,000436
1,000433
1,000422
1,000422
1,000416
1,000410
.
.
.
0,999509
0,999509
0,999504
0,999504
0,999498
0,999498
0,999481
0,999478
0,053807
0,107589
0,053789
0,053786
0,215137
0,107568
0,053782
0,215128
0,322677
0,215115
0,215114
0,107556
0,107556
0,215111
0,107554
0,107553
0,107553
0,107552
0,107550
0,107550
0,215096
0,107548
0,215095
0,053773
0,215090
0,215089
0,322630
0,107543
0,215085
0,215084
.
.
.
0,214890
0,053723
0,107445
0,107445
0,053722
0,053722
0,214884
0,214884
6,326065
3,553328
6,332253
6,338850
2,171891
3,557917
6,287266
2,184036
1,715091
2,170665
2,168404
3,552594
3,563751
2,162083
3,539540
3,570378
3,555632
3,553627
3,551974
3,549914
2,175879
3,556458
2,172075
6,332283
2,178290
2,168906
1,723586
3,560301
2,177589
2,160919
.
.
.
2,178559
6,313716
3,566724
3,553189
6,311418
6,305076
2,180473
2,173698
1,147573
1,289175
1,148695
1,149892
1,575958
1,290840
1,140534
1,584770
1,866703
1,575068
1,573427
1,288908
1,292956
1,568840
1,284172
1,295360
1,290011
1,289283
1,288683
1,287936
1,578851
1,290310
1,576091
1,148700
1,580601
1,573791
1,875949
1,291705
1,580092
1,567996
.
.
.
1,580796
1,145332
1,294035
1,289124
1,144915
1,143765
1,582185
1,577269
Índice de tablas —— 137
Tabla 12.4
Dipéptido
QW
RK
YM
IH
FW
ED
FF
EA
HI
AD
FQ
AW
CW
WM
DI
NE
HF
MD
MN
KM
MC
MW
Total
Average
S.D.
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
0,999475
0,999452
0,999452
0,999448
0,999441
0,999429
0,999424
0,999415
0,999403
0,999358
0,999333
0,999304
0,999293
0,999281
0,999262
0,999253
0,999236
0,999087
0,999053
0,998836
0,998825
0,998665
0,053721
0,322317
0,053720
0,161158
0,053719
0,107437
0,107436
0,214870
0,161151
0,214858
0,107426
0,107423
0,053711
0,026855
0,161128
0,107418
0,107416
0,053700
0,053698
0,053686
0,053686
0,026839
6,310202
1,709675
6,330065
2,630344
6,303400
3,527426
3,661110
2,167895
2,624779
2,175601
3,545151
3,541879
6,318623
11,882370
2,629052
3,545050
3,543689
6,284036
6,318183
6,305347
6,319138
11,863080
1,144695
1,860808
1,148298
1,431432
1,143461
1,279777
1,328279
1,573058
1,428404
1,578649
1,286208
1,285021
1,146222
1,077754
1,430729
1,286171
1,285678
1,139948
1,146143
1,143814
1,146316
1,076004
399,989400
0,999974
0,000317
100,000000
0,250000
0,193158
1134,226000
2,835565
1,665651
673,516100
1,683790
0,545697
Tabla 12.4: Proteı́nas aleatorias de RandomUniProt. Número de
proteı́nas: 483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media:
338,5 residuos. Tipo de análisis: Una proteı́na. Todos los organismos. Número de especies: 9124.
138 —— Resultados numéricos: Dipéptidos
Tabla 12.5
Dipéptido
KK
EE
EK
KE
KN
ME
NK
ED
DE
NN
DD
MD
EN
KD
DK
IK
KI
MK
KY
NE
DN
MN
IN
ND
MM
FK
KM
DI
EI
NI
.
.
.
RW
RA
RG
LR
CS
CH
RL
GR
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
4,571925
4,391614
3,526478
3,515122
3,358992
3,330936
3,306557
3,258003
3,205071
3,195755
3,070823
2,912341
2,872242
2,852124
2,825294
2,791410
2,790963
2,740978
2,646326
2,645820
2,625135
2,623264
2,578710
2,492596
2,470927
2,468374
2,405621
2,388942
2,386614
2,372239
.
.
.
0,535215
0,534750
0,533373
0,522976
0,522580
0,520136
0,519439
0,518523
0,491473
0,472090
0,379089
0,377869
0,361085
0,179035
0,355448
0,350229
0,344539
0,343537
0,330107
0,156535
0,308760
0,306598
0,303713
0,450106
0,450034
0,147325
0,284475
0,284420
0,282197
0,140998
0,415809
0,267949
0,066405
0,265345
0,129300
0,385210
0,384834
0,382516
.
.
.
0,086302
0,344907
0,344019
0,505970
0,168529
0,055914
0,502548
0,334441
4,009552
4,051164
3,479038
3,326773
3,051542
3,091751
2,974552
3,155806
3,142090
3,049672
3,025515
2,722075
2,756674
2,762908
2,768674
2,589083
2,604772
2,530691
2,401024
2,577290
2,615318
2,274163
2,442169
2,442168
2,666904
2,375309
2,483001
2,333385
2,332139
2,345645
.
.
.
0,453419
0,570411
0,564956
0,527414
0,476641
0,489681
0,511119
0,539812
2,998135
3,023261
2,702870
2,570878
2,475035
1,787851
2,375358
2,421260
2,435492
2,568653
2,480577
1,630812
2,224906
2,239798
2,317980
2,794863
2,839506
1,626402
2,106947
2,176780
2,208317
1,484435
2,727747
2,120720
1,555071
2,127146
1,658547
2,691515
2,632344
2,740471
.
.
.
1,382325
2,830626
2,764713
3,109444
1,731132
1,220194
3,031947
2,628304
Índice de tablas —— 139
Tabla 12.5
Dipéptido
GC
VR
CP
WR
RV
RR
TR
PH
HS
SH
RT
SC
RH
WP
RP
PR
SR
RS
PC
HR
CR
RC
Total
Average
S.D.
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
0,517965
0,513785
0,513739
0,508368
0,508322
0,503716
0,487456
0,487359
0,481784
0,478888
0,467014
0,460795
0,457870
0,451413
0,426065
0,425567
0,416038
0,412691
0,411855
0,390596
0,384407
0,364871
0,111360
0,331385
0,110452
0,081973
0,327862
0,487336
0,314403
0,104780
0,155372
0,154438
0,301219
0,148603
0,147660
0,048526
0,274807
0,274486
0,402509
0,399271
0,088547
0,125965
0,123969
0,117669
0,511422
0,529630
0,488745
0,452380
0,541475
0,440086
0,505162
0,503317
0,474771
0,473005
0,479966
0,447289
0,421834
0,484226
0,416769
0,416093
0,414803
0,403496
0,402950
0,374975
0,334818
0,327129
1,616901
2,483557
1,568784
1,425671
2,589565
3,097002
2,430696
1,650230
1,655616
1,703461
2,332786
1,728222
1,642727
1,337495
2,309298
2,324626
2,677322
2,686924
1,560821
1,580815
1,518257
1,526175
487,522400
1,218806
0,671410
100,000100
0,250000
0,143840
483,679200
1,209198
0,638838
847,236000
2,118090
0,593264
Tabla 12.5: Proteı́nas naturales de UniProt. Número de proteı́nas:
14187. Número de aminoácidos: 5983070. Secuencia mı́nima: 30 residuos. Secuencia máxima: 4036 residuos. Secuencia media: 421,7 residuos. Tipo de análisis: Cada proteı́na. Virus. Número de especies:
751.
140 —— Resultados numéricos: Dipéptidos
Tabla 12.6
Dipéptido
EE
EK
KE
KK
DE
EI
KI
IE
ED
MK
IK
ME
KD
EM
VE
EV
EN
DI
DK
ID
EA
VK
AE
KN
KM
DD
FE
EF
GK
KV
.
.
.
HR
WT
QS
RH
CV
CA
WH
RS
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
7,631730
6,528430
6,323930
6,197247
4,837389
4,607181
4,268946
4,229261
4,081056
4,027580
3,842196
3,664239
3,547477
3,419460
3,355040
3,244847
3,209041
3,057293
3,057025
3,014323
2,999669
2,992123
2,932047
2,922185
2,920192
2,900531
2,881310
2,827001
2,819514
2,816094
.
.
.
0,304674
0,303854
0,301775
0,294559
0,288465
0,281132
0,279644
0,271351
0,820396
0,701793
0,679810
0,666192
0,520010
0,742894
0,688355
0,681956
0,438705
0,216478
0,619542
0,196949
0,381347
0,183793
0,721320
0,697629
0,344966
0,492979
0,328624
0,486051
0,644917
0,643294
0,630378
0,314129
0,156957
0,311801
0,309735
0,303897
0,606184
0,605449
.
.
.
0,098256
0,032664
0,097321
0,094993
0,062019
0,060442
0,015031
0,262527
7,645892
6,437656
6,218466
5,437330
4,967788
4,620080
3,972535
4,249151
4,234108
3,523529
3,627513
3,609128
3,551644
3,584415
3,360389
3,239243
3,258494
3,097802
3,100548
3,109382
3,082819
2,741497
2,968299
2,841064
2,825485
3,042347
2,915919
2,940452
2,649093
2,562062
.
.
.
0,297507
0,322698
0,315893
0,290882
0,271840
0,272287
0,304790
0,261254
3,087425
2,729198
2,725025
2,506232
2,274412
2,797585
2,605716
2,604420
2,075310
1,383101
2,476769
1,434653
1,957268
1,473932
2,739016
2,651495
1,878006
2,146769
1,841915
2,171502
2,633270
2,341184
2,557948
1,853388
1,375109
1,964273
1,762420
1,766921
2,289938
2,261261
.
.
.
1,252261
1,158098
1,278261
1,243747
1,176744
1,195362
1,061097
1,615404
Índice de tablas —— 141
Tabla 12.6
Dipéptido
SW
RC
HS
HW
CY
TC
WP
LC
CH
WS
CR
HC
CL
QC
CT
CS
PC
SC
CQ
CW
CC
WC
Total
Average
S.D.
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
0,270608
0,268794
0,265531
0,261485
0,259507
0,245394
0,245229
0,235468
0,226947
0,223102
0,220386
0,216745
0,195861
0,195181
0,193014
0,185276
0,164334
0,163938
0,148463
0,132587
0,123554
0,116354
0,043635
0,086685
0,085632
0,014055
0,027896
0,052759
0,026362
0,075937
0,024396
0,035975
0,071073
0,023300
0,063164
0,020982
0,041497
0,059751
0,035331
0,052869
0,015959
0,007126
0,013282
0,006254
0,278525
0,179018
0,269870
0,244978
0,250529
0,218743
0,278466
0,221937
0,195553
0,237457
0,157946
0,196448
0,190240
0,164930
0,195911
0,166841
0,172541
0,144396
0,143978
0,125712
0,097776
0,145053
1,160697
1,222086
1,193821
1,050691
1,067939
1,142123
1,155275
1,188619
1,054054
1,119302
1,142981
1,056840
1,177318
1,072177
1,141367
1,195978
1,104931
1,123549
1,042801
1,086687
1,109756
1,134454
470,585100
1,176463
1,010594
99,999950
0,250000
0,198001
470,865800
1,177164
0,995959
645,199600
1,612999
0,465983
Tabla 12.6: Proteı́nas naturales de UniProt. Número de proteı́nas:
18139. Número de aminoácidos: 5212818. Secuencia mı́nima: 31 residuos. Secuencia máxima: 9159 residuos. Secuencia media: 287,4 residuos. Tipo de análisis: Cada proteı́na. Archaea. Número de especies:
143.
142 —— Resultados numéricos: Dipéptidos
Tabla 12.7
Dipéptido
EE
KK
EK
KE
DE
MK
EI
AE
EA
IE
EM
ED
DK
KD
EQ
ME
MA
DD
ID
AK
VE
KA
KI
EN
IK
KN
AD
EV
DA
DI
.
.
.
SR
SW
CI
PP
CN
SS
PR
WP
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
4,564809
4,504370
4,453343
4,121467
3,667467
3,473996
3,068383
3,068374
3,035017
3,016671
2,997580
2,996469
2,946637
2,871064
2,832220
2,736422
2,714981
2,697889
2,650007
2,642129
2,592728
2,582768
2,533940
2,521248
2,506563
2,466563
2,426150
2,419229
2,414011
2,412196
.
.
.
0,336392
0,335172
0,333194
0,332177
0,327151
0,322078
0,320277
0,318136
0,490708
0,484211
0,478725
0,443049
0,394245
0,186724
0,494768
0,659688
0,652516
0,486429
0,161117
0,322114
0,316758
0,308634
0,304458
0,147080
0,291855
0,290018
0,427306
0,568047
0,557426
0,555285
0,408590
0,271029
0,404176
0,265151
0,521613
0,520124
0,519003
0,388959
.
.
.
0,325453
0,054045
0,053726
0,142834
0,035168
0,311604
0,206575
0,034199
4,585247
3,657004
4,260348
4,001120
3,828364
2,938810
3,035537
3,084371
3,083692
3,029512
3,114550
3,119900
2,893022
2,883081
2,853886
2,683886
2,441735
2,803878
2,723896
2,458998
2,485874
2,407161
2,355088
2,576096
2,301399
2,321762
2,540292
2,412649
2,519868
2,509863
.
.
.
0,321725
0,350948
0,327886
0,339967
0,328396
0,327296
0,312264
0,359796
2,476128
2,175540
2,268428
2,313520
2,103231
1,331210
2,266080
2,779347
2,767111
2,267943
1,444826
1,930759
1,848619
1,891782
1,813940
1,370859
1,581689
1,849244
2,129269
2,347378
2,336898
2,321961
2,091476
1,775038
2,039608
1,774794
2,476201
2,326648
2,476817
2,060561
.
.
.
1,758049
1,193459
1,172133
1,493009
1,113815
1,899164
1,540051
1,196290
Índice de tablas —— 143
Tabla 12.7
Dipéptido
YC
RS
WS
CV
LC
CH
CM
QC
CY
CP
CL
HC
CT
TC
WC
CR
CS
CW
RC
SC
PC
CC
Total
Average
S.D.
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
0,314085
0,308552
0,302159
0,300910
0,294068
0,290055
0,284057
0,271150
0,260182
0,259724
0,258053
0,248142
0,225931
0,224821
0,199195
0,195763
0,185806
0,173026
0,167704
0,164555
0,155211
0,122490
0,033764
0,298518
0,048722
0,064694
0,094835
0,031180
0,015268
0,029148
0,027969
0,055840
0,083220
0,026675
0,048574
0,048336
0,010707
0,063133
0,059921
0,009300
0,054083
0,053068
0,033370
0,013167
0,300627
0,294068
0,313719
0,296512
0,289736
0,262052
0,298545
0,262555
0,277837
0,237580
0,253403
0,240127
0,218853
0,227378
0,211284
0,168426
0,175718
0,191801
0,154392
0,157534
0,164022
0,109215
1,087344
1,699858
1,195201
1,173462
1,230704
1,120940
1,051409
1,091243
1,086278
1,178503
1,205498
1,079925
1,118676
1,169522
1,083009
1,149731
1,170800
1,066364
1,145594
1,151534
1,121989
1,076332
459,098900
1,147747
0,756055
100,005100
0,250013
0,186790
459,649100
1,149123
0,740546
665,559100
1,663898
0,488459
Tabla 12.7: Proteı́nas naturales de UniProt. Número de proteı́nas:
314799. Número de aminoácidos: 98199016. Secuencia mı́nima: 30 residuos. Secuencia máxima: 10746 residuos. Secuencia media: 312 residuos. Tipo de análisis: Cada proteı́na. Bacteria. Número de especies:
1722.
144 —— Resultados numéricos: Dipéptidos
Tabla 12.8
Dipéptido
EE
KK
EK
KE
ED
DE
MK
ME
KD
DD
KN
EN
DK
NK
NN
MM
EM
QE
QQ
KM
QK
MD
EQ
NE
KQ
KI
FF
MA
MN
EA
.
.
.
RY
HC
SH
TH
AR
HS
RG
RA
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
5,689515
5,316120
4,436717
4,256407
3,447459
3,307643
3,280591
3,102836
3,046486
2,848537
2,765153
2,755181
2,680386
2,642442
2,628246
2,593756
2,560679
2,506777
2,454570
2,421790
2,395639
2,314779
2,301130
2,299361
2,293665
2,209394
2,205527
2,154371
2,128924
2,121657
.
.
.
0,545832
0,545245
0,544289
0,540915
0,540674
0,540108
0,539784
0,539680
0,611611
0,571472
0,476938
0,457555
0,370595
0,355565
0,176329
0,166774
0,327491
0,306212
0,297248
0,296176
0,288136
0,284057
0,282531
0,069706
0,137634
0,269474
0,263861
0,130169
0,257526
0,124417
0,247367
0,247177
0,246564
0,356258
0,237090
0,231591
0,114428
0,456148
.
.
.
0,176028
0,058613
0,175530
0,116295
0,348728
0,174182
0,348154
0,348087
5,974699
4,904411
4,551036
4,359192
3,715764
3,583874
2,885840
3,023628
3,122713
3,096080
2,798033
2,964139
2,675582
2,613101
3,306837
2,341188
2,716898
2,692689
2,855786
2,406901
2,426123
2,368800
2,455696
2,508204
2,301041
2,149126
1,969398
1,867252
2,043467
2,141186
.
.
.
0,505692
0,479850
0,569640
0,571689
0,525822
0,580082
0,495914
0,531743
3,789903
3,186012
2,965726
2,842270
2,635272
2,600751
1,532141
1,615469
2,269748
2,548349
2,203105
2,257608
2,087726
2,111931
3,203878
1,310669
1,593715
2,181833
2,862673
1,496675
2,012321
1,485242
2,093700
2,143023
1,970973
2,307331
1,951346
1,596915
1,430642
2,753839
.
.
.
1,552986
1,268130
1,738569
1,475865
2,276977
1,760554
2,171066
2,300929
Índice de tablas —— 145
Tabla 12.8
Dipéptido
CH
PH
LR
WH
RL
RV
PC
VR
RR
WP
CR
WR
RW
HR
SR
RT
RH
RS
PR
TR
RC
RP
Total
Average
S.D.
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
0,529309
0,528423
0,527896
0,524210
0,501434
0,477238
0,469086
0,467156
0,462281
0,420768
0,417692
0,415741
0,412568
0,409595
0,403625
0,400767
0,394316
0,387576
0,386064
0,384715
0,383913
0,378416
0,056900
0,113609
0,510730
0,028176
0,485128
0,307813
0,100852
0,301310
0,447249
0,045232
0,134703
0,067037
0,066525
0,132092
0,390500
0,258490
0,127164
0,374973
0,249007
0,248136
0,123810
0,244074
0,455040
0,550094
0,542407
0,540078
0,504931
0,469396
0,379913
0,457401
0,385921
0,406727
0,320381
0,426167
0,405913
0,409879
0,402044
0,395021
0,388198
0,391495
0,382172
0,376999
0,299744
0,376489
1,227893
1,463777
2,933858
1,165479
2,797997
2,072418
1,436003
2,085991
2,566222
1,203255
1,422407
1,282555
1,283312
1,523053
2,495382
1,924138
1,505256
2,430338
1,988267
1,856306
1,425328
1,933141
476,521100
1,191303
0,668507
99,999590
0,249999
0,155076
476,313200
1,190783
0,695081
786,102900
1,965257
0,592114
Tabla 12.8: Proteı́nas naturales de UniProt. Número de proteı́nas:
136293. Número de aminoácidos: 54241427. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 398 residuos. Tipo de análisis: Cada proteı́na. Eukaryota. Número de especies: 6508.
146 —— Resultados numéricos: Dipéptidos
Tabla 12.9
Dipéptido
EE
KK
EK
KE
ED
ME
QE
MK
MM
DE
KD
EN
EM
QK
KM
DK
MA
EQ
MD
QQ
EA
KN
DD
KQ
AE
NK
FF
LE
EF
DF
.
.
.
PI
YR
GR
AR
RG
NR
RR
PC
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
6,285100
4,487946
4,423820
4,239181
3,699599
3,248833
3,101870
3,062393
2,904276
2,822245
2,744689
2,617676
2,599930
2,564086
2,468382
2,456960
2,441735
2,426542
2,387249
2,284816
2,274932
2,217363
2,217022
2,154217
2,038494
2,027434
1,994033
1,944265
1,941287
1,928283
.
.
.
0,588324
0,580071
0,580008
0,568011
0,566765
0,565182
0,564294
0,555619
0,675636
0,482445
0,475552
0,455703
0,397699
0,174622
0,333445
0,164601
0,078051
0,303386
0,295049
0,281395
0,139744
0,275634
0,132673
0,264118
0,262482
0,260848
0,128312
0,245613
0,489101
0,238362
0,238325
0,231574
0,438268
0,217945
0,214355
0,627014
0,208685
0,207287
.
.
.
0,189731
0,187070
0,374098
0,366360
0,365557
0,182268
0,545944
0,119456
6,620176
4,198071
4,495448
4,269969
3,826203
3,266235
3,282201
2,819614
2,466779
2,944539
2,789532
2,741106
2,716100
2,543489
2,425965
2,365485
2,090048
2,612480
2,321289
2,438442
2,330593
2,170194
2,303208
2,205034
2,074426
2,011593
1,873028
2,040000
1,914476
2,005038
.
.
.
0,600465
0,515895
0,566436
0,553563
0,553563
0,565326
0,439631
0,541227
4,148242
2,918339
3,005549
2,801526
2,640712
1,658666
2,446178
1,533291
1,296832
2,310983
2,107565
2,112836
1,612352
2,042930
1,492875
1,947593
1,615941
2,200276
1,445103
2,376056
2,917828
1,906376
2,147484
1,922251
2,726032
1,810525
1,855602
3,526641
1,752553
1,804367
.
.
.
1,727715
1,628560
2,327769
2,383798
2,359270
1,653097
2,770079
1,626937
Índice de tablas —— 147
Tabla 12.9
Dipéptido
WH
RL
WS
CT
CR
WC
WP
IR
RI
RV
PR
WR
RP
RH
HR
SR
VR
RW
RC
RS
RT
TR
Total
Average
S.D.
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
0,555259
0,544469
0,543443
0,534800
0,526415
0,504849
0,497785
0,495564
0,495100
0,490626
0,480043
0,478285
0,469796
0,468629
0,463703
0,455458
0,451457
0,439096
0,436358
0,429653
0,399968
0,383538
0,029845
0,526764
0,087629
0,114980
0,169766
0,027135
0,053511
0,239725
0,239500
0,316448
0,309622
0,077122
0,303013
0,151130
0,149542
0,440648
0,291184
0,070803
0,140723
0,415681
0,257974
0,247377
0,567370
0,544848
0,561977
0,516908
0,434198
0,481196
0,494572
0,499007
0,498689
0,486289
0,483267
0,468720
0,464067
0,461759
0,472015
0,434227
0,456728
0,441722
0,382811
0,408980
0,406037
0,378987
1,190064
2,948596
1,427484
1,508292
1,536193
1,154197
1,235799
1,855776
1,908376
2,112536
2,258193
1,305744
2,136806
1,604986
1,638427
2,616615
2,107456
1,306746
1,577789
2,459517
1,964447
1,842371
469,742700
1,174357
0,630867
99,999460
0,249999
0,162966
468,283400
1,170709
0,640972
782,668700
1,956672
0,607649
Tabla 12.9: Proteı́nas naturales de UniProt. Número de proteı́nas:
43163. Número de aminoácidos: 17639176. Secuencia mı́nima: 30 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 409,7 residuos. Tipo de análisis: Cada proteı́na. Mammalia. Número de especies: 1698.
148 —— Resultados numéricos: Dipéptidos
Tabla 12.10
Dipéptido
EE
KK
EK
KE
ED
QE
ME
MK
DE
QQ
KM
QK
EM
EQ
KD
EN
MA
EA
MD
KQ
AE
DK
KN
PE
DD
MM
FF
LE
AA
NK
.
.
.
RG
ST
HA
PR
CT
SI
RP
WR
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
6,395520
4,392437
4,299105
3,984385
3,599617
3,283466
3,120030
2,813267
2,678169
2,645632
2,597998
2,555544
2,516010
2,486757
2,475294
2,390217
2,303952
2,289959
2,214284
2,122454
2,057529
2,043944
2,032310
2,017055
2,014599
2,002159
1,947907
1,926657
1,918315
1,909299
.
.
.
0,625701
0,623605
0,623084
0,622393
0,617300
0,611137
0,592443
0,579243
0,687506
0,472178
0,462145
0,428313
0,386952
0,352966
0,167699
0,151210
0,287898
0,284400
0,139640
0,274716
0,135233
0,267321
0,266089
0,256944
0,247670
0,492332
0,119016
0,228160
0,442361
0,219720
0,218469
0,433659
0,216565
0,053807
0,209396
0,621335
0,824860
0,205246
.
.
.
0,403570
0,402217
0,133961
0,401436
0,132717
0,295632
0,382119
0,093401
6,692800
4,074931
4,596410
4,094245
3,711239
3,479798
3,026736
2,592662
2,778600
2,540612
2,449935
2,515078
2,584805
2,756013
2,506240
2,619178
1,994582
2,346654
2,133054
2,118650
2,122251
2,062672
2,031246
2,032719
2,131417
1,931402
1,803079
2,035393
1,842443
1,914707
.
.
.
0,601081
0,644674
0,632616
0,587059
0,560107
0,631870
0,548376
0,528571
4,124470
2,862926
3,173107
2,703047
2,534541
2,530350
1,582677
1,547480
2,233684
2,366880
1,489057
2,005481
1,576677
2,289638
1,987023
2,168293
1,589617
2,877760
1,421466
1,937725
2,666255
1,884834
1,876323
2,638411
2,110535
1,253186
1,906542
3,429491
4,112715
1,799692
.
.
.
2,448766
2,481310
1,521055
2,425609
1,489121
2,133628
2,322320
1,326396
Índice de tablas —— 149
Tabla 12.10
Dipéptido
WH
RL
PI
WS
NR
WC
RR
CR
RY
RW
HR
RH
RV
RI
YR
IR
VR
SR
RC
RS
RT
TR
Total
Average
S.D.
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
0,577365
0,573512
0,550925
0,549447
0,547607
0,545043
0,539368
0,535136
0,530802
0,530524
0,521715
0,513771
0,507379
0,506426
0,499187
0,467245
0,460736
0,458861
0,454268
0,430367
0,425201
0,398503
0,031033
0,554862
0,177670
0,088597
0,176600
0,029296
0,521829
0,172578
0,171181
0,085545
0,168250
0,165688
0,327254
0,244979
0,160985
0,226026
0,297169
0,443940
0,146499
0,416372
0,274250
0,257029
0,566326
0,564108
0,568181
0,578548
0,554105
0,493653
0,489361
0,473466
0,512313
0,505220
0,521806
0,539265
0,498509
0,496563
0,491689
0,464628
0,457044
0,461063
0,431783
0,421562
0,426327
0,384862
1,196404
2,879502
1,724743
1,476880
1,673698
1,165379
2,766605
1,603474
1,570759
1,319840
1,703598
1,705314
2,076591
1,875275
1,606417
1,805768
2,048166
2,575376
1,607230
2,424179
1,966776
1,858272
460,735900
1,151840
0,601109
99,998860
0,249997
0,167621
460,868400
1,152171
0,616820
783,527700
1,958819
0,598517
Tabla 12.10: Proteı́nas naturales de UniProt. Número de proteı́nas:
7385. Número de aminoácidos: 2849090. Secuencia mı́nima: 31 residuos.
Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Cada proteı́na. Homo sapiens. Número de especies:
1.
150 —— Resultados numéricos: Dipéptidos
13.-Resultados numéricos: Tripéptidos
Introducción
162 Se muestran en este capı́tulo los principales datos numéricos encontrados en el análisis de la frecuencia y de la redundancia de los
tripéptidos en las proteı́nas naturales de la base de datos UniProt y
en las proteı́nas aleatorias de RandomUniProt, aunque en este último
caso solo en las dos primeras tablas, correspondientes a las proteı́nas de
todos los organismos. Los datos se exponen en forma de tablas con filas
ordenadas por el valor decreciente de la primera columna numérica.
163 Cada tabla incluye los 30 tripéptidos de mayor frecuencia relativa y los 30 de menor frecuencia relativa, separados por una fila de
puntos suspensivos. Las medidas estadı́sticas, total, media aritmética
y desviación tı́pica, corresponden a los datos de la tabla completa de
los 8000 tripéptidos.
Índice de tablas
Tripéptidos.
Tripéptidos.
Tripéptidos.
Tripéptidos.
Tripéptidos.
Tripéptidos.
Tripéptidos.
Naturales. Cada. Todos.
Aleatorias. Cada. Todos.
Naturales. Una. Todos.
Aleatorias. Una. Todos.
Naturales. Cada. Virus.
Naturales. Cada. Archaea.
Naturales. Cada. Bacteria.
151
153
155
157
159
161
163
165
152 —— Resultados numéricos: Tripéptidos
Tripéptidos. Naturales. Cada. Eukaryota.
Tripéptidos. Naturales. Cada. Mammalia.
Tripéptidos. Naturales. Cada. Homo sapiens.
167
169
191
Tabla 13.1
Dipéptido
EEE
KKK
KEK
MKK
EEK
KEE
EKE
DEE
KKE
EKK
EEM
EEI
EKM
MEK
EDE
EKI
MAK
KKI
EED
IEK
KEI
MKE
MEE
DDE
KNK
IEE
NNN
EEA
DKK
AKK
.
.
.
TRC
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
14,615340
10,946620
10,393710
10,285960
10,266800
9,636394
9,466668
9,430338
9,224192
8,534490
8,280358
8,171175
7,988013
7,763685
7,702605
7,611315
7,309571
7,284275
7,274119
7,265225
7,211823
7,167647
7,133473
7,067442
7,047207
7,044464
7,009557
6,905039
6,883803
6,858969
.
.
.
0,179824
0,051512
0,038582
0,036633
0,018127
0,036186
0,033964
0,033366
0,033237
0,032511
0,030080
0,014592
0,043199
0,014077
0,013682
0,027148
0,040239
0,025763
0,038510
0,025638
0,038410
0,038127
0,012631
0,012571
0,024909
0,024838
0,037243
0,024705
0,048674
0,024262
0,048349
.
.
.
0,003803
15,786300
9,756468
10,298560
8,283152
9,895306
9,729084
9,806875
9,912922
8,642803
8,243908
8,796641
8,253733
7,988035
7,399895
8,178849
7,089778
5,097217
6,328614
8,267803
6,947336
7,062568
6,978848
7,337453
7,658209
6,046405
7,033034
11,812870
6,933412
6,158731
5,542596
.
.
.
0,139826
1,642166
1,440747
1,222616
1,043736
1,198264
1,211371
1,228366
1,203626
1,186903
1,186579
1,066980
1,163620
1,058130
1,045542
1,229019
1,141798
1,034368
1,161361
1,203524
1,144732
1,163296
1,045136
1,060502
1,180264
1,141568
1,137345
4,210569
1,189541
1,115957
1,144599
.
.
.
1,017989
Índice de tablas —— 153
Tabla 13.1
Dipéptido
PCS
CSW
SWC
CWS
CRT
CWP
WRC
PCW
HSC
RTC
SPC
RSC
SCR
CTW
CRS
WCS
PRC
CSR
CWR
WPR
HRC
CHW
CRW
PCR
RCT
SRC
RCS
RPC
WPC
Total
Average
S.D.
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
0,177827
0,177399
0,176785
0,176103
0,174996
0,173980
0,170199
0,168651
0,162396
0,162082
0,161484
0,159370
0,159237
0,158293
0,158013
0,157521
0,155948
0,152781
0,151493
0,150979
0,149872
0,149579
0,145125
0,139789
0,137534
0,132022
0,128060
0,126542
0,114442
0,003761
0,000938
0,000935
0,000931
0,003701
0,000613
0,000900
0,000594
0,001717
0,003428
0,003415
0,005055
0,005051
0,000558
0,005012
0,000833
0,003298
0,004846
0,000801
0,001596
0,001585
0,000264
0,000767
0,002956
0,002908
0,004188
0,004062
0,002676
0,000403
0,191279
0,189535
0,161047
0,182442
0,157471
0,167791
0,174535
0,183663
0,170349
0,150494
0,173140
0,136841
0,126105
0,190814
0,147810
0,159768
0,137035
0,139806
0,184186
0,165524
0,154651
0,160117
0,132093
0,130320
0,134651
0,120291
0,125272
0,120494
0,117035
1,054656
1,039541
1,013909
1,008355
1,022847
1,004175
1,021088
1,000000
1,024476
1,045859
1,083697
1,043446
1,029914
1,023386
1,031373
1,033083
1,043844
1,033821
1,014084
1,029656
1,025048
1,006579
1,008881
1,038934
1,019815
1,024426
1,030448
1,029558
1,012066
10044,700000
1,255588
1,038732
99,999320
0,012500
0,011497
10100,520000
1,262565
1,034213
8431,288000
1,053911
0,062133
Tabla 13.1: Proteı́nas naturales de UniProt. Número de proteı́nas:
483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 338,5 residuos. Tipo de análisis: Cada proteı́na. Todos los organismos. Número de especies: 9124.
154 —— Resultados numéricos: Tripéptidos
Tabla 13.2
Dipéptido
WEW
EWC
MWF
KQE
DMM
YYW
QEW
MWD
CMW
HMD
DNW
KMW
MMW
FWM
TMM
MWM
KEM
WWA
MMH
MVW
MFD
WHM
NWH
YWM
MWY
EMQ
IMQ
FMC
MMI
WFE
.
.
.
WHE
YWW
IMK
KHW
DDK
DMW
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,075444
1,053831
1,053647
1,053171
1,052359
1,049121
1,048399
1,047893
1,046733
1,045310
1,044839
1,043996
1,043353
1,043330
1,042640
1,042429
1,041267
1,040918
1,040665
1,039958
1,039902
1,039900
1,039775
1,038766
1,038589
1,038207
1,037911
1,037845
1,036398
1,036189
.
.
.
0,966950
0,966687
0,966624
0,966091
0,966050
0,966034
0,000948
0,001857
0,000928
0,003712
0,000927
0,001849
0,001848
0,000923
0,000922
0,001842
0,001841
0,000920
0,000460
0,000919
0,001837
0,000459
0,001835
0,001834
0,000917
0,001833
0,001833
0,000916
0,001832
0,000915
0,000915
0,001830
0,002744
0,001829
0,001370
0,001826
.
.
.
0,001704
0,000852
0,002555
0,001703
0,003405
0,000851
1,026978
1,012676
1,040234
1,005699
1,001862
1,011629
1,000815
1,014420
1,024188
1,016862
1,005699
1,026281
1,024188
1,017211
1,015467
1,059071
1,012676
1,007792
1,023490
1,015467
1,009536
1,019304
1,016164
1,008141
1,013722
1,006746
1,006048
1,010583
0,996746
1,013723
.
.
.
0,989304
0,987908
0,992327
0,994188
1,001513
0,992095
1,005464
1,000689
1,000000
1,011047
1,014124
1,002073
1,002796
1,000688
1,000000
1,001718
1,005932
1,003411
1,006859
1,004824
1,006918
1,000000
1,004846
1,002429
1,000000
1,002756
1,004512
1,000000
1,002064
1,000000
1,000689
1,003477
1,008157
1,008354
1,004688
1,003107
.
.
.
1,002120
1,002123
1,008509
1,003875
1,010560
1,007082
Índice de tablas —— 155
Tabla 13.2
Dipéptido
TQM
EQN
QHM
IEE
YQW
WQM
KWF
MMM
KMH
TWM
WMM
WDM
FWW
FWG
YCM
FMF
MWT
WWY
CWH
YMK
MMD
MMN
WMY
DMN
Total
Average
S.D.
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
0,965647
0,965591
0,964911
0,964362
0,964235
0,964177
0,963642
0,963572
0,963418
0,963205
0,962827
0,962628
0,961748
0,961658
0,960078
0,959779
0,959136
0,957290
0,955113
0,953731
0,953581
0,950534
0,946395
0,941130
0,003403
0,003403
0,001700
0,005098
0,001699
0,000850
0,001698
0,000425
0,001698
0,001697
0,000424
0,000848
0,000847
0,003389
0,001692
0,001691
0,001690
0,000843
0,001683
0,001681
0,000840
0,000838
0,000834
0,001659
0,990002
0,990699
0,998025
0,995699
0,992095
0,980234
0,978839
0,997676
0,999071
0,986513
0,976746
0,980932
0,989304
0,998548
0,999420
0,993141
0,990001
0,980234
0,981629
0,985118
0,985815
0,973955
0,979536
0,978490
1,013934
1,014105
1,002453
1,014333
1,004947
1,000712
1,003936
1,057692
1,002801
1,008919
1,000000
1,000712
1,000706
1,012916
1,008093
1,004233
1,006740
1,001426
1,007880
1,004625
1,002839
1,004317
1,000000
1,004296
8000,618000
1,000077
0,009504
99,999960
0,012500
0,012598
7999,718000
0,999965
0,004392
8275,729000
1,034466
0,034708
Tabla 13.2: Proteı́nas aleatorias de RandomUniProt. Número de
proteı́nas: 483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media:
338,5 residuos. Tipo de análisis: Cada proteı́na. Todos los organismos. Número de especies: 9124.
156 —— Resultados numéricos: Tripéptidos
Tabla 13.3
Dipéptido
EEE
NNN
KEK
DEE
EEK
EKE
QQQ
KKK
KEE
EEM
KKE
MKK
EED
EEI
EKK
EDE
EKM
DDE
MEK
MEE
DED
EKI
KEI
IEE
MKE
DDD
IEK
EEA
EME
KEM
.
.
.
CWP
CRP
CCR
WPR
CTR
RCC
SWC
CHW
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
15,786300
11,812870
10,298560
9,912922
9,895306
9,806875
9,778620
9,756468
9,729085
8,796641
8,642803
8,283152
8,267803
8,253734
8,243908
8,178849
7,988036
7,658210
7,399895
7,337453
7,156929
7,089778
7,062569
7,033034
6,978848
6,961057
6,947336
6,933412
6,705010
6,662801
.
.
.
0,167791
0,166977
0,166570
0,165524
0,165349
0,162675
0,161047
0,160117
0,055639
0,041635
0,036298
0,034938
0,034876
0,034565
0,034465
0,034387
0,034290
0,015502
0,030462
0,014597
0,029140
0,043636
0,029056
0,028827
0,014077
0,026992
0,013041
0,012931
0,025225
0,037482
0,037338
0,037182
0,012299
0,024534
0,036729
0,048874
0,011816
0,011742
.
.
.
0,000591
0,003531
0,001761
0,001750
0,003497
0,001720
0,000851
0,000282
138,477200
355,060200
103,098200
101,496900
101,044700
103,583100
234,611100
121,492300
102,150000
179,948100
100,086700
176,028100
101,488300
65,407000
100,059400
103,638200
178,455700
99,526860
176,332600
178,855700
100,958400
64,180360
65,388760
63,930060
176,264200
124,415800
64,345290
50,154590
177,566700
177,381600
.
.
.
84,678020
15,014400
31,564370
28,938450
14,275850
29,485440
56,991750
169,761400
1,642166
4,210569
1,222616
1,203626
1,198264
1,228366
2,782194
1,440747
1,211371
1,066980
1,186903
1,043736
1,203524
1,163620
1,186579
1,229019
1,058130
1,180264
1,045542
1,060502
1,197240
1,141798
1,163296
1,137345
1,045136
1,475416
1,144732
1,189541
1,052859
1,051762
.
.
.
1,004175
1,068452
1,123089
1,029656
1,015896
1,049119
1,013909
1,006579
Índice de tablas —— 157
Tabla 13.3
Dipéptido
WCS
CRT
RRC
CRR
HRC
RTC
CRS
CPR
CRC
TRC
CSR
PRC
RSC
RCT
RCR
CRW
PCR
SCR
RCS
RPC
SRC
WPC
Total
Average
S.D.
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
0,159768
0,157471
0,157151
0,154884
0,154651
0,150494
0,147810
0,146657
0,146163
0,139826
0,139806
0,137035
0,136841
0,134651
0,134109
0,132093
0,130320
0,126105
0,125272
0,120494
0,120291
0,117035
0,000845
0,003330
0,004985
0,004913
0,001635
0,003183
0,004689
0,003101
0,001545
0,002957
0,004435
0,002898
0,004341
0,002847
0,004254
0,000698
0,002756
0,004000
0,003974
0,002548
0,003816
0,000412
58,069490
14,373540
9,688599
9,825748
28,808930
14,696910
9,662304
14,797490
30,441990
14,305270
9,685239
14,668600
9,775414
14,330930
9,756100
56,709110
14,599600
9,648644
9,653642
14,467840
9,597230
85,343440
1,033083
1,022847
1,034179
1,048819
1,025048
1,045859
1,031373
1,053016
1,083154
1,017989
1,033821
1,043844
1,043446
1,019815
1,041384
1,008881
1,038934
1,029914
1,030448
1,029558
1,024426
1,012066
10100,520000
1,262565
1,034213
100,000100 441601,800000
0,012500
0,011307
8431,288000
55,200220
58,081330
1,053911
0,062133
Tabla 13.3: Proteı́nas naturales de UniProt. Número de proteı́nas:
483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 338,5 residuos. Tipo de análisis: Una proteı́na. Todos los organismos. Número
de especies: 9124.
158 —— Resultados numéricos: Tripéptidos
Tabla 13.4
Dipéptido
MWM
WWE
WWW
MWF
WMN
QWW
FMW
WEW
KMW
MME
WWH
WMF
WQW
EWW
CMW
MMW
CWM
MMH
EMF
EWH
QMM
CMC
YQM
WHM
CWY
MWQ
PMW
HWW
GMQ
NDW
.
.
.
WDM
NWK
AWM
EWD
WWY
WQM
MMF
FWN
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,059071
1,040932
1,040932
1,040234
1,038141
1,029071
1,027676
1,026978
1,026281
1,025583
1,024885
1,024885
1,024188
1,024188
1,024188
1,024188
1,023490
1,023490
1,023141
1,022094
1,021397
1,019653
1,019304
1,019304
1,018955
1,018606
1,018257
1,017908
1,017560
1,017560
.
.
.
0,980932
0,980583
0,980234
0,980234
0,980234
0,980234
0,980234
0,979885
0,000467
0,000917
0,000459
0,000917
0,000915
0,000907
0,000906
0,000905
0,000904
0,000904
0,000903
0,000903
0,000902
0,000902
0,000902
0,000451
0,000902
0,000902
0,001803
0,001801
0,000900
0,001797
0,001796
0,000898
0,001796
0,000898
0,001794
0,000897
0,003586
0,001793
.
.
.
0,000864
0,001728
0,001727
0,001727
0,000864
0,000864
0,000864
0,001727
674,607400
337,756500
674,607400
337,303700
338,212900
337,532600
337,303700
339,146900
338,454200
337,533300
337,303700
337,303700
337,303700
337,303700
337,303700
679,234400
338,457300
337,303700
170,218800
169,287400
337,534300
169,463500
170,048600
337,303700
169,814600
339,395900
169,581400
337,766800
85,364820
169,640500
.
.
.
337,543800
168,711900
169,254200
169,073000
337,784500
337,544000
337,303700
169,375400
1,000000
1,001342
1,000000
1,000000
1,002695
1,000678
1,000000
1,005464
1,003411
1,000681
1,000000
1,000000
1,000000
1,000000
1,000000
1,006859
1,003420
1,000000
1,009291
1,003768
1,000684
1,004813
1,008282
1,000000
1,006894
1,006203
1,005512
1,001373
1,012320
1,005862
.
.
.
1,000712
1,000356
1,003571
1,002497
1,001426
1,000712
1,000000
1,004290
Índice de tablas —— 159
Tabla 13.4
Dipéptido
WFY
WMH
WMY
KWF
EWK
DMN
MWC
CWE
MQE
WHW
WMM
CMD
MMN
YWE
WMW
TMW
QMW
FMQ
DWW
CMM
MWW
WWD
Total
Average
S.D.
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
0,979536
0,979536
0,979536
0,978839
0,978839
0,978490
0,978141
0,977095
0,977095
0,976746
0,976746
0,976397
0,973955
0,973606
0,972560
0,972211
0,970467
0,970118
0,967676
0,966978
0,960002
0,955815
0,001726
0,000863
0,000863
0,001725
0,001725
0,001724
0,000862
0,001722
0,001722
0,000861
0,000430
0,001721
0,000858
0,001716
0,000428
0,001713
0,000855
0,001710
0,000853
0,000852
0,000423
0,000842
169,073300
337,544100
337,303700
169,315600
169,073600
169,376500
337,785600
170,170700
169,742700
337,544800
674,607400
169,195900
338,759700
168,772800
674,607400
169,381200
337,303700
169,321600
337,303700
337,303700
674,607400
337,303700
1,002499
1,000713
1,000000
1,003936
1,002501
1,004296
1,001429
1,009006
1,006468
1,000715
1,000000
1,003226
1,004317
1,000717
1,000000
1,004324
1,000000
1,003971
1,000000
1,000000
1,000000
1,000000
7999,718000
0,999965
0,004392
99,999730 433229,400000
0,012500
0,012596
8275,729000
54,153670
57,331410
1,034466
0,034708
Tabla 13.4: Proteı́nas aleatorias de RandomUniProt. Número de
proteı́nas: 483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media:
338,5 residuos. Tipo de análisis: Una proteı́na. Todos los organismos. Número de especies: 9124.
160 —— Resultados numéricos: Tripéptidos
Tabla 13.5
Dipéptido
EEE
KKK
KEE
DEE
DDD
EDE
KEK
KKI
DDE
DED
KNK
KKN
EKE
MKK
NKK
KKE
EED
KKM
EEK
EKK
IKK
KNN
KKY
MMM
MEQ
EDD
MEK
NNN
NNK
MDE
.
.
.
CRR
SWR
CTR
WPG
RCS
HRT
TRC
CWS
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
16,957130
12,164360
9,229603
9,135238
8,795831
8,708159
8,660282
8,389360
8,359850
8,341499
8,287954
8,185553
8,155593
8,115122
8,100307
8,092379
8,059515
7,908504
7,651673
7,606940
7,386122
7,257917
7,252396
7,207379
7,119873
7,026076
6,911339
6,815853
6,779328
6,672134
.
.
.
0,258974
0,258767
0,256985
0,255101
0,252421
0,250915
0,247769
0,245426
0,059766
0,042874
0,032530
0,032197
0,031001
0,030692
0,030523
0,044353
0,029464
0,029400
0,029211
0,028850
0,028745
0,014301
0,028550
0,028522
0,028406
0,013937
0,026969
0,026811
0,039049
0,025581
0,025561
0,003175
0,012547
0,024764
0,012180
0,024023
0,023894
0,011758
.
.
.
0,008215
0,004104
0,005434
0,001798
0,008007
0,005306
0,005240
0,001298
13,813010
10,282330
9,229318
7,857071
8,114367
8,042895
7,980953
7,201122
7,909482
7,494949
6,923179
6,541999
7,690304
5,946405
6,260880
7,251947
6,856473
7,852306
6,637295
7,223359
7,045475
6,427646
5,855875
9,529496
3,697444
6,075055
6,022642
6,480058
5,641462
6,727825
.
.
.
0,213355
0,244590
0,320826
0,290650
0,198531
0,267620
0,265238
0,216002
1,632320
1,386889
1,236120
1,210720
1,468103
1,291507
1,158368
1,226068
1,221486
1,191667
1,182262
1,091415
1,167873
1,072165
1,113559
1,135821
1,179508
1,043038
1,173547
1,144151
1,195687
1,097640
1,133764
1,033058
1,029178
1,135352
1,073005
1,333333
1,112782
1,030657
.
.
.
1,116343
1,031250
1,041237
1,016667
1,024590
1,024316
1,098684
1,014925
Índice de tablas —— 161
Tabla 13.5
Dipéptido
TRW
RMW
RHS
SRC
HWS
PCH
WPR
RPC
AHC
HWW
WHM
PCR
WSC
CRP
RSC
HRS
RCR
SCR
RWP
CWP
WPC
WHC
Total
Average
S.D.
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
0,243900
0,237529
0,236978
0,236461
0,236211
0,234023
0,233241
0,232471
0,231878
0,231781
0,231699
0,224060
0,217553
0,215996
0,205653
0,204781
0,200941
0,200526
0,195340
0,190547
0,174162
0,118612
0,002579
0,000628
0,007517
0,007501
0,001249
0,001650
0,002466
0,004916
0,001635
0,000204
0,000204
0,004738
0,001150
0,004568
0,006523
0,006496
0,006374
0,006361
0,002065
0,000672
0,000614
0,000209
0,270002
0,317650
0,232943
0,225002
0,362121
0,235855
0,228708
0,231884
0,321621
0,304944
0,381180
0,234267
0,219178
0,194561
0,192178
0,203825
0,197472
0,178413
0,227120
0,152472
0,157237
0,190590
1,005917
1,000000
1,037736
1,051980
1,027027
1,010204
1,014084
1,006896
1,000000
1,000000
1,000000
1,064982
1,000000
1,029412
1,028329
1,069444
1,056657
1,024316
1,014184
1,000000
1,000000
1,000000
10804,770000
1,350597
1,041804
99,999990
0,012500
0,009572
10697,780000
1,337223
0,983543
8616,118000
1,077015
0,071261
Tabla 13.5: Proteı́nas naturales de UniProt. Número de proteı́nas:
14187. Número de aminoácidos: 5983070. Secuencia mı́nima: 30 residuos. Secuencia máxima: 4036 residuos. Secuencia media: 421,7 residuos. Tipo de análisis: Cada proteı́na. Virus. Número de especies:
751.
162 —— Resultados numéricos: Tripéptidos
Tabla 13.6
Dipéptido
EEE
EEI
KEE
KEK
EEK
EKI
KKE
IEE
DEE
EKE
KEI
IEK
MKK
KKI
IKE
EIE
EIK
KKK
DEI
IKK
MKE
EEA
KIK
EKK
EEM
VEE
MEK
MEE
IDE
EEF
.
.
.
CRW
SCC
PCC
WPW
QCC
TCC
CWP
CCP
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
19,143880
17,439780
16,616500
15,453870
14,995630
14,958150
14,714140
14,058590
13,793950
13,582750
13,568210
13,546190
13,169590
13,114880
12,465130
12,147250
12,079290
11,720720
11,579480
11,453310
11,360120
11,305220
11,279470
11,206660
11,182940
11,091360
11,011750
10,699530
10,670350
10,602490
.
.
.
0,056266
0,055455
0,052952
0,052415
0,051718
0,051241
0,051172
0,050686
0,067473
0,092200
0,058565
0,054468
0,052852
0,079081
0,051860
0,074325
0,048617
0,047873
0,071732
0,071616
0,023208
0,069336
0,065900
0,064220
0,063861
0,041310
0,061218
0,060551
0,020020
0,079691
0,059632
0,039498
0,019707
0,078184
0,019406
0,018855
0,056412
0,037369
.
.
.
0,000297
0,000586
0,000373
0,000092
0,000182
0,000361
0,000180
0,000357
19,199950
17,009380
16,377230
15,297480
15,144010
14,681780
13,494230
14,301760
13,724430
14,036850
13,633080
13,245760
10,983930
11,597800
12,533230
12,295720
11,447990
9,558868
11,798770
10,545450
10,271400
10,855130
9,916961
10,391980
12,595340
11,288120
10,512560
10,567370
10,567370
11,142880
.
.
.
0,051156
0,054810
0,041108
0,098658
0,087696
0,101399
0,060291
0,049329
1,421672
1,232460
1,207761
1,183630
1,200261
1,217576
1,155869
1,184625
1,143379
1,196729
1,252013
1,179245
1,037267
1,159664
1,184801
1,176573
1,187192
1,197802
1,136972
1,160901
1,049272
1,193072
1,161318
1,140794
1,058986
1,225528
1,052689
1,037675
1,131013
1,113363
.
.
.
1,000000
1,034483
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
Índice de tablas —— 163
Tabla 13.6
Dipéptido
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
0,049053
0,046921
0,045396
0,042020
0,041543
0,040981
0,040355
0,040228
0,039933
0,039490
0,038840
0,038037
0,034351
0,033710
0,030384
0,029713
0,025127
0,024088
0,024045
0,023528
0,017410
0,001887
0,000086
0,000165
0,000160
0,000148
0,000146
0,000144
0,000142
0,000142
0,000035
0,000139
0,000411
0,000134
0,000061
0,000178
0,000054
0,000105
0,000022
0,000042
0,000042
0,000021
0,000031
0,000007
0,065772
0,065772
0,098658
0,038367
0,049329
0,049329
0,032886
0,043848
0,087696
0,049329
0,038367
0,060291
0,021924
0,047502
0,043848
0,049329
0,021924
0,021924
0,032886
0,043848
0,021924
0,005481
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
1,000000
Total
Average
S.D.
10179,070000
1,272384
1,489055
100,000000
0,012500
0,013453
10201,760000
1,275220
1,466102
8283,841000
1,035480
0,038674
Total
Average
S.D.
470,585100
1,176463
1,010594
99,999950
0,250000
0,198001
470,865800
1,177164
0,995959
645,199600
1,612999
0,465983
QWC
CWV
CCY
NCC
TWC
WCA
QCH
WPH
CWW
CCH
HSC
CTW
CWC
SWC
QCW
WHT
WCW
CWH
WCQ
CMW
CQW
PCW
Tabla 13.6: Proteı́nas naturales de UniProt. Número de proteı́nas:
18139. Número de aminoácidos: 5212818. Secuencia mı́nima: 31 residuos. Secuencia máxima: 9159 residuos. Secuencia media: 287,4 residuos. Tipo de análisis: Cada proteı́na. Archaea. Número de especies:
143.
164 —— Resultados numéricos: Tripéptidos
Tabla 13.7
Dipéptido
MKK
KEK
EEE
EEK
MAK
EKM
EEI
KEE
EKE
EKI
KKE
KKK
EEM
DEE
IEK
IEE
KEI
MEK
AKK
KKI
EEA
EKK
KNK
EIE
IKE
DKK
MKE
KKA
EKA
AKE
.
.
.
WTC
WCC
SPC
TCC
WWC
CMW
CCI
HSC
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
11,205030
9,558001
9,453230
9,074572
8,841528
8,625473
8,624070
8,431584
8,244724
8,219271
8,212364
8,077364
8,051406
7,915052
7,868661
7,544481
7,536212
7,450618
7,420534
7,204997
7,132503
7,130339
7,004619
6,990292
6,965307
6,941974
6,912667
6,860850
6,847263
6,735296
.
.
.
0,084947
0,082476
0,082370
0,081411
0,080859
0,080674
0,079772
0,078314
0,019746
0,033687
0,033318
0,031984
0,031162
0,015200
0,045594
0,029717
0,029059
0,043454
0,028945
0,028469
0,014189
0,027897
0,041600
0,039886
0,039842
0,013130
0,052308
0,038091
0,050277
0,025131
0,024688
0,036956
0,036824
0,024467
0,012182
0,048362
0,048267
0,047477
.
.
.
0,000299
0,000145
0,001742
0,000574
0,000071
0,000071
0,000422
0,000828
8,702891
8,937271
9,106514
8,382728
6,189847
8,554586
8,742051
8,082046
8,078847
7,543203
7,308824
6,009845
8,560402
8,045114
7,593802
7,571896
7,437160
7,165171
5,930314
6,172205
7,150777
6,438185
5,534978
7,194638
6,702808
5,938601
6,777252
5,338547
6,467410
6,219944
.
.
.
0,080841
0,083749
0,080792
0,071390
0,100033
0,097707
0,077545
0,082198
1,026478
1,141086
1,209532
1,124605
1,032048
1,048396
1,148628
1,144640
1,137255
1,129463
1,117762
1,198921
1,046573
1,100915
1,134701
1,126890
1,158968
1,033470
1,120830
1,153049
1,158345
1,098596
1,106821
1,127784
1,144034
1,096719
1,038499
1,110752
1,128301
1,136017
.
.
.
1,000000
1,066667
1,004217
1,006148
1,000000
1,000000
1,000000
1,005931
Índice de tablas —— 165
Tabla 13.7
Dipéptido
PPC
CIW
NCC
YCW
CKW
SRC
RPC
CSW
CRW
RCS
CWC
WCS
CRC
HCC
WPC
CCR
CMC
RCC
PCC
CCP
CWW
CCC
Total
Average
S.D.
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
0,078166
0,076927
0,073918
0,072747
0,072653
0,072135
0,071969
0,071711
0,069067
0,068091
0,067718
0,067378
0,066023
0,061442
0,060849
0,055973
0,055376
0,054731
0,054297
0,052689
0,048535
0,045151
0,001102
0,000203
0,000261
0,000128
0,000128
0,002288
0,001522
0,000379
0,000365
0,002160
0,000119
0,000356
0,000698
0,000217
0,000214
0,000592
0,000098
0,000579
0,000383
0,000371
0,000043
0,000159
0,068409
0,095768
0,085203
0,077933
0,069791
0,071309
0,074007
0,074831
0,080453
0,068789
0,079678
0,070372
0,048950
0,062230
0,071245
0,046139
0,040130
0,044201
0,053797
0,046382
0,047690
0,036640
1,001064
1,008163
1,000000
1,007519
1,008403
1,003182
1,002626
1,000000
1,000000
1,005194
1,000000
1,002762
1,005976
1,000000
1,012397
1,004219
1,000000
1,004405
1,002710
1,006309
1,000000
1,076923
9823,719000
1,227965
1,076215
99,999340
0,012500
0,012514
9856,301000
1,232038
1,052969
8309,242000
1,038655
0,038147
Tabla 13.7: Proteı́nas naturales de UniProt. Número de proteı́nas:
314799. Número de aminoácidos: 98199016. Secuencia mı́nima: 30 residuos. Secuencia máxima: 10746 residuos. Secuencia media: 312 residuos. Tipo de análisis: Cada proteı́na. Bacteria. Número de especies:
1722.
166 —— Resultados numéricos: Tripéptidos
Tabla 13.8
Dipéptido
EEE
NNN
KKK
QQQ
EEK
DEE
EKE
KEK
KEE
EKK
EED
EDE
KKE
DDD
DED
DDE
EEM
MEE
MEK
EDD
MKK
MKE
QEE
NKK
KKM
KNK
KKD
EEQ
DKK
KKN
.
.
.
WTR
RST
RLC
WRT
WRP
CRH
HRC
RWH
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
25,691970
18,753290
17,344140
15,541910
12,663420
12,380200
11,877880
11,831160
11,532610
11,518710
11,202330
11,058770
10,948310
10,163470
9,034679
8,723994
8,661751
8,455058
8,143301
8,125828
8,005497
7,398709
7,093279
7,051556
6,922498
6,916203
6,875600
6,860163
6,785423
6,696084
.
.
.
0,275650
0,273384
0,273167
0,270152
0,269906
0,269584
0,266405
0,264944
0,090552
0,066096
0,061130
0,054778
0,044633
0,043634
0,041864
0,041699
0,040647
0,040598
0,039483
0,038977
0,038588
0,035821
0,031843
0,030748
0,015264
0,014900
0,014351
0,028640
0,014108
0,013038
0,025000
0,024853
0,012199
0,024376
0,024233
0,024179
0,023915
0,023601
.
.
.
0,002915
0,017344
0,008665
0,002856
0,002854
0,002850
0,002817
0,001401
27,752880
30,601250
16,490860
22,424690
12,485910
13,150950
12,758760
12,535850
12,124210
11,415010
12,412300
12,162590
10,742610
11,716250
9,915650
9,794209
9,170701
9,007728
7,677650
8,931498
7,523088
7,261278
7,638747
6,837020
6,620948
6,786025
6,859626
7,489967
6,605702
6,614114
.
.
.
0,289848
0,291922
0,278049
0,315959
0,294405
0,245337
0,244636
0,304218
2,112952
7,192389
1,688721
4,722653
1,303226
1,349463
1,361744
1,358225
1,301100
1,300725
1,333974
1,384003
1,293864
1,835145
1,352722
1,317166
1,104190
1,085530
1,063192
1,271061
1,080163
1,053708
1,200330
1,183133
1,068919
1,195075
1,162716
1,175495
1,159026
1,173820
.
.
.
1,038293
1,083469
1,066786
1,032055
1,025015
1,032448
1,041014
1,009302
Índice de tablas —— 167
Tabla 13.8
Dipéptido
RRP
CWR
SRC
TRR
PRC
RRW
RCS
CRT
HRT
HTR
RPC
PCW
RCT
RWS
RTR
PCR
WPC
RHT
RPH
WPR
TRC
RWP
Total
Average
S.D.
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
0,263828
0,263525
0,261919
0,260918
0,260585
0,258415
0,257211
0,256145
0,252979
0,251480
0,249600
0,249273
0,248785
0,247781
0,247131
0,245662
0,237523
0,234087
0,232388
0,227369
0,216075
0,215369
0,016738
0,001393
0,008308
0,016553
0,005511
0,004099
0,008159
0,005417
0,005350
0,005318
0,005278
0,000879
0,005261
0,003930
0,015678
0,005195
0,000837
0,004950
0,004914
0,002404
0,004569
0,002277
0,250332
0,212742
0,200592
0,245512
0,208712
0,270689
0,223315
0,204418
0,259532
0,262248
0,197058
0,232369
0,198986
0,262861
0,239291
0,195218
0,200300
0,249368
0,257604
0,218175
0,184879
0,211516
1,092961
1,003306
1,035897
1,067429
1,056319
1,028407
1,046251
1,035049
1,030978
1,037435
1,052410
1,000000
1,028533
1,025992
1,081870
1,060952
1,013298
1,027808
1,048128
1,018822
1,020803
1,010888
10458,170000
1,307271
1,059451
99,999000
0,012500
0,010430
10466,400000
1,308300
1,139998
8582,633000
1,072829
0,104644
Tabla 13.8: Proteı́nas naturales de UniProt. Número de proteı́nas:
136293. Número de aminoácidos: 54241427. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 398 residuos. Tipo de análisis: Cada proteı́na. Eukaryota. Número de especies: 6508.
168 —— Resultados numéricos: Tripéptidos
Tabla 13.9
Dipéptido
EEE
KKK
EEK
EED
KEE
EDE
EKE
DEE
KEK
MEE
EKK
EEM
QQQ
KKE
QEE
WWN
EEQ
MEK
DED
MMF
MKE
MKK
EME
EDD
EQE
DDD
EEA
EKM
EMK
KMK
.
.
.
WTR
SRW
VRP
THR
SRT
WRC
IRP
HTR
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
31,098110
15,059440
13,671380
12,479810
12,158490
11,661270
11,559820
11,520860
11,501840
10,151510
10,073200
10,027300
9,967902
9,839431
9,203201
8,870749
8,391528
8,329630
8,077299
7,866692
7,805060
7,399291
7,290658
7,097834
7,013269
6,976424
6,967886
6,832005
6,756270
6,707900
.
.
.
0,294441
0,292474
0,291654
0,291582
0,290245
0,290244
0,289479
0,289021
0,109606
0,053077
0,048185
0,043985
0,042853
0,041100
0,040743
0,040606
0,040539
0,017890
0,035503
0,017671
0,035132
0,034679
0,032437
0,007816
0,029576
0,014679
0,028469
0,006932
0,013755
0,013039
0,012848
0,025016
0,024718
0,024589
0,049117
0,012040
0,011906
0,011821
.
.
.
0,003113
0,004639
0,012335
0,006166
0,018414
0,001534
0,009182
0,006112
33,087940
14,285840
13,547140
13,196380
13,112330
11,919420
12,616090
11,605830
11,874160
10,251280
9,885973
10,173690
10,923710
9,845563
10,046000
8,133782
8,827223
7,826664
8,364929
7,235058
7,283550
7,054020
8,253397
7,524395
7,909101
6,986130
7,527628
7,403164
6,533535
6,297539
.
.
.
0,314123
0,306759
0,304020
0,294726
0,314033
0,286644
0,290774
0,301730
2,307259
1,642141
1,325478
1,353224
1,304390
1,367835
1,359756
1,313575
1,327191
1,103340
1,226143
1,134054
2,563733
1,258991
1,267333
1,000000
1,215176
1,086625
1,279674
1,010840
1,056259
1,071709
1,110483
1,218586
1,284252
1,534801
1,309433
1,124202
1,052056
1,053542
.
.
.
1,033688
1,031401
1,068655
1,043893
1,111217
1,064000
1,045866
1,048689
Índice de tablas —— 169
Tabla 13.9
Dipéptido
TRS
PTR
RTC
RWP
RHT
CIR
CRW
RTS
PCR
PYR
RWS
RWC
RST
RHA
IWP
RCT
STR
TRR
RTR
TRC
TTR
WCT
Total
Average
S.D.
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
0,288373
0,283628
0,283336
0,282253
0,281572
0,279104
0,278363
0,277718
0,275529
0,275190
0,274434
0,269976
0,268840
0,268084
0,265629
0,263855
0,261791
0,258299
0,257853
0,256108
0,255286
0,251381
0,018295
0,011996
0,005992
0,002984
0,005954
0,004427
0,001472
0,017619
0,005827
0,005819
0,004353
0,001427
0,017056
0,005669
0,001404
0,005580
0,016608
0,016387
0,016359
0,005416
0,010797
0,000886
0,285746
0,276406
0,306310
0,281256
0,292571
0,289517
0,245695
0,293020
0,274251
0,318703
0,266888
0,255393
0,287003
0,303347
0,286644
0,237343
0,273084
0,240486
0,251981
0,227375
0,269537
0,257009
1,104478
1,054471
1,137000
1,019531
1,036260
1,013837
1,004405
1,099764
1,087607
1,069620
1,031944
1,021552
1,093397
1,052336
1,011407
1,042603
1,091137
1,074639
1,091829
1,028015
1,075806
1,006329
10244,320000
1,280540
1,021067
99,999320
0,012500
0,011143
10205,710000
1,275714
1,029452
8594,392000
1,074299
0,081115
Tabla 13.9: Proteı́nas naturales de UniProt. Número de proteı́nas:
43163. Número de aminoácidos: 17639176. Secuencia mı́nima: 30 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 409,7 residuos. Tipo de análisis: Cada proteı́na. Mammalia. Número de especies: 1698.
170 —— Resultados numéricos: Tripéptidos
Tabla 13.10
Dipéptido
EEE
KKK
QQQ
EEK
EED
EDE
KEE
DEE
QEE
KEK
EKE
EEM
MEE
KKE
EKK
EEQ
EQE
GEK
DED
MYF
EME
MKE
MEK
EKM
EDD
MKK
PEE
EKP
KMK
EEA
.
.
.
YPR
CRI
YRT
CIR
RPI
WRC
PTR
SRT
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
33,156740
14,822770
13,956780
13,183690
12,786660
12,744740
11,875500
11,526520
10,924640
10,862820
10,344140
9,714064
9,454300
9,347754
9,144328
8,768473
8,538439
8,048815
8,019942
8,005039
7,810014
7,802949
7,639336
7,470064
7,090977
7,088323
6,962056
6,886501
6,775283
6,771398
.
.
.
0,317414
0,316844
0,316279
0,316113
0,316101
0,315680
0,309474
0,309420
0,116862
0,052243
0,049191
0,046466
0,045067
0,044919
0,041855
0,040625
0,038504
0,038286
0,036458
0,017119
0,016661
0,032946
0,032229
0,030905
0,030094
0,056736
0,028266
0,014107
0,013763
0,013751
0,013463
0,013164
0,024992
0,012491
0,049076
0,048543
0,011940
0,047732
.
.
.
0,006712
0,005025
0,006688
0,005014
0,010027
0,001669
0,013089
0,019630
34,145420
13,754270
10,500890
14,595140
13,123610
11,592020
12,482950
11,321740
12,583050
11,511940
11,712150
10,110490
9,269614
9,299645
8,929261
9,539895
10,510900
9,800165
8,438753
6,586832
8,388700
7,127393
7,487766
8,228535
7,457735
6,907164
6,281515
8,563882
6,106334
7,317589
.
.
.
0,285296
0,293638
0,313659
0,293638
0,279178
0,327006
0,292804
0,334792
2,362188
1,673569
2,280435
1,468278
1,378549
1,327982
1,286894
1,283768
1,529197
1,370679
1,366822
1,163594
1,110312
1,284924
1,220246
1,215561
1,583710
2,438356
1,302937
1,085809
1,088312
1,078788
1,103245
1,313099
1,225329
1,061538
1,235236
2,516176
1,085409
1,317117
.
.
.
1,017857
1,023256
1,021739
1,015385
1,068085
1,042553
1,054054
1,182711
Índice de tablas —— 171
Tabla 13.10
Dipéptido
RTY
IRP
RTS
RSI
TRY
CMW
TRS
PIR
RTR
IWC
VWC
PCR
WPI
RCT
STR
RTN
WTR
RHA
TRR
TRC
TTR
WWH
Total
Average
S.D.
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
0,306845
0,304607
0,300064
0,299173
0,297301
0,296922
0,293728
0,292576
0,289280
0,288338
0,287490
0,283747
0,276992
0,276114
0,274149
0,269797
0,268172
0,267255
0,265292
0,259688
0,246799
0,242440
0,006489
0,009662
0,019036
0,014235
0,006287
0,000262
0,018635
0,009281
0,018352
0,000762
0,001013
0,006000
0,001464
0,005839
0,017392
0,005705
0,002836
0,005652
0,016830
0,005492
0,010438
0,000214
0,288633
0,280291
0,306985
0,300311
0,280291
0,520540
0,285296
0,276954
0,276398
0,293638
0,360374
0,306985
0,273617
0,288633
0,276398
0,306985
0,286964
0,296975
0,249703
0,250260
0,269446
0,200208
1,042169
1,041322
1,112903
1,074271
1,024390
1,000000
1,117647
1,064103
1,147806
1,000000
1,058824
1,115152
1,000000
1,081250
1,089912
1,057471
1,075000
1,078788
1,095122
1,034483
1,129371
1,000000
9957,922000
1,244740
0,997294
99,998480
0,012500
0,011621
9976,780000
1,247097
1,015551
8738,302000
1,092288
0,133134
Tabla 13.10: Proteı́nas naturales de UniProt. Número de proteı́nas:
7385. Número de aminoácidos: 2849090. Secuencia mı́nima: 31 residuos.
Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Cada proteı́na. Homo sapiens. Número de especies:
1.
172 —— Resultados numéricos: Tripéptidos
14.-Resultados numéricos: Tetrapéptidos
Introducción
164 Este capı́tulo presenta algunas tablas con los datos numéricos
encontrados en el análisis de la frecuencia y de la redundancia de aproximadamente 1200 tetrapéptidos definidos a partir de los 30 tripéptidos
de mayor frecuencia relativa en las proteı́nas naturales de la base de datos UniProt. Solo se muestran los 50 tetrapéptidos de mayor frecuencia
relativa. Los datos se exponen en forma de tablas con filas ordenadas
por el valor decreciente de la primera columna numérica.
Índice de tablas
Tetrapéptidos.
Tetrapéptidos.
Tetrapéptidos.
Tetrapéptidos.
Tetrapéptidos.
Tetrapéptidos.
Tetrapéptidos.
Naturales.
Naturales.
Naturales.
Naturales.
Naturales.
Naturales.
Naturales.
Cada.
Cada.
Cada.
Cada.
Cada.
Cada.
Cada.
173
Todos.
Virus.
Archaea.
Bacteria.
Eukaryota.
Mammalia.
Homo sapiens.
175
176
178
179
181
183
184
174 —— Resultados numéricos: Tetrapéptidos
Tabla 14.1
Tetrapéptido
EEEE
KKKK
MAKK
EEEK
EDEE
KEKE
DEEE
EEDE
KKEE
KKEK
KEKK
EEKE
EEED
EKEK
KEEE
EEKK
DEDE
DDEE
EKEE
EKIK
EEIK
EDED
KEEK
EEME
EMKK
EKKK
EKKE
MKKI
EIEK
EEIE
KKKE
EEEF
MKKK
EEMK
DEEK
MAKE
EKME
EEEI
EMEK
EKMK
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
82,30801000
45,65164000
35,24572000
35,12217000
30,43094000
29,98376000
29,93162000
28,93010000
28,59137000
28,46014000
28,44228000
28,17944000
27,42096000
27,41476000
27,06306000
25,93475000
25,09348000
24,58647000
24,45123000
24,28135000
24,25025000
24,19086000
23,93432000
23,87176000
23,58141000
22,97684000
22,97280000
22,75746000
22,22403000
21,47120000
21,34494000
21,25508000
21,08878000
20,98310000
20,72022000
20,21479000
20,17583000
20,00598000
19,98540000
19,61820000
0,00951136
0,00527542
0,00407293
0,00405865
0,00351654
0,00346487
0,00345884
0,00334311
0,00330397
0,00328880
0,00328674
0,00325636
0,00316872
0,00316800
0,00312736
0,00299697
0,00289976
0,00284117
0,00282554
0,00420886
0,00420347
0,00279545
0,00276581
0,00137929
0,00136251
0,00265516
0,00265469
0,00197236
0,00385225
0,00372176
0,00246658
0,00245620
0,00121849
0,00121238
0,00239439
0,00233598
0,00116574
0,00346778
0,00115474
0,00113352
99,66961000
44,32309000
16,48177000
34,61224000
34,82567000
32,13651000
34,15871000
31,50157000
27,81465000
27,30243000
29,88487000
28,08677000
32,17920000
31,66698000
28,22016000
26,76353000
27,29176000
27,72928000
26,02721000
20,15090000
23,83605000
26,20329000
23,62084000
23,48745000
21,56662000
23,36473000
22,78315000
16,39106000
21,61642000
23,11040000
20,89433000
16,17764000
17,61826000
21,82273000
19,73650000
13,52049000
16,54046000
22,04327000
21,95079000
20,49950000
2,16028700
1,59077000
1,00259700
1,08405700
1,16470400
1,16883400
1,13692100
1,14175200
1,07795700
1,15014600
1,12923400
1,07340900
1,13003600
1,17107300
1,09254300
1,08383800
1,19789200
1,08860500
1,08159600
1,02478300
1,03923700
1,20515300
1,07009900
1,00824600
1,00697600
1,08337500
1,10966700
1,00392200
1,02860500
1,01865800
1,06936100
1,01269200
1,00978600
1,01137500
1,02352000
1,00675400
1,01241000
1,02446700
1,00932300
1,00261000
Índice de tablas —— 175
Tabla 14.1
Tetrapéptido
DEED
MKEK
MEEM
MEEK
MKKF
EEDD
EKIE
KMKK
IKEK
KKEI
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
19,06352000
18,87787000
18,69766000
18,41895000
17,99845000
17,80214000
17,79546000
17,54677000
17,50919000
17,49699000
0,00220295
0,00109075
0,00054017
0,00106423
0,00103993
0,00205718
0,00308462
0,00101384
0,00303500
0,00303288
23,43410000
19,88056000
20,27540000
16,09226000
11,16214000
20,44614000
16,56891000
17,49020000
15,96065000
15,09628000
1,12904900
1,00323100
1,00849300
1,00266000
1,00095700
1,07913300
1,01881000
1,01297900
1,02583400
1,02043800
Tabla 14.1: Proteı́nas naturales de UniProt. Número de proteı́nas:
483418. Número de aminoácidos: 163636331. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 338,5 residuos. Tipo de análisis: Cada proteı́na. Todos los organismos. Número de especies: 9124.
Tabla 14.2
Tetrapéptido
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
EEEE
DDDD
MEQE
KKKK
EEDE
EEED
DEDE
EDED
MMMG
EDEE
KKEE
DDEE
DEDD
DKEE
EEEK
GMMM
119,846100
54,076540
53,564220
45,121320
42,833250
38,987250
37,956450
37,152170
36,794540
36,786830
36,087680
35,252860
34,814450
33,166710
32,933090
32,780250
0,013849
0,006249
0,003095
0,005214
0,004950
0,004505
0,004386
0,004293
0,001063
0,004251
0,004170
0,004074
0,004023
0,003833
0,003806
0,000947
90,170900
49,528450
14,275850
31,319460
32,193490
30,299750
31,173790
31,902150
60,599510
31,610800
47,052020
27,094970
25,783930
41,807830
26,803630
58,851450
1,847761
1,497797
1,000000
1,295181
1,099502
1,124324
1,163043
1,196721
1,000000
1,179348
1,076667
1,134146
1,092593
1,000000
1,016575
1,000000
176 —— Resultados numéricos: Tetrapéptidos
Tabla 14.2
Tetrapéptido
DDED
DEEE
MKKM
KKKY
KKIK
KEKK
MDEM
EEDD
MDEN
EDDE
DEED
KKEK
DDDE
EKEE
MEQA
MMMF
NKKK
EDDD
QMMM
MMMN
KEEE
MDED
KKNK
KNNM
NNNN
EEEN
KEKE
MMMQ
KKKQ
KEEI
KNKN
EEKE
KKKE
KIKK
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
31,795820
31,764110
31,744880
31,508910
31,462340
31,458080
31,021920
30,372400
30,044310
29,938110
29,894540
28,682010
28,117940
26,667030
26,353610
26,080150
26,006940
25,901930
25,848440
25,460300
25,297060
25,231980
24,888250
24,853520
24,698420
24,324920
23,924390
23,794850
23,610280
23,446290
23,040920
22,881370
22,592970
22,096810
0,003674
0,003671
0,000917
0,003641
0,005454
0,003635
0,000896
0,003510
0,001736
0,003460
0,003455
0,003314
0,003249
0,003082
0,003045
0,000377
0,003005
0,002993
0,000373
0,000368
0,002923
0,001458
0,002876
0,001436
0,002854
0,002811
0,002765
0,000344
0,002728
0,004064
0,002663
0,002644
0,002611
0,003830
27,823330
30,154080
16,897940
21,850780
19,908490
29,571400
26,220940
21,559440
15,732570
21,413770
22,142130
20,976750
24,472880
24,472880
6,409563
5,826876
16,023910
21,122430
4,661500
48,945760
21,850780
32,339160
19,520030
41,079480
24,909890
15,149880
26,657960
22,142130
23,598850
26,803630
14,712860
18,937350
16,315250
16,703710
1,067039
1,150000
1,000000
1,020408
1,019900
1,025253
1,000000
1,104478
1,000000
1,195122
1,101449
1,035971
1,076923
1,005988
1,000000
1,000000
1,009174
1,035714
1,000000
1,000000
1,027397
1,000000
1,030769
1,000000
1,230216
1,050505
1,051724
1,000000
1,000000
1,018450
1,097826
1,007752
1,046729
1,061728
Tabla 14.2: Proteı́nas naturales de UniProt. Número de proteı́nas:
14187. Número de aminoácidos: 5983070. Secuencia mı́nima: 30 residuos. Secuencia máxima: 4036 residuos. Secuencia media: 421,7 residuos. Tipo de análisis: Cada proteı́na. Virus. Número de especies:
751.
Índice de tablas —— 177
Tabla 14.3
Tetrapéptido
EEEE
EEIK
EEIE
EKIK
KIEE
KKEE
EEKK
EIEK
EEKE
EIKE
EEMK
KIKE
KMKK
EKIE
EEEI
MKEK
KEEI
EIKK
KEEE
EKKE
KIKK
KKEK
EEFK
EEEK
KEEK
EMEK
KEKE
IEEI
EVEE
KEIK
EIEE
EKEK
EEAE
EKEE
IEEE
DEIK
KEIE
EEME
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
80,695840
59,170990
58,517460
57,889350
56,283290
53,835170
53,020360
52,856990
52,700420
51,216510
48,689380
48,652030
48,029090
45,648720
44,953850
44,826040
44,203440
43,902710
42,703200
42,701400
42,666050
42,457260
41,992250
41,750690
41,671350
40,380890
40,110190
38,748850
38,398980
38,155390
37,982120
37,152100
36,843960
36,538440
36,461110
36,228610
36,223850
35,411640
0,009325
0,010257
0,010143
0,010034
0,009756
0,006221
0,006127
0,009162
0,006090
0,008878
0,002813
0,008433
0,002775
0,007913
0,007792
0,002590
0,007662
0,007610
0,004935
0,004934
0,007396
0,004906
0,004853
0,004825
0,004815
0,002333
0,004635
0,010075
0,008875
0,006614
0,006584
0,004293
0,008515
0,004222
0,006320
0,006280
0,006279
0,002046
81,866110
58,827290
54,241890
55,248440
53,347180
51,334080
47,643390
50,998560
45,462530
44,959260
50,327530
50,103850
28,183420
42,834320
44,735580
30,196520
45,071090
44,176380
41,939610
42,275120
32,992490
39,423230
41,939600
42,442880
40,094260
34,222720
43,449430
34,073600
36,319700
35,676620
42,163290
43,113910
33,300050
34,390480
31,426740
33,328010
43,057990
34,558240
1,820896
1,037475
1,027542
1,040000
1,017058
1,104693
1,126984
1,034014
1,066929
1,025510
1,000000
1,032258
1,012048
1,046448
1,036269
1,000000
1,022843
1,036745
1,063830
1,130045
1,017241
1,026201
1,028807
1,090517
1,043668
1,062500
1,065844
1,024664
1,058680
1,032362
1,038568
1,070833
1,050265
1,045918
1,010791
1,013605
1,072423
1,000000
178 —— Resultados numéricos: Tetrapéptidos
Tabla 14.3
Tetrapéptido
KKKK
EEAK
IEKI
KIEK
KEKI
KKKE
KIDE
MMEK
DEIE
IKEI
EEFE
MKKI
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
34,827420
34,705170
34,660330
34,146380
33,982580
33,948190
33,470420
33,470130
33,435790
33,371630
33,276760
33,089610
0,004025
0,008021
0,009012
0,005919
0,005890
0,003923
0,005802
0,000967
0,005796
0,008677
0,003845
0,002868
24,324970
33,467800
33,775360
32,545140
34,334560
25,667040
29,749160
28,183420
32,433300
32,135060
34,390480
21,920430
1,188525
1,028350
1,031891
1,031915
1,023333
1,047945
1,015267
1,000000
1,046931
1,036058
1,025000
1,000000
Tabla 14.3: Proteı́nas naturales de UniProt. Número de proteı́nas:
18139. Número de aminoácidos: 5212818. Secuencia mı́nima: 31 residuos. Secuencia máxima: 9159 residuos. Secuencia media: 287,4 residuos. Tipo de análisis: Cada proteı́na. Archaea. Número de especies:
143.
Tabla 14.4
Tetrapéptido
MAKK
MKKI
EKIK
EMKK
MAKE
KEKE
EEIK
EEEK
KAKE
KNKK
EKME
EEEF
EKAK
EIEK
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
45,546220
27,501450
26,436440
26,100510
26,036300
25,466960
25,158920
24,427520
23,242470
23,186240
22,992840
22,849370
22,141650
22,038250
0,005263
0,002384
0,004582
0,001508
0,003009
0,002943
0,004361
0,002823
0,005372
0,002679
0,001329
0,002640
0,005117
0,003820
20,420760
20,358470
20,904210
23,045650
17,270890
22,271530
25,560800
20,447450
17,297580
16,674730
16,176450
15,518000
21,457370
23,164290
1,000436
1,005272
1,021745
1,003098
1,007788
1,043787
1,038563
1,017264
1,025587
1,034787
1,002205
1,006928
1,026170
1,024128
Índice de tablas —— 179
Tabla 14.4
Tetrapéptido
EEEE
EEME
EEIE
MKKF
KKEK
KEIE
KEKK
MKKK
KKKK
KEIK
EKEK
EEKF
EEAK
EIKE
MEEK
EMKE
KKEE
MEEM
EKIE
QEKM
KAKK
EMEK
KEEK
DEEK
EIEE
EEAE
EKMK
AKEK
EEKK
KKEI
EEEI
KIKE
EEKE
MDKK
EKEM
AEKI
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
21,654460
21,597010
21,591860
21,508030
21,325530
21,254640
21,217500
21,196750
21,193970
20,962210
20,863040
20,784640
20,509160
20,201380
19,432220
19,402840
19,352830
19,228110
19,136290
18,941030
18,877450
18,808730
18,796070
18,737320
18,682570
18,587240
18,377880
18,251170
18,250040
18,106860
18,064700
18,058930
17,832340
17,766610
17,662110
17,518510
0,002502
0,001248
0,003743
0,001243
0,002464
0,003684
0,002452
0,001225
0,002449
0,003634
0,002411
0,002402
0,004740
0,003502
0,001123
0,001121
0,002236
0,000555
0,003317
0,001094
0,004363
0,001087
0,002172
0,002165
0,003238
0,004296
0,001062
0,004218
0,002109
0,003139
0,003131
0,003130
0,002061
0,001027
0,001021
0,006073
19,504270
19,237330
23,650710
11,069030
17,386560
24,172720
19,397500
15,802730
15,357830
19,587320
20,429660
16,425590
19,530970
20,607620
15,073100
26,231110
18,178480
21,960100
17,950100
17,119630
14,605960
20,696600
16,932770
17,333180
17,173010
15,264410
19,842390
14,543670
16,745910
15,725610
20,607620
16,674730
17,644610
10,997850
16,959470
12,587610
1,209713
1,000926
1,012957
1,001610
1,017708
1,030602
1,014425
1,002257
1,234621
1,011952
1,041270
1,002172
1,016674
1,011059
1,001182
1,004772
1,049307
1,000000
1,014415
1,011567
1,032715
1,002586
1,031996
1,005679
1,012946
1,022958
1,000000
1,009886
1,025054
1,019223
1,006373
1,017004
1,023220
1,000000
1,008466
1,004259
180 —— Resultados numéricos: Tetrapéptidos
Tabla 14.4
Tetrapéptido
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
Tabla 14.4: Proteı́nas naturales de UniProt. Número de proteı́nas:
314799. Número de aminoácidos: 98199016. Secuencia mı́nima: 30 residuos. Secuencia máxima: 10746 residuos. Secuencia media: 312 residuos. Tipo de análisis: Cada proteı́na. Bacteria. Número de especies:
1722.
Tabla 14.5
Tetrapéptido
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
NNNN
QQQQ
EEEE
KKKK
DDDD
DEEE
EEED
EDEE
EEDE
EEEK
DEDE
EEKE
KEEE
EDED
KKEE
EKEE
KEKK
DDDE
DDEE
KKEK
EKKK
DEDD
EDDD
EKEK
DDED
EEKK
378,971300
262,160100
218,708300
103,638000
86,703650
68,253950
66,565060
63,441480
61,428340
59,169350
49,802450
49,366130
47,607970
47,312620
45,789390
44,818590
44,443180
43,552050
43,231280
43,053330
42,990810
42,794600
41,989530
41,960060
41,425210
41,123370
0,043793
0,030295
0,025274
0,011976
0,010019
0,007887
0,007692
0,007331
0,007099
0,006838
0,005755
0,005705
0,005501
0,005467
0,005291
0,005179
0,005136
0,005033
0,004996
0,004975
0,004968
0,004945
0,004852
0,004849
0,004787
0,004752
654,916900
415,204500
247,251600
100,003400
108,330300
75,585260
73,431200
72,932870
66,518890
60,313890
55,973610
46,296380
53,256910
54,526840
40,846900
47,148350
48,804100
49,688230
51,504720
44,753160
45,556920
48,225390
46,617880
52,324550
46,891160
44,206610
15,230280
7,680345
2,468068
1,759333
2,265972
1,179925
1,167391
1,213102
1,197685
1,132850
1,272661
1,114983
1,121910
1,268986
1,099048
1,120321
1,247842
1,156811
1,131756
1,288292
1,125944
1,181568
1,124467
1,298883
1,207868
1,125665
Índice de tablas —— 181
Tabla 14.5
Tetrapéptido
EDDE
KEKE
DEED
EEDD
EKKE
KKKE
KEEK
KKMK
QEEE
EEEM
EEMM
MEEE
EEME
KDKK
EEMK
DKKK
EEEQ
EEEN
EEKQ
EKEF
DEEK
EMKE
AEEE
KKKQ
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
41,085990
39,699350
39,215870
37,253180
35,577750
35,109510
34,052460
32,461040
30,471160
29,302460
29,163880
27,815860
27,648790
27,128240
26,746900
26,606280
26,219980
25,419280
24,350570
24,267870
24,075680
24,021750
23,890260
23,359520
0,004748
0,004588
0,004532
0,004305
0,004111
0,004057
0,003935
0,001876
0,003521
0,001693
0,000843
0,001607
0,001598
0,003135
0,001545
0,003075
0,003030
0,002937
0,002814
0,002804
0,002782
0,001388
0,005521
0,002699
43,692200
49,479250
46,360680
41,280940
35,333130
35,622490
35,429580
22,087230
33,227290
32,085960
29,835440
28,356530
29,031680
26,298910
27,809970
23,726890
30,783880
24,868230
21,090570
16,669910
23,614370
24,723550
22,561450
21,154870
1,149260
1,316510
1,169031
1,104991
1,193916
1,113008
1,111447
1,028443
1,050839
1,032058
1,026549
1,009153
1,019187
1,191551
1,024881
1,049787
1,071628
1,045977
1,022603
1,008755
1,045552
1,013175
1,065275
1,027322
Tabla 14.5: Proteı́nas naturales de UniProt. Número de proteı́nas:
136293. Número de aminoácidos: 54241427. Secuencia mı́nima: 30 residuos. Secuencia máxima: 13100 residuos. Secuencia media: 398 residuos. Tipo de análisis: Cada proteı́na. Eukaryota. Número de especies: 6508.
Tabla 14.6
Tetrapéptido
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
EEEE
WWNF
304,917300
246,713600
0,035236
0,007127
321,243500
221,806300
2,742616
1,000000
182 —— Resultados numéricos: Tetrapéptidos
Tabla 14.6
Tetrapéptido
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
QQQQ
KKKK
EEED
DEEE
EDEE
EEDE
EEEK
EDED
MMFR
KEEE
SWWN
SMMF
DDDD
EKEE
KKEE
EEKE
DEDE
EKEK
EEME
EEKK
EEEM
AWWN
DEED
KKKE
KEKK
EKKK
KEKE
MEEE
EDDD
EEMK
QEEE
EEDD
KEEK
EQEE
MEEM
KKEK
EEEA
EDDE
DDEE
DEDD
134,213500
84,052150
83,192120
73,473130
71,990020
70,356250
61,954990
53,912720
53,761910
52,790980
50,473160
50,058850
48,547600
48,515340
41,391320
40,971430
40,940530
40,887260
40,627570
39,165340
38,878830
38,491090
37,501590
37,036580
36,642310
36,195170
36,155670
35,789440
35,661550
35,546230
34,559620
34,359460
32,699340
31,806300
30,661770
30,189100
30,130790
29,363230
29,180570
29,144170
0,015509
0,009713
0,009614
0,008490
0,008319
0,008130
0,007159
0,006230
0,004659
0,006100
0,004374
0,004339
0,005610
0,005606
0,004783
0,004735
0,004731
0,004725
0,002347
0,004526
0,002246
0,002224
0,004334
0,004280
0,004234
0,004183
0,004178
0,002068
0,004121
0,002054
0,003994
0,003971
0,003779
0,003675
0,000886
0,003489
0,006964
0,003393
0,003372
0,003368
154,345200
86,686330
84,709450
75,220410
77,147870
68,795540
66,077320
54,907930
49,422080
57,428460
44,611660
46,259060
51,201270
52,387410
38,400960
46,308490
45,517740
48,235950
38,450380
42,502990
42,107610
35,583900
37,807890
34,249500
39,389400
37,511360
41,860500
35,188520
35,831010
34,101230
38,845760
34,990830
37,659630
38,648060
25,897170
35,188520
30,295730
29,455560
32,173780
31,383020
5,061588
1,791624
1,210452
1,180760
1,233992
1,248430
1,140785
1,265376
1,000000
1,094162
1,000000
1,000000
2,043392
1,109948
1,071724
1,118138
1,241240
1,180169
1,023684
1,091371
1,033981
1,000000
1,150376
1,084507
1,081411
1,046897
1,143050
1,005650
1,105183
1,023739
1,052209
1,104524
1,107558
1,352941
1,056452
1,107309
1,073555
1,105751
1,099662
1,144144
Índice de tablas —— 183
Tabla 14.6
Tetrapéptido
EKKE
DDED
EEEQ
EKMK
EMEE
DDDE
AEEE
EEEN
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
27,946130
27,935160
27,844340
27,657400
26,344260
26,127460
26,088850
26,086360
0,003229
0,003228
0,003218
0,001598
0,001522
0,003019
0,006030
0,003014
27,182140
27,280990
33,458750
23,821450
32,618580
25,501790
26,910320
25,798330
1,055662
1,154812
1,113487
1,008368
1,018519
1,121739
1,086826
1,025540
Tabla 14.6: Proteı́nas naturales de UniProt. Número de proteı́nas:
43163. Número de aminoácidos: 17639176. Secuencia mı́nima: 30 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 409,7 residuos. Tipo de análisis: Cada proteı́na. Mammalia. Número de especies: 1698.
Tabla 14.7
Tetrapéptido
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
EEEE
QQQQ
MYFF
EKPY
KKKK
EEED
PMYF
EDEE
DEEE
EEDE
EEEK
EQEE
GEKP
TGEK
EDED
KEEE
EKEE
EEKE
342,802800
229,014200
146,035400
97,154180
88,685210
87,512120
83,862900
81,391410
78,735760
73,977540
61,984830
61,396140
58,524450
57,319090
55,945420
52,435020
48,919960
45,166960
0,039614
0,026464
0,008438
0,022454
0,010248
0,010113
0,009691
0,009405
0,009099
0,008549
0,007163
0,007095
0,027052
0,026495
0,006465
0,006059
0,005653
0,005219
345,909100
134,690300
119,384600
139,894200
82,038640
88,773160
68,263490
77,753030
75,916350
68,569600
67,039030
87,854800
81,273350
79,360130
55,712800
55,406680
52,039430
50,508860
2,658823
4,036697
1,059783
5,345029
1,740260
1,203320
1,000000
1,198113
1,153488
1,230769
1,123077
2,432203
5,009434
4,650224
1,246575
1,110429
1,111111
1,100000
184 —— Resultados numéricos: Tetrapéptidos
Tabla 14.7
Tetrapéptido
EEME
EEMK
DEDE
MEEM
EEEM
EEDD
QEEK
DEED
QEEE
KEEK
KEKK
MEEE
EEKK
KKKE
KKEE
KKEK
EDDD
MKEE
EKEK
EEEA
EEEG
QQQC
EEMM
EDDE
DDED
MKEK
EEKM
KKMK
EEQE
AEEE
EEEN
EEEQ
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
44,960410
43,753000
43,226530
43,095170
42,979710
41,451100
41,273970
40,486670
39,616680
38,203470
36,551030
34,923650
34,114940
33,910320
33,828630
33,129570
32,922410
32,346050
31,927320
31,817980
31,285450
30,746380
30,561920
30,310030
30,156150
30,029400
29,690070
29,620780
28,648630
27,878830
27,719880
27,564990
0,002598
0,002528
0,004995
0,001245
0,002483
0,004790
0,004770
0,004679
0,004578
0,004415
0,004224
0,002018
0,003942
0,003919
0,003909
0,003828
0,003804
0,001869
0,003689
0,007354
0,007231
0,003553
0,000883
0,003503
0,003485
0,001735
0,001715
0,001711
0,003311
0,006443
0,003203
0,003185
37,345940
48,978290
47,753830
23,264690
47,141600
39,794860
56,937260
39,488740
41,019310
46,529370
35,509250
28,162520
39,488740
29,386970
33,672570
35,509260
31,223660
18,366860
42,549890
32,907290
29,233910
8,571200
36,733720
31,223660
30,917540
31,223660
50,202740
19,591310
35,815370
28,774750
28,774740
31,529770
1,016667
1,066667
1,181818
1,055556
1,013158
1,092437
2,513514
1,075000
1,055118
1,151515
1,074074
1,022222
1,066116
1,054945
1,100000
1,137255
1,051546
1,000000
1,188034
1,064356
1,136905
1,000000
1,666667
1,073684
1,086022
1,020000
2,928571
1,000000
1,114286
1,093023
1,056180
1,061856
Tabla 14.7: Proteı́nas naturales de UniProt. Número de proteı́nas:
7385. Número de aminoácidos: 2849090. Secuencia mı́nima: 31 residuos.
Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Cada proteı́na. Homo sapiens. Número de especies:
1.
15.-Resultados numéricos: Proteoma humano
Introducción
165 Este capı́tulo presenta algunas tablas con los datos numéricos
encontrados en el análisis de la frecuencia y de la redundancia de
aminoácidos, dipéptidos, tripéptidos y tetrapéptidos en las proteı́nas
de Homo sapiens Los datos se exponen en forma de tablas con filas
ordenadas por el valor decreciente de la primera columna numérica.
Índice de tablas
Aminoácidos. Naturales. Cada. Homo sapiens
Aminoácidos. Naturales. Una. Homo sapiens
Dipéptidos. Naturales. Cada. Homo sapiens.
Dipéptidos. Naturales. Una. Homo sapiens.
Tripéptidos. Naturales. Cada. Homo sapiens.
Tripéptidos. Naturales. Una. Homo sapiens.
Tetrapéptidos. Naturales. Cada. Homo sapiens.
186
187
188
190
191
193
194
Tabla 15.1
Aminoácido
Ácido glutámico
Lisina
Metionina
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
1,913201
1,679810
1,441490
6,272790
5,507574
2,363098
2,005143
1,657942
1,332880
25,581260
21,209670
8,459574
185
186 —— Resultados numéricos: Proteoma humano
Tabla 15.1
Aminoácido
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
Glutamina
Ácido aspártico
Fenilalanina
Alanina
Glicina
Leucina
Asparagina
Prolina
Valina
Cisteı́na
Isoleucina
Tirosina
Trptófano
Serina
Treonina
Histidina
Arginina
1,358908
1,287512
1,201866
1,123918
1,052552
1,035577
1,006603
0,961937
0,916895
0,885732
0,882164
0,872867
0,852166
0,808753
0,792402
0,787095
0,602555
4,455435
4,221349
3,940544
7,369956
6,901978
10,186010
3,300339
6,307781
6,012427
2,904038
4,338513
2,861860
1,396994
7,954945
5,196076
2,580638
5,926768
1,392336
1,355339
1,185052
1,105636
1,043642
1,029135
1,056590
0,957294
0,914088
0,802385
0,885660
0,858480
0,816591
0,817757
0,808615
0,824191
0,586672
17,753480
17,434040
15,304710
28,115010
26,502510
39,308030
13,702490
24,339550
23,253680
10,627110
17,128780
11,286840
5,757850
31,069280
20,578940
10,906640
22,398910
Total
Media 1,073200
D. tı́pica
21,464000
4,999956
0,325395
99,999110
1,071771
2,182170
21,435430
19,535920
0,337882
390,718400
8,370809
Tabla 15.1: Proteı́nas naturales de UniProt. Homo sapiens. Número de proteı́nas: 7385. Número de aminoácidos: 2849090. Secuencia
mı́nima: 31 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Cada proteı́na.
Tabla 15.2
Aminoácido
Ácido glutámico
Lisina
Glutamina
Ácido aspártico
Metionina
Fenilalanina
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
2,005143
1,657942
1,392336
1,355339
1,332880
1,185052
6,574240
5,435876
4,565037
4,443735
2,185049
3,885416
2,022393
1,676785
1,403547
1,378293
1,337587
1,209954
25,581260
21,209670
17,753480
17,434040
8,459574
15,304710
Índice de tablas —— 187
Tabla 15.2
Aminoácido
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
Alanina
Asparagina
Glicina
Leucina
Prolina
Valina
Isoleucina
Tirosina
Histidina
Serina
Trptófano
Treonina
Cisteı́na
Arginina
1,105636
1,056590
1,043642
1,029135
0,957294
0,914088
0,885660
0,858480
0,824191
0,817757
0,816591
0,808615
0,802385
0,586672
7,250069
3,464229
6,843554
10,122640
6,277338
5,994020
4,355707
2,814688
2,702266
8,043516
1,338673
5,302395
2,630770
5,770545
1,111353
1,083285
1,047612
1,035869
0,962113
0,919190
0,902776
0,892310
0,862253
0,818757
0,910404
0,813461
0,840154
0,590270
28,115010
13,702490
26,502510
39,308030
24,339550
23,253680
17,128780
11,286840
10,906640
31,069280
5,757850
20,578940
10,627110
22,398910
Total
Media
D. tı́pica
21,435430
1,071771
0,337882
99,999760
4,999988
2,193906
21,818370
1,090918
0,335762
390,718400
19,535920
8,370809
Tabla 15.2: Proteı́nas naturales de UniProt. Homo sapiens. Número de proteı́nas: 7385. Número de aminoácidos: 2849090. Secuencia
mı́nima: 31 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Una proteı́na.
Tabla 15.3
Dipéptido
EE
KK
EK
KE
ED
QE
ME
MK
DE
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
6,395520
4,392437
4,299105
3,984385
3,599617
3,283466
3,120030
2,813267
2,678169
0,687506
0,472178
0,462145
0,428313
0,386952
0,352966
0,167699
0,151210
0,287898
6,692800
4,074931
4,596410
4,094245
3,711239
3,479798
3,026736
2,592662
2,778600
4,124470
2,862926
3,173107
2,703047
2,534541
2,530350
1,582677
1,547480
2,233684
188 —— Resultados numéricos: Proteoma humano
Tabla 15.3
Dipéptido
QQ
KM
QK
EM
EQ
KD
EN
MA
EA
MD
KQ
.
.
.
RL
PI
WS
NR
WC
RR
CR
RY
RW
HR
RH
RV
RI
YR
IR
VR
SR
RC
RS
RT
TR
Total
Media
D. tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
2,645632
2,597998
2,555544
2,516010
2,486757
2,475294
2,390217
2,303952
2,289959
2,214284
2,122454
.
.
.
0,573512
0,550925
0,549447
0,547607
0,545043
0,539368
0,535136
0,530802
0,530524
0,521715
0,513771
0,507379
0,506426
0,499187
0,467245
0,460736
0,458861
0,454268
0,430367
0,425201
0,398503
0,284400
0,139640
0,274716
0,135233
0,267321
0,266089
0,256944
0,247670
0,492332
0,119016
0,228160
.
.
.
0,554862
0,177670
0,088597
0,176600
0,029296
0,521829
0,172578
0,171181
0,085545
0,168250
0,165688
0,327254
0,244979
0,160985
0,226026
0,297169
0,443940
0,146499
0,416372
0,274250
0,257029
2,540612
2,449935
2,515078
2,584805
2,756013
2,506240
2,619178
1,994582
2,346654
2,133054
2,118650
.
.
.
0,564108
0,568181
0,578548
0,554105
0,493653
0,489361
0,473466
0,512313
0,505220
0,521806
0,539265
0,498509
0,496563
0,491689
0,464628
0,457044
0,461063
0,431783
0,421562
0,426327
0,384862
2,366880
1,489057
2,005481
1,576677
2,289638
1,987023
2,168293
1,589617
2,877760
1,421466
1,937725
.
.
.
2,879502
1,724743
1,476880
1,673698
1,165379
2,766605
1,603474
1,570759
1,319840
1,703598
1,705314
2,076591
1,875275
1,606417
1,805768
2,048166
2,575376
1,607230
2,424179
1,966776
1,858272
460,735900
1,151840
0,601109
99,998860
0,249997
0,167621
460,868400
1,152171
0,616820
783,527700
1,958819
0,598517
Índice de tablas —— 189
Tabla 15.3
Dipéptido
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
Tabla 15.3: Proteı́nas naturales de UniProt. Homo sapiens. Número de proteı́nas: 7385. Número de aminoácidos: 2849090. Secuencia
mı́nima: 31 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Cada proteı́na.
Tabla 15.4
Dipéptido
EE
EK
KE
KK
ED
QE
ME
DE
EQ
EN
MK
EM
QQ
QK
KD
KM
EA
MD
DD
AE
.
.
.
NR
RP
RH
WR
HR
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
6,692800
4,596410
4,094245
4,074931
3,711239
3,479798
3,026736
2,778600
2,756013
2,619178
2,592662
2,584805
2,540612
2,515079
2,506240
2,449934
2,346654
2,133054
2,131417
2,122251
.
.
.
0,554105
0,548376
0,539265
0,528571
0,521806
0,719463
0,494105
0,440123
0,438047
0,398951
0,374071
0,162684
0,298694
0,296266
0,281556
0,139353
0,138931
0,273111
0,270366
0,269416
0,131682
0,504521
0,114650
0,229123
0,456275
.
.
.
0,178696
0,353696
0,173910
0,085231
0,168279
9,971004
7,671062
6,534681
6,921190
6,127312
6,117181
7,652319
5,399985
5,535254
5,241899
7,482137
7,623310
5,721989
4,848299
4,803675
7,199661
3,478526
6,872855
5,102268
3,222868
.
.
.
1,348739
0,935713
1,374216
2,137736
1,372833
4,124470
3,173107
2,703047
2,862926
2,534541
2,530350
1,582677
2,233684
2,289638
2,168293
1,547480
1,576677
2,366880
2,005481
1,987023
1,489057
2,877760
1,421466
2,110535
2,666255
.
.
.
1,673698
2,322320
1,705314
1,326396
1,703598
190 —— Resultados numéricos: Proteoma humano
Tabla 15.4
Dipéptido
RY
RW
RV
RI
WC
YR
RR
CR
IR
SR
VR
RC
RT
RS
TR
Total
Media
D. tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
0,512313
0,505220
0,498509
0,496563
0,493653
0,491689
0,489361
0,473466
0,464628
0,461063
0,457044
0,431783
0,426327
0,421562
0,384862
0,165218
0,081465
0,321532
0,240208
0,026533
0,158567
0,473448
0,152690
0,224759
0,446070
0,294788
0,139247
0,274976
0,407854
0,248231
1,265786
2,127169
0,836704
1,007451
5,634661
1,294521
0,743150
1,292149
0,970110
0,691783
0,825251
1,295176
0,792457
0,651169
0,748738
1,570759
1,319840
2,076591
1,875275
1,165379
1,606417
2,766605
1,603474
1,805768
2,575376
2,048166
1,607230
1,966776
2,424179
1,858272
460,868400
1,152171
0,616820
99,999580
0,249999
0,166776
1192,531000
2,981327
1,799842
783,527700
1,958819
0,598517
Tabla 15.4: Proteı́nas naturales de UniProt. Homo sapiens. Número de proteı́nas: 7385. Número de aminoácidos: 2849090. Secuencia
mı́nima: 31 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Una proteı́na.
Tabla 15.5
Tripéptido
EEE
KKK
QQQ
EEK
EED
EDE
KEE
DEE
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
33,156740
14,822770
13,956780
13,183690
12,786660
12,744740
11,875500
11,526520
0,116862
0,052243
0,049191
0,046466
0,045067
0,044919
0,041855
0,040625
34,145420
13,754270
10,500890
14,595140
13,123610
11,592020
12,482950
11,321740
2,362188
1,673569
2,280435
1,468278
1,378549
1,327982
1,286894
1,283768
Índice de tablas —— 191
Tabla 15.5
Tripéptido
QEE
KEK
EKE
EEM
MEE
KKE
EKK
EEQ
EQE
GEK
DED
MYF
.
.
.
RTY
IRP
RTS
RSI
TRY
CMW
TRS
PIR
RTR
IWC
VWC
PCR
WPI
RCT
STR
RTN
WTR
RHA
TRR
TRC
TTR
WWH
Total
Average
S.D.
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
10,924640
10,862820
10,344140
9,714064
9,454300
9,347754
9,144328
8,768473
8,538439
8,048815
8,019942
8,005039
.
.
.
0,306845
0,304607
0,300064
0,299173
0,297301
0,296922
0,293728
0,292576
0,289280
0,288338
0,287490
0,283747
0,276992
0,276114
0,274149
0,269797
0,268172
0,267255
0,265292
0,259688
0,246799
0,242440
0,038504
0,038286
0,036458
0,017119
0,016661
0,032946
0,032229
0,030905
0,030094
0,056736
0,028266
0,014107
.
.
.
0,006489
0,009662
0,019036
0,014235
0,006287
0,000262
0,018635
0,009281
0,018352
0,000762
0,001013
0,006000
0,001464
0,005839
0,017392
0,005705
0,002836
0,005652
0,016830
0,005492
0,010438
0,000214
12,583050
11,511940
11,712150
10,110490
9,269614
9,299645
8,929261
9,539895
10,510900
9,800165
8,438753
6,586832
.
.
.
0,288633
0,280291
0,306985
0,300311
0,280291
0,520540
0,285296
0,276954
0,276398
0,293638
0,360374
0,306985
0,273617
0,288633
0,276398
0,306985
0,286964
0,296975
0,249703
0,250260
0,269446
0,200208
1,529197
1,370679
1,366822
1,163594
1,110312
1,284924
1,220246
1,215561
1,583710
2,438356
1,302937
1,085809
.
.
.
1,042169
1,041322
1,112903
1,074271
1,024390
1,000000
1,117647
1,064103
1,147806
1,000000
1,058824
1,115152
1,000000
1,081250
1,089912
1,057471
1,075000
1,078788
1,095122
1,034483
1,129371
1,000000
9957,922000
1,244740
0,997294
99,998480
0,012500
0,011621
9976,780000
1,247097
1,015551
8738,302000
1,092288
0,133134
192 —— Resultados numéricos: Proteoma humano
Tabla 15.5
Tripéptido
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
Tabla 15.5: Proteı́nas naturales de UniProt. Homo sapiens. Número de proteı́nas: 7385. Número de aminoácidos: 2849090. Secuencia
mı́nima: 31 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Cada proteı́na.
Tabla 15.6
Tripéptido
EEE
EEK
KKK
EED
QEE
KEE
EKE
EDE
KEK
DEE
EQE
QQQ
EEM
GEK
EEQ
KKE
MEE
EKK
CGK
EKP
.
.
.
TWC
RCT
RTY
WTR
TRS
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
34,145420
14,595140
13,754270
13,123610
12,583050
12,482950
11,712150
11,592020
11,511940
11,321740
10,510900
10,500890
10,110490
9,800164
9,539895
9,299645
9,269614
8,929261
8,583903
8,563882
.
.
.
0,290301
0,288633
0,288633
0,286964
0,285296
0,120346
0,051441
0,048477
0,046254
0,044349
0,043996
0,041280
0,040856
0,040574
0,039904
0,037046
0,037011
0,017817
0,069082
0,033624
0,032777
0,016335
0,031471
0,060508
0,060367
.
.
.
0,001023
0,006104
0,006104
0,003034
0,018100
174,628600
108,544800
123,721300
101,911500
113,048400
95,135710
101,044600
98,173210
101,329700
94,904670
117,078400
168,584900
172,041200
90,129720
89,862340
94,990090
164,163200
90,208690
160,893600
93,006220
.
.
.
73,926630
13,322210
12,840690
26,490420
4,590214
2,362188
1,468278
1,673569
1,378549
1,529197
1,286894
1,366822
1,327982
1,370679
1,283768
1,583710
2,280435
1,163594
2,438356
1,215561
1,284924
1,110312
1,220246
4,352792
2,516176
.
.
.
1,000000
1,081250
1,042169
1,075000
1,117647
Índice de tablas —— 193
Tabla 15.6
Tripéptido
YPR
IRC
IRP
TRY
TRW
RPI
PIR
RTR
STR
RYR
WPI
TTR
CTR
IWP
TRC
TRR
WWH
Total
Media
D. tı́pica
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
0,285296
0,284740
0,280291
0,280291
0,280291
0,279178
0,276954
0,276398
0,276398
0,275842
0,273617
0,269446
0,268612
0,260270
0,250260
0,249703
0,200208
0,006033
0,004516
0,008891
0,005927
0,002964
0,008856
0,008785
0,017535
0,017535
0,008750
0,001447
0,011396
0,005680
0,001376
0,005292
0,015842
0,000176
12,541140
17,236070
8,553492
12,621640
24,939140
8,773322
8,740609
4,714078
4,476306
8,487868
49,284490
6,957557
12,635040
49,284490
12,745990
4,497703
295,706500
1,017857
1,049180
1,041322
1,024390
1,012048
1,068085
1,064103
1,147806
1,089912
1,033333
1,000000
1,129371
1,025478
1,000000
1,034483
1,095122
1,000000
9976,780000
1,247097
1,015551
99,999670
0,012500
0,011491
397471,000000
49,683880
51,893220
8738,302000
1,092288
0,133134
Tabla 15.6: Proteı́nas naturales de UniProt. Homo sapiens. Número de proteı́nas: 7385. Número de aminoácidos: 2849090. Secuencia
mı́nima: 31 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Una proteı́na.
Tabla 15.7
Tetrapéptido
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
EEEE
QQQQ
MYFF
EKPY
KKKK
EEED
342,802800
229,014200
146,035400
97,154180
88,685210
87,512120
0,039614
0,026464
0,008438
0,022454
0,010248
0,010113
345,909100
134,690300
119,384600
139,894200
82,038640
88,773160
2,658823
4,036697
1,059783
5,345029
1,740260
1,203320
194 —— Resultados numéricos: Proteoma humano
Tabla 15.7
Tetrapéptido
PMYF
EDEE
DEEE
EEDE
EEEK
EQEE
GEKP
TGEK
EDED
KEEE
EKEE
EEKE
EEME
EEMK
DEDE
MEEM
EEEM
EEDD
QEEK
DEED
QEEE
KEEK
KEKK
MEEE
EEKK
KKKE
KKEE
KKEK
EDDD
MKEE
EKEK
EEEA
EEEG
QQQC
.
.
.
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
83,862900
81,391410
78,735760
73,977540
61,984830
61,396140
58,524450
57,319090
55,945420
52,435020
48,919960
45,166960
44,960410
43,753000
43,226530
43,095170
42,979710
41,451100
41,273970
40,486670
39,616680
38,203470
36,551030
34,923650
34,114940
33,910320
33,828630
33,129570
32,922410
32,346050
31,927320
31,817980
31,285450
30,746380
.
.
.
0,009691
0,009405
0,009099
0,008549
0,007163
0,007095
0,027052
0,026495
0,006465
0,006059
0,005653
0,005219
0,002598
0,002528
0,004995
0,001245
0,002483
0,004790
0,004770
0,004679
0,004578
0,004415
0,004224
0,002018
0,003942
0,003919
0,003909
0,003828
0,003804
0,001869
0,003689
0,007354
0,007231
0,003553
.
.
.
68,263490
77,753030
75,916350
68,569600
67,039030
87,854800
81,273350
79,360130
55,712800
55,406680
52,039430
50,508860
37,345940
48,978290
47,753830
23,264690
47,141600
39,794860
56,937260
39,488740
41,019310
46,529370
35,509250
28,162520
39,488740
29,386970
33,672570
35,509260
31,223660
18,366860
42,549890
32,907290
29,233910
8,571200
.
.
.
1,000000
1,198113
1,153488
1,230769
1,123077
2,432203
5,009434
4,650224
1,246575
1,110429
1,111111
1,100000
1,016667
1,066667
1,181818
1,055556
1,013158
1,092437
2,513514
1,075000
1,055118
1,151515
1,074074
1,022222
1,066116
1,054945
1,100000
1,137255
1,051546
1,000000
1,188034
1,064356
1,136905
1,000000
.
.
.
Índice de tablas —— 195
Tabla 15.7
Tetrapéptido
Frecuencia
relativa
Frecuencia
Redundancia
relativa
Redundancia
Tabla 15.7: Proteı́nas naturales de UniProt. Homo sapiens. Número de proteı́nas: 7385. Número de aminoácidos: 2849090. Secuencia
mı́nima: 31 residuos. Secuencia máxima: 5596 residuos. Secuencia media: 385,8 residuos. Tipo de análisis: Cada proteı́na.
196 —— Resultados numéricos: Proteoma humano
Bibliografı́a
[1] Nessa Carey, Junk dna. a journey through the dark matter of the genome, Icon Books
Ltd, 2015.
[2] R. F. Fox, Energy and the Evolution of Life, W. H. Freeman, New York, 1988.
[3] S. W. Fox and K. Dose, Molecular Evolution and the Origin of Life, W. H. Freeman,
San Francisco, 1972.
[4] Ezkurdia I., Juan D., Rodriguez J.M., Frankish A., Diekhans M., Harrow J., Vazquez
J., Valencia A., and Tress M.L., Multiple evidence strands suggest that there may be
as few as 19,000 human protein-coding genes, Human Molecular Genetics
doi:10.1093/hmg/ddu309 (2014), 1–45.
[5] Gert Lubec, Leila Afjehi-Sadat, Jae-Won Yang, and Julius Paul Pradeep John,
Searching for hypothetical proteins: Theory and practice based upon original data and
literature, Progress in Neurobiology 77 (2005), 90–127.
[6] H. Maturana and F. Varela, El árbol del conocimiento. Las bases biológicas del
conocimiento humano, Debate, Madrid, 1999.
[7] B. McClintock, The origin and behavior of mutable loci in maize, Proceedings of the
National Academy of Sciences of the United States of America 36 (6) (1950), 344–355.
[8]
, Induction of instability at selected loci in maize, Genetics 38(6) (1953),
579–599.
197
198 ——- Referencias bibliográficas
Índice alfabético
Aminoácidos codificados genéticamente, 12
Código genético ideal en diferentes grupos
de organismos, 31
Aminoácidos con baja frecuencia relativa,
Código genético ideal y frecuencia relativa,
26
30
Aminoácidos con elevada frecuencia
Código genético optimizado, 28
relativa, 26
Campos de UniProt, 3
Aminoácidos en dipéptidos de alta
Cierre semántico, 17
frecuencia, 41
Codificación de los aminoácidos, 13
Aminoácidos en dipéptidos de baja
Codones por aminoácido, 24
frecuencia, 41
Composición de UniProt, 3
Aminoácidos en los dipétidos de mayor
frecuencia relativa, 41
Archaea, 4
Aminoácidos más abundantes en los EB del
Bacteria, 5
Eukaryota, 5
proteoma humano, 78
Aminoácidos proteinogénicos, 12
Homo sapiens, 6
Aminoácidos: carbono α, 26
MAmmalia, 5
Aminoácidos: distribución de cadenas
Todos los organismos, 4
Virus, 4
laterales, 28
Apolipoprotein(a), 69
Base de datos psd7003, 2
Confianza estadı́stica, 19
Desviación tı́pica de las frecuencias de
aminoácidos en el proteoma
Base de datos RandomUniProt, 6
Base de datos UniProt, 3
Base de datos uniprot sprot.xml, 1
Bases de datos en Internet, 1
humano, 72
Desviación tı́pica en la frecuencias de
dipéptidos, 43
Desviación tı́pica en la frecuencias de
tripéptidos, 46
C, 87
Desviaciones de las frecuencias relativas en
Código genético, 13
Código genético ideal, 29, 75
dipéptidos, 38
Dogma Central de la Biologı́a Molecular,
11, 85
Código genético ideal comparado, 76
199
200 ——- Índice alfabético
Eje peptı́dico, 27
Genes, 17
Ejemplo de programación: búsqueda de
Genes operadores, 85
cadenas, 23
Genes reguladores, 85
Elementos básicos EB, 16
Genoma humano, 87
Especies catalogadas, 8
Grupo amino, 27
Estructura primaria de las proteı́nas, 12
Grupo carboxilo, 27
Expresión gradual de los genes, 89
Idoneidad biológica de UniProt, 7
Factor F, 60
Idoneidad de UniProt, 7
Frecuenca de tetrapéptidos en el proteoma
Idoneidad del código genético, 22
humano, 80
Frecuencia de decapéptidos de un solo
aminoácido, 66
Frecuencia de dipéotidos y tripéptidos:
precisión, 37
Frecuencia de los aminoácidos en el
proteoma humano, 73
Frecuencia de pentadecapéptidos de un solo
aminoácido, 67
Frecuencia de pentapéptidos de un solo
aminoácido, 66
Frecuencia relativa, 18
Frecuencia relativa de EB en el proteoma
humano, 77
Frecuencia relativa de un aminoácido, 24
jADN y complejidad de los organismos, 87
Junk-ADN, 72
Junk-DNA, 86
Limitaciones de la Teorı́a del Aislamiento,
88
Método ’cada proteı́na’, 22
Método ’una proteı́na’, 23
Métodos de estudio de micropéptidos, 58
Métodos de estudio de tetrapéptidos, 50
Micropéptidos de un solo aminoácido, 65
Mucin-2, 69
Mutaciones, 15
Frecuencia relativa de un EB, 24
Objetivos de la investigación, 15
Frecuencia relativa y redundancia de
Orden Primates, 71
tetrapéptidos, 53
Origen de los mamı́feros, 71
Frecuencias relativas de aminoácidos, 25
Frecuencias relativas de aminoácidos en
proteı́nas aleatorias, 25
Frecuencias relativas de aminoácidos en
proteı́nas naturales, 25
Frecuencias relativas de dipéptidos, 38
Frecuencias relativas de tripéptidos:
diferencias entre organismos, 46
Fugu rubripes, 87
Funcionalidad del jADN, 88
Funciones del jADN, 88
Péptidos y cadenas peptı́dicas, 12
Polyubiquitin-C, 68
Precisión de los cálculos, 7
Precisión en las frecuencias relativas de
aminoácidos, 25
Precisión en las frecuencias relativas de
dipéptidos, 41, 43
Precisión en las frecuencias relativas de
tripéptidos, 43
Presión selectiva, 28
Índice alfabético ——- 201
Procesos de copiar y pegar, 86
S-antigen protein, 69
Proporcionalidad genoma-complejidad del
Sı́mbolos de los aminoácidos, 13
organismo, 86
Proteı́nas, 12
Saltación y transposición, 15
Señales epigenéticas, 86
Proteı́nas altamente redundantes, 68
Proteı́nas hipotéticas, 2, 17
Tamaño de las proteı́nas, 12
Proteı́nas histónicas, 86
Teorı́a del Aislamiento, 88
Proteı́nas humanas de UniProt, 72
Proteı́nas putativas, 2
Proteinoides, 12
Proyecto ENCODE, 88
Redundacia interna de micropéptidos en el
proteoma humano, 82
Redundancia, 1
Redundancia en el proteoma humano, 71
Redundancia externa, 14
Redundancia externa de micropéptidos, 57
Redundancia interna, 14
Redundancia interna de micropéptidos, 57,
61
Redundancia interna de tripéptidos, 47
Redundancia interna en micropéptidos:
caracterı́sticas., 62
Redundancia relativa, 18
Redundancia relativa en aminoácidos, 33
Redundancia relativa en dipéptidos, 39
Redundancia relativa en micropéptidos, 61
Redundancia relativa en proteı́nas
aleatorias, 34
Redundancia relativa en proteı́nas
naturales, 35
Reparto de codones, 13
Repeticiones directas, 58
Repeticiones inversas, 59
Representatividad biomolecular de
UniProt, 8
Residuos de aminoácidos, 12
Retrogenes, 86
Uncharacterized protein DDB G0271670, 70
Uncharacterized protein LF3, 69
Variaciones en las cadenas peptı́dicas, 28
Descargar