Bioinformática - Marco Regalia

Anuncio
Bioinformática
1
Bioinformática
INTRODUCCIÓN
La bioinformática se ha convertido en una ciencia que está entrando en auge en
Latinoamérica debido a que la tecnología ha tenido un gran desarrollo y ha
permitido unir la informática con otras ciencias como la biología y la genética.
La secuenciación de genomas lleva la necesidad de obtener conclusiones de la
lectura de esos millones de pares de bases, saber qué codifican, cómo se
relacionan y regulan la expresión de los distintos productos génicos, además de
encontrar la función de proteínas desconocidas y de generar modelos que
permitan estudiar mutaciones puntuales. La rapidez y eficacia de esas
conclusiones se ha generado gracias al desarrollo de la Bioinformática.
Este libro tiene por objetivo entregar una descripción básica de la recopilación de
información acerca de las temáticas tratadas en clase de Bioinformática, su
relación con la Informática Médica, sus principales herramientas, bases de datos y
funciones en la Medicina Molecular y Biotecnología.
2
Bioinformática
TABLA DE CONTENIDO
INTRODUCCIÓN ............................................................................................................... 2
CAPITULO I INTRODUCCIÓN A LA BIOINFORMATICA ................................................. 6
1. Qué es la Bioinformática ............................................................................................ 6
2. Bases de Química ...................................................................................................... 7
2. Bases de Biología ...................................................................................................... 8
3. Bases de Genética ................................................................................................... 10
3.1 Genética ............................................................................................................. 10
3.2 Dogma Central de la Biología Molecular ............................................................. 11
3.3 Ácido Desoxirribunocleico (ADN) ........................................................................ 11
3.4 Traducción y Transcripción Genética .................................................................. 13
3.5 Código Genético ................................................................................................. 14
3.6 Proteínas ............................................................................................................ 17
4. NCBI Entrez .......................................................................................................... 21
CAPITULO II SECUENCIAS DE ADN ............................................................................. 23
1. Formato FASTA ....................................................................................................... 23
2. Alineamiento de Secuencias .................................................................................... 24
3. BLAST...................................................................................................................... 27
3.1 ETAPAS ............................................................................................................. 28
3.2 FAMILIA BLAST ................................................................................................. 29
3.3 Variantes De BLAST ........................................................................................... 29
CAPITULO III GENES ..................................................................................................... 31
1. Código Genético...................................................................................................... 31
1.1 Características Del Código Genético .................................................................. 31
1.2 Splicing ............................................................................................................... 34
2. Open Reading Frames (ORF) .................................................................................. 35
3
Bioinformática
2.1 Marco Abierto de Lectura .................................................................................... 35
2.2 ORF Finder (Open Reading Frame Finder) - NCBI ............................................. 36
3. Modelos Estocásticos ............................................................................................... 39
3.1 Modelo Oculto de Markov ................................................................................... 39
4. GENSCAN ............................................................................................................... 42
CAPITULO IV ALINEAMIENTO DE SECUENCIAS Y PROTEÍNAS ............................... 45
1. Alineamiento de Secuencias ................................................................................... 45
1.1 Alineamiento múltiple de Secuencias .................................................................. 45
1.2 Árbol Filogenético ............................................................................................... 49
2. ClustalWJalview ....................................................................................................... 50
2.1 Clustal................................................................................................................. 50
2.2 Jalview ................................................................................................................ 53
3. Proteínas y Proteómica ............................................................................................ 55
3.1 Proteínas ............................................................................................................ 55
3.2 Proteóma ............................................................................................................ 56
3.3 Proteómica.......................................................................................................... 57
4. Análisis Comparativo de Proteínas ....................................................................... 59
5. PROSITE, PRINTS, Pfam, InterPro .......................................................................... 61
5.1 PROSITE ............................................................................................................ 61
5.2 PRINTS .............................................................................................................. 63
5.3 Pfam ................................................................................................................... 67
5.4 InterPro ............................................................................................................... 71
CAPITULO V BASES DE DATOS .................................................................................. 74
1. Introducción.............................................................................................................. 74
2. Tipos de Base de Datos ........................................................................................... 75
2.1 Modelo jerárquico. .............................................................................................. 75
2.2 Modelo en red. .................................................................................................... 76
2.3 Modelos Avanzados............................................................................................ 77
2.4 Modelo orientado a objetos. ................................................................................ 77
4
Bioinformática
2.5 Modelo declarativo. ............................................................................................. 79
3. Descomposición y Normalización ............................................................................. 80
3.1 Normalización ..................................................................................................... 80
4. Biología de Visualización de Datos........................................................................... 81
5. Base de Datos Biólogicas ......................................................................................... 82
CAPÍTULO VIESTRUCTURAS BIOLÓGICAS ................................................................ 84
1. Estructura ADN ........................................................................................................ 84
1.1 Estructura Primaria: ............................................................................................ 85
1.2 Estructura Secundaria: ....................................................................................... 85
1.3 Estructura Terciaria:............................................................................................ 86
2. Estructura ARN ........................................................................................................ 86
2.1 Estructura Primaria del ARN ............................................................................... 87
2.2 Estructura Secundaria del ARN .......................................................................... 87
2.3 Estructura Terciaria del ARN .............................................................................. 88
3. Estructura de Proteínas ............................................................................................ 88
4. Protein Data Bank .................................................................................................... 91
Crecimiento .............................................................................................................. 91
5. Folding de Proteínas ................................................................................................ 93
5.1 Proceso De Folding ............................................................................................ 94
6. Alineamiento de Estructuras ..................................................................................... 97
CONCLUSIONES .......................................................................................................... 100
BIBLIOGRAFÍA E INFOGRAFÍA ................................................................................... 101
5
Bioinformática
CAPITULO I INTRODUCCIÓN A LA BIOINFORMATICA
1. Qué es la Bioinformática
La Bioinformática es el uso de técnicas computacionales, matemáticas y
estadísticas para el análisis, interpretación y generación de datos biológicos.
La bioinformática es una ciencia muy joven, si miramos a través del tiempo
algunos descubrimientos fueron de la siguiente manera:
|->1958 Primera secuencia de proteína
|->1975 Primera secuencia de ADN
|->1986 Desarrollo PCR (Polímeros)
|-> Inicio de la era Genómica.
La bioinformática estudia la Minería de Datos de:
|->ADN (Ácido Desoxirribonucleico)
|->Proteínas
|-> Genómicas
-> Mutación /Polimorfismo
Figura 1. El alineamiento de
secuencias biológicas es una
de las herramientas básicas
de la bioinformática.
En la bioinformática lo que se hace es:
1. Almacenar datos de genes a través de minería de datos.
2. Observar que hacen los genes
Por ejemplo en la siguiente figura podemos ver lo que se puede lograr con la
bioinformática haciendo visible lo que es regular o irregular en el cuerpo del ser
humano u especie.
Se pude concluir que la bioinformática lo que busca es llegar a la medicina y
ayudar en la obtención de curas para enfermedades como el cáncer, las
enfermedades que se derivan de mutaciones, etc.
También podemos encontrar que la bioinformática abarca distintas áreas:
*Genómica: Ciencia que estudia el genoma.
*Transcriptómica: Transferencia genoma a proteína.
*Proteómica: Estudio de Proteínas.
*Metabolismo: Procesos físico - químicos como la respiración, etc.
*Genómica Comparativa: Compara genomas de varios individuos, especies.
*Genómica Funcional: Estudia la función del gen. Saber qué hace el gen.
*Análisis Filogenéticos: Trata acerca de los árboles basados en la genética de
las especies.
6
Bioinformática
La bioinformática en la biodiversidad permite llevar un control y descubrir más
variedad de animales, plantas, flores, etc.
2. Bases de Química
Química: Estudio de la materia. La materia está
hecha de átomos.
-Modelo atómico: Es la representación estructural
de un átomo, que trata de explicar su
comportamiento y sus propiedades.
-Modelo atómico de Rutherford, mostraba que el
átomo estaba compuesto por un núcleo de carga
positiva (protón) y alrededor carga negativa
(electrones).
-El número atómico es la cantidad de protones que
posee el átomo.
Figura 2. Modelos
Atómicos.
-El átomo: Es la unidad más pequeña de un elemento
químico, que mantiene sus propiedades y no es
posible dividir por procesos químicos.
-Un átomo cuando pierde un protón se llama ión .
|->Ión Positivo: Cuando se pierde un electrón.
|->Ión Negativo: Cuando se ganan electrones.
-Neutrón: Hace que el peso aumente.
Figura 3.El Átomo.
|->Isotopo: Tienen dos átomos, el mismo número de protones pero diferente
cantidad de neutrones.
|->Deuterio: dos neutrones.
|->Tripcio: tres neutrones.
-Molécula: Conjunto de átomos. Las moléculas se dibujan con ángulos porque con
ángulos disminuyo la energía potencial.
7
Bioinformática
-Enlace Químico: Fuerza de atracción por fuerza electromagnética. Ahí se
intercambian electrones.
-Bioquímica: Química relacionada con los seres vivos. Los seres vivos tienen
cuatro átomos:
1. Hidrógeno
2. Carbono
3. Nitrógeno
4. Oxígeno
-Compuesto Orgánico: Todas las moléculas que contienen carbono. Podemos
encontrar cuatro (4) clases de compuesto orgánico que son:
1. Carbohidratos o Glúcidos: Son los que dan energía a nuestro cuerpo.
2. Lípidos: Grasas, no son solubles en el agua. Sirven para reserva de energía.
3. Proteínas: Determinan nuestras características (piel, ojos, cabello, etc.).
4. Ácidos nucleicos: ADN, ARN, ATP. Son formados por los nucleótidos la timina,
guanina, adenina y citosina.
2. Bases de Biología
Biología: Ciencia que estudia los seres vivos.
|->Ser vivo: Es todo lo que es capaz de
reproducirse.
La biología tiene las siguientes características:
1. Universalidad: Las reacciones químicas básicas
son las mismas en todos los seres vivos.
2. Evolución: Todos los organismos se
evolucionaran de un único ancestro común.
3. Taxonomía: Todos los seres se dividen en una
categoría y subcategorías.Ejemplo:reinos.
Figura 4.Esquema de la
relación entre bioquímica,
genética, biología estructural y
biología molecular.
Encontramos tres (3) niveles:
|->Orgánico: Tejidos, agregaciones de célula. Estructura o compartimento subcelular, análoga a los órganos de seres vivos pluricelulares, que desempeña una
función concreta
8
Bioinformática
|->Biología Celular: Estudio sobre las células. Esto
incluye su anatomía, su fisiología, las interacciones
de ésta con el medio, su ciclo vital, y su división y
muerte.
|->Biología Molecular: Estudio de las moléculas. La
biología molecular concierne principalmente al
entendimiento de las interacciones de los diferentes
sistemas de la célula, lo que incluye muchísimas
relaciones, entre ellas las del ADN con el ARN, la
síntesis de proteínas, el metabolismo, y el cómo
todas esas interacciones son reguladas para
conseguir un correcto funcionamiento de la célula.
Célula:Unidad
Encontramos
funcional de todo ser vivo.
dos
categorías
de
células:
|->Procariotas: No tienen núcleo.
|->Eucariotas: Tienen núcleo.
Figura 5.Esta sencilla
representación muestra
parecidos y diferencias
generales entre las células
eucariotas y procariotas.
Entre las células eucariotas encontramos la vegetal
y animal, estas poseen diferencias que las podemos
observar en la Figura 3 donde ilustra las estructuras
que son comunes en las células animales y
vegetales, así como las estructuras que les son
únicas. Las estructuras que son comunes a plantas y animales, están en medio de
la imagen. Las estructuras propias de las plantas, a la izquierda y las animales a la
derecha.
Figura 6.Célula vegetal y animal con sus diferencias y similitudes.
9
Bioinformática
Las células hacen parte de dos clases de organismos: Pluricelulares y Mono
celulares por ejemplo la célula animal es pluricelular y las bacterias mono
celulares.
La célula tienen las siguientes funciones:
|->Nutrición.
|->Crecimiento.
|->Multiplicación.
|->Diferenciación.
|->Señalización.
|->Evolución.
3. Bases de Genética
3.1 Genética
La genética estudia
características.
los
genes
que
determinan
nuestras
Hay cuatro (4) tipos de genética:
1. Genética Clásica: trata de cromosomas y genes.
|->Cromosomas: Es como el ADN se empaqueta.
|->Genes: Secuencia larga (3Gb) en el genoma humano cada
gen codifica las proteínas que dan nuestras características
físicas. Los genes están dentro de los cromosomas.
En nuestro cuerpo hay 33.000 características.
2. Genética Cuantitativa: Estudia el impacto de los fenotipos.
3. Genética Evolutiva: Estudia como los genes se vuelven a través
del tiempo en determinada población.
Figura 7.Una
molécula de ADN:
las dos cadenas se
componen de
nucleótidos, cuya
secuencia es la
información
genética.
4. Genética Molecular: Estudia lo mismo que la genética clásica, cuantitativa y
evolutiva pero a nivel molecular.
La genética molecular tiene un dogma denominado DOGMA CENTRAL DE LA
BIOLOGÍA MOLECULAR.
10
Bioinformática
3.2 Dogma Central de la Biología Molecular
El Dogma Central de la Bilogía nos habla de cómo se pasa de genotipo a
fenotipo. El paso de genotipo a fenotipo se llama expresión genética lo podemos
ver en la Figura 7
Transcripción
Traducción
|Genotipo|----------> |ADN|-------------------->|ARN|--------------->|Proteínas|
|_________________________________ |
\/
Expresión Técnica
|Fenotipo|
Figura 8. Dogma Central (Paso de Genotipo a Fenotipo)
-Genotipo: Conjunto de toda nuestra información genética (Nuestro Disco Duro).
-Fenotipo: Conjunto de características Físicas.
|-La replicación consiste en la copia del ADN de una célula, antes de la división
celular, para que la célula hija tenga el mismo ADN que la madre.
|-La transcripción consiste en convertir la información contenida en el ADN en un
formato “legible” para la maquinaria celular de síntesis de proteínas, el ARN.
|-La traducción es el mecanismo por el que el mensaje que lleva el ARN se utiliza
para sintetizar proteínas.
Con estos tres mecanismos conseguimos extraer de la información genética
(ADN), los materiales (proteínas) necesarios tanto funcional como
estructuralmente para que una célula funcione.
La copia de trabajo es sobre un gen (de un archivo a la vez). El sistema es
universal.
3.3 Ácido Desoxirribonucleico (ADN)
Ácido Desoxirribonucleico (ADN): Contiene la información genética. Es una
molécula -> (conjunto de átomos con estructura tridimensional). Se puede afirmar
que el ADN es un poli nucleótido el cual es una cadena de moléculas pequeñas.
11
Bioinformática
- Nucleótido: Compuesto (Azúcar, base,
fosfato).
* Azúcar: cumple la función de estructura,
es como la columna vertebral (siempre
igual).
Figura 9.El ADN es una doble hélice de 2
cadenas de núcleo nucleótidos y cada uno
contiene: 1. Grupo fosfato 2. Pentosa (azúcar
de 5 carbonos) 3. Bases nitrogenadas ya sean
Adenina, Guanina, Citosina y Timina(*hay 4
tipos de nucleótidos ya que hay 4 tipos de
bases nitrogenadas, estas diferencian a cada
uno de los nucleótidos)
* Fosfato: Cumple la función de enlace
(se mantiene siempre igual).
* Base: Da estabilidad a la molécula. Esta
cambia encontramos cuatro tipos de
bases:
|- Adenina
|- Citosina
|- Timina
|- Guanina
Nuestro cuerpo trabaja en código (ATCG) base 4:
0
1
2
3
4 Símbolos
A
Sirve para
T
codificar en
C
dos bits
G
00
01
10
11
Nuestro ADN codifica nuestra información en cuatro (4) bits. El ADN codifica la
información en ATCG.
Genoma Humano: Se realizó en el 2001. Es una secuencia de caracteres.
Encontramos que el ADN cuando codifica tiene una
regla básica es ahí donde se habla de Bases
Complementarias estos son:
A<- ->T (Solo se enlaza A con T y viceversa)
G<- ->C (Solo se enlaza G con C y viceversa)
Hebra: Es la doble hélice o doble cadena.
El ADN tiene mecanismos de Reparación y
Recuperación, por esto debemos saber que él tiene
tres niveles de Estructura que son:
Figura 10. Situación del ADN
dentro de una célula.
*Estructura Primaria: Secuencia de nucleótidos es
decir (ATCG).
12
Bioinformática
*Estructura Secundaria: Doble hélice, estructura tridimensional.
*Estructura Terciaria: Se compacta, como madeja y forma nucleosomas y
cromosomas. Esto se compacta por protección.
El ser humano posee 46 cromosomas.
3.4 Traducción y Transcripción Genética
Transcripción es el proceso de fabricación ARN usando el ADN como molde.
Traducción es la construcción de una secuencia de aminoácidos (poli péptido) con
la información proporcionada por la molécula de ARN.
El esquema de este "dogma" ha sido encontrada repetidamente y se considera
una regla general (salvo en los retrovirus).
El Ácido Ribonucleico mensajero (ARNm) es el molde para la construcción de la
proteína.
El Ácido Ribonucleico ribosómico (ARNr) se encuentra en el sitio donde se
construye la proteína: el ribosoma.
El Ácido Ribonucleico de transferencia (ARNt) es el transportador que coloca el
aminoácido apropiado en el sitio correspondiente.
El ARN tiene el azúcar ribosa en vez de desoxirribosa. La base uracilo (U)
reemplaza a la timina (T) en el ARN. El ARN tiene una sola hebra, si bien el ARNt
puede formar una estructura de forma de trébol debido a la complementariedad de
sus pares de bases.
TRANSCRIPCION: HACIENDO UNA COPIA DEL ARNm DE LA SECUENCIA
DEL ADN
La ARN polimerasa abre la parte del ADN a ser transcripta. Solo una de las hebras
del ADN (la hebra codificante) se transcribe. Los nucleótidos de ARN se
encuentran disponibles en la región de la cromatina (este proceso solo ocurre en
la interface) y se unen en un proceso de síntesis similar al del ADN.
13
Bioinformática
Figura 11. Transcripción Genética
El ARN está en el núcleo y se hace la transcripción dentro del núcleo, luego el
ARNm sale al citoplasma.
Encontramos cinco (5) pasos en el proceso de transcripción estos son:
1. Pre iniciación: Llega nuestro ARN polimerasa busca el código donde
empieza el archivo de inicio el cual se llama promotor o secuencia de
iniciación. Ahí empieza un gen.
2. Iniciación: Aleja dos hélices rompiendo los enlaces solo donde ve el archivo
promotor.
3. Disgregación promotor: Se destruye secuencia de iniciación.
4. Elongación: Empieza a hacer la copia. Empieza a hacer los enlaces (moldemolde-original). En el ARN en vez de T hay U. Hace una copia sencilla
(Hebra sencilla).
5. Terminación: Secuencia terminadora, para de copiar porque encuentra el
código terminador. Se hace un gen a la vez. El ARN se vuelve compacto y
vuelve a empezar.
3.5 Código Genético
Fue el astrónomo quien señaló que el código que representa a los aminoácidos
debía consistir en grupos de al menos tres de las cuatro bases del ADN.
En efecto, los 20 aminoácidos están representados en el código genético por la
agrupación de tres letras (triplete) de las cuatro existentes.
Si uno considera las posibilidades de arreglo de cuatro letras agrupadas de a tres
(43) resulta que tenemos 64 posibilidades de palabras a codificar, o 64 posibles
codones (secuencia de tres bases en el ARNm que codifica para un aminoácido
específico o una secuencia de control).
14
Bioinformática
El código genético fue "roto" por Marshall Nirenberg y Heinrich Matthaei (del NIH),
10 años después que Watson y Crick "rompieran" el misterio de la estructura del
ADN.
Nirenberg descubrió que el
ARNm, independientemente del
organismo de donde proviene,
puede iniciar la síntesis proteica
cuando se lo mezcla con el
contenido del homogéneo de
Escherichiacoli.
Adicionando poli-U (un ARNm
sintético) a cada uno de 20 tubos
de ensayo (cada uno de los
cuales
tenía un aminoácido diferente)
Figura 12.Código genético
Nirenberg y Matthaei determinaron que
el codón UUU, el único posible en el
poli-U, codificaba para el aminoácido fenilalanina.
Asimismo un ARNm artificial compuesto por bases A y C alternando codifica
alternativamente para histidina y treonina. Gradualmente se fue confeccionando
una lista completa del código genético.
El código genético consiste en 61 codones para aminoácidos y 3 codones de
terminación, que detienen el proceso de traducción. El código genético es por lo
tanto redundante, en el sentido que tiene varios codones para un mismo
aminoácido. Por ejemplo, la glicina es codificada por los codones GGU, GGC,
GGA, y GGG. Si un codón muta por ejemplo de GGU a CGC, se especifica el
mismo aminoácido.
3.5.1 Características
Universalidad
El código genético es compartido por todos los organismos conocidos, incluyendo
virus y organelos, aunque pueden aparecer pequeñas diferencias. Así, por
ejemplo, el codón UUU codifica el aminoácido fenilalanina tanto en bacterias,
como en arqueas y en eucariontes. Este hecho indica que el código genético ha
tenido un origen único en todos los seres vivos conocidos.
Gracias a la genética molecular, se han distinguido 22 códigos genéticos, que se
diferencian del llamado código genético estándar por el significado de uno o más
codones. La mayor diversidad se presenta en las mitocondrias, orgánulos de las
células eucariotas que se originaron evolutivamente a partir de miembros del
15
Bioinformática
dominio Bacteria a través de un proceso de endosimbiosis. El genoma nuclear de
los eucariotas sólo suele diferenciarse del código estándar en los codones de
iniciación y terminación.
Especificidad y continuidad
Ningún codón codifica más de un aminoácido, ya que, de no ser así, conllevaría
problemas considerables para la síntesis de proteínas específicas para cada gen.
Tampoco presenta solapamiento: los tripletes se hallan dispuesto de manera lineal
y continua, de manera que entre ellos no existan comas ni espacios y sin
compartir ninguna base nitrogenada. Su lectura se hace en un solo sentido (5’–
3’), desde el codón de iniciación hasta el codón de parada. Sin embargo, en un
mismo ARNm pueden existir varios codones de inicio, lo que conduce a la síntesis
de varios poli péptidos diferentes a partir del mismo transcrito.
Degeneración
El código genético tiene redundancia pero no ambigüedad (ver tablas de
codones). Por ejemplo, aunque los codones GAA y GAG especifican los dos el
ácido glutámico (redundancia), ninguno específica otro aminoácido (no
ambigüedad). Los codones que codifican un aminoácido pueden diferir en alguna
de sus tres posiciones, por ejemplo, el ácido glutámico se específica por GAA y
GAG (difieren en la tercera posición), el aminoácido leucina se específica por los
codones UUA, UUG, CUU, CUC, CUA y CUG (difieren en la primera o en la
tercera posición), mientras que en el caso de la serina, se específica por UCA,
UCG, UCC, UCU, AGU, AGC (difieren en la primera, segunda o tercera posición).
De una posición de un condón se dice que es cuatro veces degenerada si con
cualquier nucleótido en esta posición se específica el mismo aminoácido. Por
ejemplo, la tercera posición de los codones de la glicina (GGA, GGG, GGC, GGU)
es cuatro veces degenerada, porque todas las sustituciones de nucleótidos en
este lugar son sinónimas; es decir, no varían el aminoácido. Sólo la tercera
posición de algunos codones puede ser cuatro veces degenerada. Se dice que
una posición de un codón es dos veces degenerada si sólo dos de las cuatro
posibles sustituciones de nucleótidos especifican el mismo aminoácido. Por
ejemplo, la tercera posición de los codones del ácido glutámico (GAA, GAG) es
doble degenerada. En los lugares dos veces degenerados, los nucleótidos
equivalentes son siempre dos purinas (A/G) o dos pirimidinas (C/U), así que sólo
sustituciones transversionales (purina a pirimidina o pirimidina a purina) en dobles
degenerados son antónimas. Se dice que una posición de un codón es no
degenerada si una mutación en esta posición tiene como resultado la sustitución
de un aminoácido. Sólo hay un sitio triple degenerado en el que cambiando tres de
cuatro nucleótidos no hay efecto en el aminoácido, mientras que cambiando los
cuatro posibles nucleótidos aparece una sustitución del aminoácido. Esta es la
tercera posición de un codón de isoleucina: AUU, AUC y AUA, todos codifican
isoleucina, pero AUG codifica metionina. En biocomputación, este sitio se trata a
menudo como doble degenerado.
16
Bioinformática
Tabla del código genético estándar
El código genético estándar se refleja en las siguientes tablas. La tabla 1 muestra
qué aminoácido específica cada uno de los 64 codones. La tabla 2 muestra qué
codones especifican cada uno de los 20 aminoácidos que intervienen en la
traducción. Estas tablas se llaman tablas de avance y retroceso respectivamente.
Por ejemplo, el codón AAU es el aminoácido asparagina, y UGU y UGC
representan cisteína (en la denominación estándar por 3 letras, Asn y Cys,
respectivamente).
La tabla muestra los 64 codones con sus correspondientes aminoácidos. El ARNm
se da en sentido 5’– 3’.
Figura 13. Tabla del código genético estándar
Nótese que el codón AUG codifica la metionina pero además sirve de sitio de
iniciación; el primer AUG en un ARNm es la región que codifica el sitio donde la
traducción de proteínas se inicia.
3.6 Proteínas
Las proteínas son biomoléculas formadas por cadenas lineales de aminoácidos. El
nombre proteína proviene de la palabra griega πρωτεῖος ("proteios"), que significa
"primario" o del dios Proteo, por la cantidad de formas que pueden tomar.
17
Bioinformática
Las proteínas desempeñan un papel fundamental para la vida y son las
biomoléculas más versátiles y más diversas. Son imprescindibles para el
crecimiento del organismo. Realizan una enorme cantidad de funciones diferentes,
entre las que destacan:
* Estructural. Ésta es la función más importante de una proteína
* Inmunológica (anticuerpos),
* Enzimática (sacarosa y pepsina),
* Contráctil (actina y miosina).
* Homeostática: colaboran en el mantenimiento del pH,
* Transducción de señales (rodopsina)
* Protectora o defensiva (trombina y fibrinógeno)
Las proteínas están formadas por aminoácidos.
Las proteínas de todos los seres vivos están determinadas mayoritariamente por
su genética (con excepción de algunos péptidos antimicrobianos de síntesis no
ribosomal), es decir, la información genética determina en gran medida qué
proteínas tiene una célula, un tejido y un organismo.
Las proteínas se sintetizan dependiendo de cómo se encuentren regulados los
genes que las codifican. Por lo tanto, son susceptibles a señales o factores
externos. El conjunto de las proteínas expresadas en una circunstancia
determinada es denominado proteoma.
3.6.1 Clasificación y Estructura
Estructura
La organización de una proteína viene definida por cuatro niveles estructurales
denominados: estructura primaria, estructura secundaria, estructura terciaria y
estructura cuaternaria. Cada una de estas estructuras informa de la disposición de
la anterior en el espacio.

Estructura Primaria: La estructura primaria es la secuencia de AA de la
proteína. Nos indica qué AAS componen la cadena polipeptídica y el orden
en que dichos AAS. se encuentran. La función de una proteína depende de
su secuencia y de la forma que ésta adopte.

Estructura Secundaria: La estructura secundaria es la disposición de la
secuencia de aminoácidos en el espacio. Los AAS, a medida que van
siendo enlazados durante la síntesis de proteínas y gracias a la capacidad
de giro de sus enlaces, adquieren una disposición espacial estable, la
estructura secundaria.
18
Bioinformática
Existen dos tipos de estructura secundaria:
 la a(alfa)-hélice
 la conformación beta
Esta estructura se forma al enrollarse helicoidalmente sobre sí misma la
estructura primaria. Se debe a la formación de enlaces de hidrógeno
entre el -C=O de un aminoácido y el -NH- del cuarto aminoácido que le
sigue.
En esta disposición los AAS. no forman una hélice sino una cadena en
forma de zigzag, denominada disposición en lámina plegada.Presentan
esta estructura secundaria la queratina de la seda o fibroína.

Estructura Terciaria: La estructura terciaria informa sobre la disposición de
la estructura secundaria de un polipéptido al plegarse sobre sí misma
originando una conformación globular.
En definitiva, es la estructura primaria la que determina cuál será la secundaria y
por tanto la terciaria.
Esta conformación globular facilita la solubilidad en agua y así realizar funciones
de transporte, enzimáticas, hormonales, etc.
Esta conformación globular se mantiene estable gracias a la existencia de enlaces
entre los radicales R de los aminoácidos. Aparecen varios tipos de enlaces:




El puente disulfuro entre los radicales de aminoácidos que tiene azufre.
Los puentes de hidrógeno
Los puentes eléctricos
Las interacciones hifrófobas.
Estructura Cuaternaria: Esta estructura informa de la unión, mediante enlaces
débiles (no covalentes) de varias cadenas polipeptídicas con estructura terciaria,
para formar un complejo proteico. Cada una de estas cadenas poli peptídicas
recibe el nombre de protómero.
El número de protómeros varía desde dos como en la hexoquinasa, cuatro como
en la hemoglobina, o muchos como la cápsida del virus de la poliomielitis, que
consta de 60 unidades proteicas.
Clasificación
Las proteínas poseen veinte aminoácidos, los cuales se clasifican en:
19
Bioinformática
Glicina, alamina, valina, leucina, isoleucina, fenil, alanina, triptófano, serina,
treonina, tirosina, prolina, hidroxiprolina, metionina, cisteína, cistina, lisina,
arginina, histidina, ácido aspártico y ácido glutámico.
Según su composición
Pueden clasificarse en proteínas "simples" y proteínas "conjugadas".
Las "simples" o "Holo proteínas" son aquellas que al hidrolizarse producen
únicamente aminoácidos, mientras que las "conjugadas" o "Heteroproteínas" son
proteínas que al hidrolizarse producen también, además de los aminoácidos, otros
componentes orgánicos o inorgánicos. La porción no proteica de una proteína
conjugada se denomina grupos prostético". Las proteínas conjugadas se
subclasifican de acuerdo con la naturaleza de sus grupos prostéticos.
Figura 15. Niveles de las Proteínas
20
Bioinformática
4. NCBI Entrez
Entrez es un portal y un buscador que permite acceder a la base de datos del
National Center forBiotechnologyInformation (NCBI). NCBI es una parte de la
National Library of Medicine (NLM), así como un departamento de
NationalInstitutes of Health (NIH) del Gobierno de los Estados Unidos.
Figura 16.Portal Entrez.
Cada
ícono es una base
fundamental y diferente.
Permite
encontrar:
* PubMed: reúne todos los artículos científicos de las ciencias de la vida y la
medicina.
* PubMed Central: Parte de los artículos de PubMed que están disponibles.
* SiteSearch: Buscar en todo el sitio.
* Books: Buscar en los libros del portal.
* Nucleotide: Secuencias del ADN y ARN.
* Protein: Todas las secuencias de las proteínas.
* Genome: Buscar secuencias de los genomas completos (Genoma humano).
* Structure: Tiene todas las estructuras.
* Taxonomy: Clasificación de las especies.
21
Bioinformática
Aquí toda la información biológica es de dominio público. No se puede patentar la
información genética.
Podemos reducir la búsqueda con ayuda de operadores Booleanos aquí se usan
en mayúscula AND, OR, NOT. Podemos seguir reduciendo la búsqueda con
Limits->limits to (Lo que se hace es poner rangos de búsqueda).
Encontramos de la misma manera en los resultados la opción de poder el formato
FASTA o ver las estructurastridimensionales. Es por ejemplo entramos la siguiente
expresión en el buscador en la opción Protein ->(AIDS) AND NATURE [JOURNAL]
obtendríamos los resultados de todas las proteínas relacionadas con el SIDA
publicadas en la revista NATURE.
22
Bioinformática
CAPITULO II SECUENCIAS DE ADN
1. Formato FASTA
El formato FASTA es el formato más común de secuencia de ADN, ARN y
Proteínas. Es un formato de solo texto(se puede escribir oleer en un bloc de
notas). Hay unas líneas de descripción y unas líneas donde esta nuestra
secuencia. La secuencia máxima de las líneas del formato FASTA es de 80
caracteres de longitud, es decir que cuando llegamos a 80 se empieza una nueva
línea.
Figura 1. Formato FASTA, NBCI.
Sí la secuencia es de nucleótidos el formato permite los siguientes símbolos:
Símbolo
A
C
G
T
U
R
Y
K
N
-
Significado
Adenina
Citosina
Guanina
Timina
Uracilo
Purina
Pirimidina
GoT
A, C, G o T
Hueco
23
Bioinformática
Sí la secuencia es de aminoácidos el formato permite los siguientes símbolos:
Símbolo
A
B
C
D
E
F
G
H
I
K
L
N
-
Significado
Símbolo Significado
Alanina
P
Prolina
Asparagina
Q
Glutamina
Cisteina
R
Arginina
Ácido
S
Serina
Aspártico
Ácido
T
Treonina
Glutámico
Fenilalanina
U
Selenocysteina
Glicina
V
Valina
Histidina
W
Triptófano
Isoleucina
Y
Tirosina
Lisina
Z
Ácido Glutámico
Leucina
M
Metionina
Asparagina
*
Fin de la traducción
gap de longitud indeterminada
2. Alineamiento de Secuencias
Alinear: Comparar dos (2) secuencias. Resaltar sus similitudes y diferencias.
Cuando se analizan secuencias es común utilizar los términos similitud y
homología de forma indiscriminada, pero estos dos términos hacen referencia a
conceptos distintos.
|-SIMILITUD: Es el resultado del análisis (observación cuantitativa) de la estructura
primaria de dos o más secuencias; la secuencias pueden ser ácidos nucleicos o
proteínas. Puesto que la similitud es obtenida de observar las secuencias no
puede ser tomada como un indicador para establecer la relación biológica
(descendencia) entre las secuencias, ya que el grado de similitud puede deberse a
cambios aleatorios acumulados en las secuencias a través del tiempo.
|-HOMOLOGÍA: La homología es una medida cualitativa entre las secuencias se
presenta cuando la similitud que estás tienen es atribuible a razones evolutivas y
no al azar, es decir, la homología establece regiones entre las secuencias que se
han conservado con el tiempo.
La similitud es el resultado de una medida cuantitativa, la homología es una
hipótesis postulada por el investigador basándose en la similitud de las secuencias
y en otros datos biológicos que previamente conozca sobre el origen de dichas
secuencias. Es permitido establecer el porcentaje se similitud de dos o más
secuencias, pero esto no es posible para la homología, ya que las secuencias son
o no son homólogas.
24
Bioinformática
Figura 1.Un alineamiento de secuencias, generada por ClustalW entre dos proteínas dedos de zinc
identificadas por el número de acceso GenBank (Clave).
Sí tengo dos (2) secuencias y quiero saber cuánto se parecen lo hago a través del
Score el cual es el puntaje de nuestro alineamiento. Sí este score es más alto es
decir que hay más similitud y nuestra secuencia es más completa.
Este puntaje se da de acuerdo a la situación sí se encuentran parejas que
coinciden se le da un puntaje positivo, pero si no se le dará un puntaje negativo.
Hay dos tipos de alineamiento:
|-Pareado: (==2)
|-Múltiple: (>2) Es más complicado.
Para estos tipos de alineamiento encontramos dos (2) tipos de algoritmos, pero
antes debemos explicar algunas características que pueden tener como son:
|-Determinístico: Es un algoritmo dada la entrada (input) siempre tenemos una
misma salida.
|-Heurístico: No es segura la misma salida.
|-Aleatorio: Siempre da una salida distinta.
Los algoritmos para el alineamiento son Globales y Locales:
* Globales: Toman la secuencia 1 y la secuencia 2 completas las coloca en una
matriz y empieza a comparar. Este algoritmo es lento y ocupa mucha memoria,
sus ventajas es que es fácil de programar y es determinístico.
* Locales: Toma las secuencias y las divide en pedazos o partes pequeñas y
después empieza a comparar. Son Heurísticos, son más rápidos y trabaja el tipo
de alineamiento Múltiple.
En bioinformática lo más básico es el alineamiento, por esto el algoritmo de
Needleman-Wunsches comúnmente usado para alinear secuencias de nucleótidos
o proteínas a través del alineamiento Global. El algoritmo Needleman-Wunsch se
basa en programación dinámica; esta forma de programación es un método que
nos permite reducir el orden de complejidad de un algoritmo.
Lo siguiente es un ejemplo de cómo trabaja el algoritmo Needleman-Wunsch:
Alinear las siguientes secuencias:
25
Bioinformática
A = GAATTCAGTTA
B = GGATCGA
Parámetros:
Coincidencias = 1
No coincidencias = 0
Huecos = 0
Inicialización:(Tabla 1)
1
G
0
6
G
0
7
A
0
1 2 3 4 5 6
G G A T C G
0 0 0 0 0 0 0
1 G 0 1 1 1 1 1 1
2 A 0 1 1 2 2 2 2
3 A 0 1 1 2 2 2 2
4 T 0 1 1 2 3 3 3
5 T 0 1 1 2 3 3 3
6 C 0 1 1 2 3 4 4
7 A 0 1 1 2 3 4 4
8 G 0 1 2 2 3 4 5
9 T 0 1 2 2 3 4 5
10 T 0 1 2 2 3 4 5
11 A 0 1 2 3 3 4 5
Tabla 2. Llenado de la matriz.
7
A
0
1
2
3
3
3
4
5
5
5
5
6
1
2
3
4
5
6
7
8
9
10
11
G
A
A
T
T
C
A
G
T
T
A
2
G
0
3
A
0
4
T
0
5
C
0
0
0
0
0
0
0
0
0
0
0
0
0
Tabla 1. Inicialización.
Llenado de la Matriz: (Tabla 2)
26
Bioinformática
Recuperación de la solución: (Tabla 3)
1 2 3 4 5 6 7
G G A T C G A
0 0 0 0 0 0 0 0
1
G 0 1 1 1 1 1 1 1
2
A 0 1 1 2 2 2 2 2
3
A 0 1 1 2 2 2 2 3
4
T 0 1 1 2 3 3 3 3
5
T 0 1 1 2 3 3 3 3
6
C 0 1 1 2 3 4 4 4
7
A 0 1 1 2 3 4 4 5
8
G 0 1 2 2 3 4 5 5
9
T 0 1 2 2 3 4 5 5
10 T 0 1 2 2 3 4 5 5
11 A 0 1 2 3 3 4 5 6
Tabla 3. Recuperación de la solución.
Alineamiento:
[x=11,y=7], [x=10,y=6], [x=9,y=6], [x=8,y=6], [x=7,y=5], [x=6,y=5], [x=5,y=4],
[x=4,y=4], [x=3,y=3], [x=2,y=3], [x=1,y=2], [x=1,y=1], [x=0,y=0]
G¬AATTCAGTTA
GGA¬T¬C¬G¬¬A
3. BLAST
El algoritmo y el programa de computadora que lo implementa fueron
desarrollados por: Stephen Altschul, Warren Gish, David Lipman en el Centro
Nacional de Información Biotecnológica (NCBI, por sus siglas en inglés), Webb
Millar en la Universidad estatal de Pennsylvania, y Gene Myers en la Universidad
de Arizona. También es basado en el algoritmo Smith-Waterman y es local,
bastante rápido pero no garantiza el mejor resultado solo el mejor alineamiento. Es
usado para encontrar probables genes homólogos, es decir con funciones
similares. Para ejecutarse, BLAST requiere dos secuencias como entrada: una
secuencia de consulta (también llamada secuencia blanco) y una base de datos
de secuencias. BLAST encontrará subsecuencias en la consulta que son similares
a subsecuencias de la base de datos. En el uso típico, la secuencia de consulta es
mucho más pequeña que el banco de datos, por ejemplo, la consulta puede ser de
mil nucleótidos mientras que la base de datos es de varios miles de millones de
nucleótidos. BLAST busca alineamientos de secuencias de alto puntaje entre la
secuencia de consulta y las secuencias en el banco de datos usando un enfoque
heurístico. La velocidad y la relativamente buena precisión de BLAST son la clave
de la innovación técnica de los programas BLAST y probablemente el porqué es la
herramienta de búsqueda más popular en bioinformática.
27
Bioinformática
Figura 1.BLAST.
3.1 ETAPAS
1. Asemilladlo (Seeding): BLAST busca coincidencias exactas de una pequeña
longitud fija W entre la secuencia de consulta y las secuencias de la base de
datos. Por ejemplo, dadas las secuencias AGTTAC y ACTTAG y el largo de
palabra W = 3, BLAST podría identificar la subcadena coincidente TTA que es
común en ambas secuencias. Por defecto, W = 11 para "semillas" nucleicas.
2. Extensión: BLAST trata de extender la coincidencia en ambas direcciones,
comenzando por la semilla. El proceso de alineamiento sin huecos, extiende la
coincidencia de la semilla inicial de longitud W en cada dirección en un intento de
estimular el puntaje de alineación. Inserciones y eliminaciones no son
consideradas durante esta etapa. Para nuestro ejemplo, el alineamiento sin
huecos entre las secuencias AGTTAC y ACTTAG centrado alrededor de la palabra
en común TTA podría ser: Si es encontrado un alineamiento sin huecos de alto
puntaje, la base de datos de secuencias pasa a la tercera etapa.
3. Evaluación: BLAST realiza un alineamiento con huecos entre la secuencia de
consulta y la secuencia de la base de datos usando una variación del algoritmo de
Smith-Waterman. Entonces los alineamientos relevantes estadísticamente son
mostrados al usuario.
28
Bioinformática
3.2 FAMILIA BLAST
Figura 2.Familia BLAST.
*BlastN: Busca una secuencia ADN/ARN en la base de datos de Nucleotidos
(ADN/ARN).
*BlastP: Busca una proteína en una base de datos de proteínas.
*BlastX: Busca nucleótidos (ADN) en la base de datos de proteínas.
*TBlastN: Busca proteínas en el ADN. Traduce de la BD(Base de Datos) a
proteínas. La traducción va en un solo sentido.
3.3 Variantes De BLAST
* Gapped BLAST: Esta es una mejora al algoritmo original del BLAST.2 También
se lo conoce como BLAST 2.0. Se trata de un BLAST que contempla la existencia
de pequeñas inserciones o eliminaciones en las secuencias que se están
comparando, permitiendo así alinear uno o varios nucleótidos o aminoácidos con
huecos vacíos llamados gaps.
* PsiBLAST: Esta variante de BLAST2 es usada para buscar posibles homólogos
29
Bioinformática
en organismos muy lejanos entre ellos, filogenéticamente hablando. Está
disponible sólo para secuencias de aminoácidos.
PRECAUCIÓN: BLAST no garantiza que las secuencias que alinea sean
homólogas y mucho menos que tengan la misma función, simplemente provee
posibles candidatos. Se debe recordar que el programa es heurístico y por lo tanto
puede que no encuentre la solución óptima.
30
Bioinformática
CAPITULO III GENES
1. Código Genético
El código genético viene a ser como un diccionario que establece una equivalencia
entre las bases nitrogenadas del ARN y el leguaje de las proteínas, establecido
por los aminoácidos. Después de muchos estudios (1955 Severo Ochoa y
Grumberg; 1961 M.Nirenberg y H. Mattaei) se comprobó que a cada aminoácido la
corresponden tres bases nitrogenadas o tripletes (61 tripletes codifican
aminoácidos y tres tripletes carecen de sentido e indican terminación de mensaje).
SEGUNDA BASE
U
P
R
U
I
M
C
E
R
A
A
B
A
S
G
C
A
G
UUU
Phe
UCU
Ser
UAU
Tyr
UGU
Cys
U
UUC
Phe
UCC
Ser
UAC
Tyr
UGC
Cys
C
UUA
Leu
UCA
Ser
UAA
FIN
UGA
FIN
A
UUG
Leu
UCG
Ser
UAG
FIN
UGG
Trp
G
CUU
Leu
CCU
Pro
CUA
His
CGU
Arg
U
CUC
Leu
CCC
Pro
CAC
His
CGC
Arg
C
CUA
Leu
CCA
Pro
CAA
Gln
CGA
Arg
A
CUG
Leu
CCG
Pro
CAG
Gln
CGG
Arg
G
AUU
Ile
ACU
Thr
AAU
Asn
AGU
Ser
U
AUC
Ile
ACC
Thr
AAC
Asn
AGC
Ser
C
AUA
Ile
ACA
Thr
AAA
Lys
AGA
Arg
A
AUG
Met
ACG
Thr
AAG
Lys
AGG
Arg
G
GUU
Val
GCU
Ala
GAU
Asp
GGU
Gly
U
GUC
Val
GCC
Ala
GAC
Asp
GGC
Gy
C
GUA
Val
GCA
Ala
GAA
Glu
GGA
Gly
A
T
E
R
C
E
R
A
B
A
S
GUG
al
GCG
Ala
GAG
E
Glu
GGG
Gly
G
E
Tabla 1. El código genético nos indica que aminoácido corresponde a cada triplete o codón del
ARN mensajero.
1.1 Características Del Código Genético
1. El Código es Organizado en Tripletes o Codones: Si cada nucleótido
determinara un aminoácido, solamente podríamos codificar cuatro aminoácidos
diferentes ya que en el ADN solamente hay cuatro nucleótidos distintos. Cifra muy
inferior a los 20 aminoácidos distintos que existen.
Si cada dos nucleótidos codificarán un aminoácido, el número total de
dinucleótidos distintos que podríamos conseguir con los cuatro nucleótidos
diferentes (A, G, T y C) serían variaciones con repetición de cuatro elementos
31
Bioinformática
tomados de dos en dos VR4,2 = 42 = 16. Por tanto, tendríamos solamente 16
dinucleótidos diferentes, cifra inferior al número de aminoácidos distintos que
existen (20). Si cada grupo de tres nucleótidos determina un aminoácido.
Teniendo en cuenta que existen cuatro nucleótidos diferentes (A, G, T y C), el
número de grupos de tres nucleótidos distintos que se pueden obtener son
variaciones con repetición de cuatro elementos (los cuatro nucleótidos) tomados
de tres en tres: VR4,3 = 43 = 64. Por consiguiente, existe un total de 64 tripletes
diferentes, cifra más que suficiente para codificar los 20 aminoácidos distintos.
2. El Código Genético es Degenerado: Como hemos dicho anteriormente existen
64 tripletes distintos y 20 aminoácidos diferentes, de manera que un aminoácido
puede venir codificado por más de un codón. Este tipo de código se denomina
degenerado. Wittmann (1962) induciendo sustituciones de bases por diseminación
con nitritos, realizó sustituciones de C por U y de A por G en el ARN del virus del
mosaico del tabaco (TMV), demostrando que la serina y la isoleucina estaban
determinadas por más de un triplete. Las moléculas encargadas de transportar los
aminoácidos hasta el ribosoma y de reconocer los codones del ARN mensajero
durante el proceso de traducción son los ARN transferentes (ARN-t). Los ARN-t
tienen una estructura en forma de hoja de trébol con varios sitios funcionales:
*Extremo 3': lugar de unión al aminoácido (contiene siempre la secuencia ACC).
*Lazo dihidrouracilo (DHU): lugar de unión a la aminoacil ARN-t sintetasa o
enzimas encargadas de unir una aminoácido a su correspondiente ARN-t.
*Lazo de T ψ C: lugar de enlace al ribosoma.
*Lazo del anti codón: lugar de reconocimiento de los codones del mensajero.
Normalmente el ARN-t adopta una estructura de hoja de trébol plegada en forma
de L o forma de boomerang.
Estructura ARN transferente
Estructura ARN transferente
Estructura ARN transferente
32
Bioinformática
3. El Código Genético es No Solapado o Sin Superposiciones: Un nucleótido
solamente forma parte de un triplete y, por consiguiente, no forma parte de varios
tripletes, lo que indica que el código genético no presenta superposiciones. Por
tanto, el código es no solapado. Wittmann (1962) induciendo mutaciones con
ácido nitroso en el ARN del virus del mosaico del tabaco (TMV) pudo demostrar
que las mutaciones habitualmente producían un cambio en un solo aminoácido. El
ácido nitroso produce diseminaciones que provocan sustituciones de bases, si el
código fuera solapado y un nucleótido formará parte de dos o tres tripletes, la
sustitución de un nucleótido daría lugar a dos o tres aminoácidos alterados en la
proteína de la cápside del TMV.
Diferencias entre un código solapado y uno
no solapado
Código solapado: restricciones en la
secuencia de aminoácidos
4. La Lectura del Código Genético es "Sin Comas": Teniendo en cuenta que la
lectura se hace de tres en tres bases, a partir de un punto de inicio la lectura se
lleva a cabo sin interrupciones o espacios vacíos, es decir, la lectura es seguida
"sin comas". De manera, que si añadimos un nucleótido (adición) a la secuencia, a
partir de ese punto se altera el cuadro de lectura y se modifican todos los
aminoácidos. Lo mismo sucede si se pierde (deleción) un nucleótido de la
secuencia. A partir del nucleótido delecionado se altera el cuadro de lectura y
cambian todos los aminoácidos. Si la adición o la deleciónes de tres nucleótidos o
múltiplo de tres, se añade un aminoácido o más de uno a la secuencia que sigue
siendo la misma a partir de la última adición o deleción. Una adición y una
deleción sucesivas vuelven a restaurar el cuadro de lectura.
La lectura se puede hacer de dos formas:
*SMIR: Empezando desde la primera cadena.
*(C): Empezando desde la última cadena.
33
Bioinformática
5. El Código Genético es Universal: El desciframiento del código genético se ha
realizado fundamentalmente en la bacteria E. coli, por tanto, cabe preguntarse si el
código genético de esta bacteria es igual que el de otros organismos tanto
procarióticos como eucarióticos. Los experimentos realizados hasta la fecha
indican que el código genético nuclear es universal, de manera que un
determinado triplete o codón lleva información para el mismo aminoácido en
diferentes especies. Hoy día existen muchos experimentos que demuestran la
universalidad del código nuclear, algunos de estos experimentos son:
* Utilización de ARN mensajeros en diferentes sistemas acelulares. Por
ejemplo ARN mensajero y ribosomas de reticulocitos de conejo con ARN
transferentes de E. coli. En este sistema se sintetiza un poli péptido igual o muy
semejante a la hemoglobina de conejo.
* Las técnicas de ingeniería genética que permiten introducir ADN de un
organismo en otro de manera que el organismo receptor sintetiza las proteínas del
organismo donante del ADN. Por ejemplo, la síntesis de proteínas humanas en la
bacteria E. coli.
1.2 Splicing
En el caso de los organismos Eucariotas el ADN no se transcribe completamente
sino solo por partes; Las secciones que no se transcriben se llaman Intrónes, los
cuales son regiones del ADN que debe ser eliminada del transcrito primario de
ARN, y las secciones que se trascriben se llaman Exones, los cuales son regiones
que codifican para una determinada proteína.
El resultado de la trascripción de los Exones es una cadena de ARNm (ARN
Mensajero) a la que se le puede realizar Transcripción Inversa, dando lugar a una
cadena de cADN (ADN Complementario). Este cADN solo se puede hacer en el
Laboratorio o por un retrovirus, y se utiliza para leer el ADN que finalmente se va a
utilizar en el ADNm y posteriormente en la Proteína.
El proceso anteriormente descrito se puede observar en el siguiente gráfico:
34
Bioinformática
Gráfico 1.Proceso Splicing.
2. Open Reading Frames (ORF)
2.1 Marco Abierto de Lectura
Es una secuencia de información genética que contiene datos que pueden ser
utilizados para codificar aminoácidos; Los marcos de lectura se encuentran en el
ADN y ARN. En el caso de ADN, el ADN contiene conjuntos de nucleótidos
conocida como tripletes o codones. Cada codón puede ser transcrito por el ARN
en otro triplete.
El marco de lectura es la sección de ADN o ARN que contiene instrucciones para
hacer una proteína completa. En el ADN, hay seis marcos de lectura posibles, ya
que el inicio de un marco de lectura depende de donde uno empieza a leer, y el
ADN es de doble cadena. Con el ARN, existen tres posibles marcos de lectura.
Una sección de lectura comienza con un codón de inicio (AUG) y uno de parada
(UAA, UAG o UGA). Un marco abierto de lectura puede contener un gen completo,
o los genes que se solapan; el código genético no siempre es tan ordenada como
uno podría imaginar. De hecho, el código genético contiene mucho de lo que se
conoce como el ADN no codificante, es decir, que el ADN no parece cumplir una
función en términos de la expresión génica. No codificante del ADN puede
contener información interesante acerca de la herencia genética de una especie, y
puede utilizarse para otras funciones.
Existen 6 sentidos en los que se puede aparecer un marco de lectura: +1, +2, +3, 1, -2, -3.
35
Bioinformática
Si una secuencia se empieza a leer desde el 1er carácter, entonces el marco de
lectura es +1; si se empieza desde la 2da, entonces el marco de lectura es +2; Y si
se comienza desde la 3era, entonces el marco de lectura es +3.
Para la secuencia complementaria, si se empieza a leer desde el 1er carácter,
entonces el marco de lectura es -1; si se empieza desde la 2da, entonces el marco
de lectura es -2; Y si se comienza desde la 3era, entonces el marco de lectura es 3.
Gráfico 2. Marco de Lectura.
Para complementar se puede concluir que el Marco abierto de lectura es una
porción de una molécula de ADN que cuando se traduce a los aminoácidos, no
contiene codones de terminación. El código genético lee secuencias de ADN en
grupos de tres pares de bases, esto significa que, en una molécula de ADN de
doble hebra, hay 6 posibles sentidos en los que pueden abrirse marcos de lectura
-tres en dirección hacia adelante y tres en reverso. Un marco abierto de lectura
larga es probable que sea parte de un gen.
2.2 ORF Finder (Open Reading Frame Finder) - NCBI
ORF Finder busca marcos abiertos de lectura (ORF) en la secuencia de ADN que
Ud. introduzca. El programa devuelve el rango de cada ORF, junto con la
traducción de la proteína correspondiente. ORF Finder soporta el alfabeto IUPAC
y varios códigos genéticos. Utilice ORF Finder para buscar posibles segmentos de
codificación de proteínas en nuevas secuencias de ADN.
36
Bioinformática
Interfaz:
Gráfico 3. Interfaz ORF Finder.
Como usar este Buscador:
1. Tomamos una secuencia en Formato FASTA que introduciremos en el cuadro
correspondiente y así encontrar su marco de lectura, códigos genéticos.
Gráfico 4. Búsqueda con ORF Finder - Ingreso formato FASTA para empezar.
37
Bioinformática
2. Debemos colocar en el menú de geneticcodes la opción estándar [
] luego hacemos clic en el botón
y obtenemos
la siguiente imagen:
Gráfico 5. Búsqueda con ORF Finder - Resultado encontrado del formato FASTA insertado.
Gráfico 6. Búsqueda con ORF Finder - Splicing en el bloque.
3. Luego de esto daremos clic en BLAST, en esta secuencia no mostraría ningún
resultado por lo corta así que hicimos lo mismo con una secuencia larga
38
Bioinformática
(Secuencia de la Salmonella) en su bloque más grande que escogimos nos da el
resultado con BLAST y veremos en el siguiente gráfico el resultado.
Gráfico 7. Búsqueda en BLAST
3. Modelos Estocásticos
* Estocástico: Utiliza probabilidad. un proceso estocástico es un concepto
matemático que sirve para caracterizar una sucesión de variables aleatorias
(estocásticas) que evolucionan en función de otra variable, generalmente el
tiempo. Cada una de las variables aleatorias del proceso tiene su propia función
de distribución de probabilidad y, entre ellas, pueden estar correlacionadas o no.
3.1 Modelo Oculto de Markov
Un método de previsión muy fiable sería aquel que analizase la evolución de
distintos desarrollos teniendo en cuenta las interrelaciones entre dichos
desarrollos e introdujese la variable tiempo.
39
Bioinformática
A partir de un estudio del tipo Delphi, se obtienen como conclusiones las
probabilidades y las fechas estimadas de ocurrencia de los eventos del
cuestionario. Sin embargo, no se consideran las interrelaciones entre los distintos
desarrollos.
El modelo de Markov va a caracterizar el desarrollo secuencial tecnológico
mediante dos parámetros probabilísticos: la secuencia de los desarrollos y el
tiempo entre desarrollos sucesivos. Estos dos parámetros se pueden representar
con los conceptos transición de estados y tiempo de permanencia en el estado.
Se dice que un proceso es de Markov cuando verifica la propiedad de Markov: la
evolución del proceso depende del estado actual y del próximo, y no de anteriores
o posteriores.
A partir de un Delphi clásico se pueden extraer los parámetros característicos del
modelo de Markov. Con estos parámetros se puede hacer un análisis de los
procesos de Markov por ordenador, estudiando el proceso secuencial en el tiempo
y hallando la distribución de probabilidades en el tiempo de los desarrollos.
Como consecuencia se obtienen un conjunto de cadenas, denominadas cadenas
de Markov, que indican posibles caminos para conseguir un desarrollo
tecnológico. Usando este tipo de cadenas, se puede realizar una previsión del
futuro en la que se analiza la evolución de distintos desarrollos, teniendo en
cuenta las interacciones entre desarrollos e introduciendo la variable tiempo.
OBJETIVO-> Determinar los parámetros desconocidos (ocultos) a partir de
parámetros observables.
Gráfico 1. Modelo Oculto de Markov.
40
Bioinformática
* En el modelo de Markov normal los estados son visibles. (a son los únicos
parámetros)
* En el HMM el estado no es visible más sí las variables influidas por el estado.
* Cada estado tiene una distribución de probabilidad sobre los posibles
símbolos de salida.
* Se utiliza para analizar la composición de secuencias, para localizar genes
prediciendo ORF y para producir predicciones de estructuras secundarias de
proteínas.
En los términos de un típico modelo oculto de Markov:
Estados observables -> columnas individuales del alineamiento
Gráfico 2. Modelo Oculto de Markov. Estados Observables.
Estados ocultos -> la supuesta secuencia ancestral desde la cual las secuencias
del conjunto problema se presume han descendido.
El éxito de un HMM (HiddenMarkovModels) depende de tener un buen modelo “a
priori”.
El HMM comienza con un alineamiento al azar -> construye un modelo -> mejora
las probabilidades en base a un entrenamiento iterativo -> se detiene cuando los
alineamientos no cambian.
41
Bioinformática
Gráfico 3. Algoritmos asociados a HMM (HiddenMarkovModels).
El modelo de Markov posee ventajas y desventajas entre las cuales podemos
observar:
Ventajas:
* Usualmente un HHM arroja un MSA bueno.
*Es un método fundamentado por la teoría de la probabilidad
*No se requiere de un orden en las secuencias
*Las penalidades de inserción y deleción no son necesarias.
*Se puede utilizar información experimental
Desventajas:
*Se necesitan al menos 20 secuencias (si no más) para poder acomodar la
historia evolutiva.
*Para construir un modelo se debe tener una base de datos de genes
antes.
4. GENSCAN
GENSCAN fue desarrollado por Chris Burge en el grupo de investigación de
Samuel Karlin, Departamento de Matemáticas de la Universidad de Stanford. El
programa y el modelo que subyace en ella se describen en: Burge, C. y Karlin, S.
(1997) Predicción de la estructura de los genes completos en ADN genómico
humano. J. Mol. Biol. 268, 78-94.
Los modelos del sitio de empalme se describen en más detalle en:
42
Bioinformática
Burge, CB (1998) las dependencias de modelado de señales de empalme preARNm. En Salzberg, S., Searls, D. y Kasif, S., eds. Métodos Computacionales en
Biología Molecular ,ElsevierScience, Amsterdam, pp 127-163.
Interfaz
Gráfico 1. GENSCAN.
Lo primero que hacemos es buscar en entrez una secuencia del ser humano para
que pueda ser analizada por Genscan.
Gráfico 2. Colocar una secuencia en GENSCAN.
43
Bioinformática
Luego podremos observar los resultados, los cuales analizaremos.
44
Bioinformática
CAPITULO IV ALINEAMIENTO DE SECUENCIAS Y
PROTEÍNAS
1. Alineamiento de Secuencias
1.1 Alineamiento múltiple de Secuencias
Un método de alineamiento múltiple verdadero, alinea todas las secuencias al
mismo tiempo.
Pero no existe un método computacional que pueda realizar esto en tiempo
razonable para más de 3 secuencias cortas.
Gráfico 1. Alineamiento múltiple de secuencias.
¿Por qué alinear simultáneamente varias secuencias?
Un ejemplo claro de este caso sería comparar proteínas muy conservadas
evolutivamente que cumplen igual función en distintos organismos, de esta forma
se podrían confeccionar árboles evolutivos.
Un caso muy estudiado en mamíferos es la insulina, la cual está muy conservada
en distintas especies.
“Los cambios acumulados en una secuencia biológica se producen a una tasa
relativamente constante e independiente de parámetros poblacionales”
El alineamiento de múltiples secuencias es muy utilizado en la búsqueda de que
varias especies estén emparentadas por un ancestro común.
45
Bioinformática
Gráfico 2. Alineamiento múltiple de secuencias.
Encontramos tres (3) formas de acercarse al alineamiento:
1. Método Global: Confronta una secuencia con otra completa. Los primeros
programas que se desarrollaron para el alineamiento de secuencias fueron
diseñados para tratar de crear alineamientos globales, es decir para detectar
similaridades utilizando las proteínas enteras. Un alineamiento que se extiende a
lo largo de toda la longitud de las secuencias utilizadas se denomina alineamiento
GLOBAL, como en los ejemplos que acabamos de ver anteriormente. Este tipo de
alineamientos son buenos para proteínas globulares (que carecen de dominios
definidos) y en el caso de que las dos secuencias sean muy parecidas a lo largo
de toda su longitud (secuencias que han divergido poco a lo largo de la evolución).
Sin embargo, existen numerosas proteínas "modulares", entendiendo por tal el
hecho de que en su secuencia es posible identificar varios dominios diferentes. En
estas proteínas, los diferentes módulos pueden repetirse una o más veces, o
aparecer en distinto orden en cada una de las proteínas, por lo que si realizamos
un alineamiento global entre ambas, será imposible que el programa pueda
detectar la homología entre módulos que ocupan diferente posición en las dos
secuencias. Para obtener buenos alineamientos en estos casos es necesario
utilizar métodos de alineamiento local, que en esencia consisten en programas
que buscan regiones entre las dos proteínas que son parecidas, aunque estas
regiones se hallen rodeadas de zonas completamente diferentes.
2. Programación Dinámica: La técnica de programación dinámica es teóricamente
aplicable a cualquier número de secuencias; sin embargo, y puesto que es
computacionalmente costosa tanto en tiempo como en memoria, raramente se usa
en su forma más básica para más de tres o cuatro secuencias. Este método
requiere la construcción de un equivalente n-dimensional a la matriz formada por
dos secuencias, donde “n” es el número de secuencias problema.
46
Bioinformática
La PD constituye una técnica muy general de programación. Se suele aplicar
cuando existe un espacio de búsqueda muy grande y éste puede ser estructurado
en una serie o sucesión de estados tales que:
1. el estado inicial contiene soluciones triviales de subproblemas
2. cada solución parcial de estados posteriores puede ser calculada por
iteración sobre un número fijo de soluciones parciales de los estados anteriores
3. el estado final contiene la solución final Un algoritmo de PD consta de 3
fases:
a. fase de inicialización y definición recurrente del score óptimo
b. relleno de la matriz de PD para guardar los scores de subproblemas
resueltos en cada iter. Se comienza por resolver el subproblemas pequeño
c. un rastreo reverso de la matriz para recuperar la estructura de la solución
óptima
3. Árbol Filogenético: La filogenia y el alineamiento de secuencias son campos
íntimamente relacionados debido a su necesidad compartida de evaluar el
parentesco entre secuencias. La filogenia hace un uso extensivo de los
alineamientos de secuencias en la construcción e interpretación de árboles
filogenéticos, que se usan para clasificar las relaciones evolutivas entre genes
homólogos representados en el genoma de especies divergentes.
En los siguientes gráficos podemos ver como se realiza la alineación de
secuencias con las dos más cercanas y la siguiente:
Gráfico 2. Alineamiento de dos secuencias cercanas.
47
Bioinformática
Gráfico 3. Alineamiento de dos secuencias cercanas.
Gráfico 4. Alineamiento de la secuencia siguiente.
48
Bioinformática
1.2 Árbol Filogenético
Gráfico 5. Árbol Filogenético.
Todos los seres vivos comparten su origen: todos provienen del reino móneras.
Este reino abarca los seres unicelulares procariotas, que carecen de núcleo
celular. Son las arqueo bacterias y las eubacterias.
De los móneras surgieron los protoctistas. Este reino reúne seres eucariotas
unicelulares heterótrofos y con digestión interna (protozoos), y eucariotas
unicelulares o pluricelulares sin tejidos, autótrofos fotosintéticos (algas).
El reino de los hongos comprende seres eucariotas, unicelulares o pluricelulares,
sin tejidos, heterótrofos y con digestión externa. Las metáfitas o plantas son
eucariotas pluricelulares con tejidos y nutrición autótrofa.
El reino metazoos o animal reúne los eucariotas pluricelulares con tejidos y
nutrición heterótrofa, con digestión interna.
Nuevas tendencias en la clasificación
Estudiando los ácidos nucleicos, especialmente el ARN ribosómico, se ha
comprobado que se pueden clasificar los seres vivos en solo tres grandes grupos
o dominios. Esta técnica se denomina filogenia molecular y tiene una gran utilidad
para establecer las relaciones de parentesco entre taxones de seres vivos,
basándose en la similitud genética existente entre éstos.
49
Bioinformática
Los tres dominios propuestos por Carl Woese (1990) son: Archaea, que reúne a
las arqueo bacterias; Bacteria, que comprende a las eubacterias; y Eucarya, que
incluye a todos los seres eucariotas.
En 1998, Cavalier-Smith propuso un nuevo sistema de clasificación con dos
suprareinos (Prokariota y Eukaryota) y seis reinos: Bacterias, Protozoos,
Chromistas, Hongos, Plantas y Animales.
Las Hojas son diferentes y representan una secuencia que tendrá un puntaje.
Los árboles filogenéticos son una representación gráfica de las similitudes y
diferencias entre unas secuencias determinadas . Habitualmente, las secuencias
de los genes y las proteínas son más parecidas entre organismos más cercanos
evolutivamente. Los organismos que hace más tiempo que se separaron en la
evolución suelen tener más diferencias en las secuencias de sus respectivos
genes, y, por lo tanto, cuando se realiza un árbol filogenético, aparecen más
alejados entre sí
2. ClustalWJalview
2.1 Clustal
CLUSTAL es un programa que permite hacer alineamientos globales de proteínas
y ácidos nucleicos y que además tiene un algoritmo heurístico progresivo,
bastante rápido, para calcular alineamientos múltiples. En combinación con
herramientas como BLAST, CLUSTAL es muy útil para definir familias de
proteínas y de ácidos nucleicos.
Al igual que BLAST, también hay servidores web para correr CLUSTALW sin
necesidad de instalar software, pero asimismo tiene ventajas instalarlo localmente,
sobre todo para correr trabajos de alineamiento múltiple a gran escala y tener todo
el proceso bajo control.
Podemos ver ahora como trabajar en clustal:
50
Bioinformática
Gráfico 1. Interfaz Clustal.
Gráfico 2.Insertar Secuencia Clustal.
51
Bioinformática
Gráfico 3. Envío y espera del alineamiento.
Gráfico 4. Resultado Clustal.
52
Bioinformática
2.2 Jalview
JalView es un editor de alineamiento múltiple por escrito en Java. Se utiliza
ampliamente en una variedad de páginas web (por ejemplo, el servidor de EBI
Clustalw y la base de datos de proteínas Pfam dominio), pero está disponible
como un editor de propósito general, la alineación y banco de trabajo de análisis.
Se usa JalView para:
* Ver
Lee y escribe en las alineaciones en una variedad de formatos (Fasta, PFAM,
MSF, Clustal, BLC, PIR).
Guarda las alineaciones y los árboles asociados en JalView formato XML.
* Editar
Las lagunas se pueden insertar / borrar con el ratón o el teclado.
Instrucciones simples.
Grupo de edición (supresión de inserción de las lagunas en los grupos de
secuencias).La eliminación de las columnas con huecos.
* Análisis
Alinear las secuencias utilizando Servicios Web ( Clustal , muscular ...)
Aminoácidos análisis de conservación similar a la de AMAS.
Las opciones de alineación de clasificación (por su nombre, para los árboles, el
porcentaje de identidad, grupo).
Árboles UPGMA y NJ calculado y elaborado a partir de distancias por ciento de
identidad.
Clústeres de secuencia mediante el análisis de componentes principales.
La eliminación de las secuencias redundantes.
Smith Waterman pares de alineación de las secuencias seleccionadas.
* Anotar
Uso de la Web basada en los programas de predicción de estructura secundaria
( JNET ).
Usuario predefinidos o personalizados esquemas de color a las alineaciones de
color o de grupos.
Secuencia de recuperación de función y se muestran en la alineación.
* Publicar
Imprimir su alineación con los colores y anotaciones.
Crear páginas HTML.
Salida de alineación de imagen Portable Network Graphics (PNG).
Salida de la alineación como un archivo PostScript encapsulado (EPS).
Podemos ingresar a la página original de Jalview descargarlo y conocer todas sus
opciones, características para poder trabajar con él.
53
Bioinformática
Gráfico 5. Jalview.
En la página de Jalview podemos encontrar simuladores de alineamientos
podemos ver en la siguiente gráfica un ejemplo de este:
Gráfico 6. Applet en la página de Jalview.
54
Bioinformática
3. Proteínas y Proteómica
3.1 Proteínas
Es una macromolécula -> Cadena muy larga de aminoácidos. Los tipos
principales de macromoléculas son las proteínas, formadas por cadenas lineales
de aminoácidos; los ácidos nucleicos, DNA y RNA, formados por bases
nucleotídicas (purinas y pirimidinas), los polisacáridos, formados por subunidades
de azúcares y los lípidos formados por glicerol, ácidos grasos o colesterol. Los
aminoácidos de las proteínas están unidos por enlaces peptídicos, los
carbohidratos de los polisacáridos por enlaces glucosídicos o peptídicos y los
lípidos y ácidos nucleicos por enlaces éster.
Nuestro cuerpo posee 500.000 proteínas.
El estudio de las proteínas permite estudiar:
* Su Estructura: Es la manera como se organiza una proteína para adquirir
cierta forma. Se puede estudiar su forma:
• 3D: Se realiza Experimentalmente (Rayos X, etc.) o
Matemáticamente.
• Dominios Funcionales: Subsecuencia que desarrolla una función
específica.
Gráfico 1. Proteína Hemoglobina con Estructura Cuaternaria.
* Su Función: Específicamente es lo hace la proteína.
55
Bioinformática
Los biólogos se enfatizan en el estudio de la función de las proteínas.
En las proteínas podemos encontrar que:
* Su Estructura: Puede ser Primaria, Terciaria, Cuaternaria.
* Su Forma: Podrían ser Globulares, Fibrosas, Mixtas.
* Su Función: Puede variar ente ser de transporte, estructural, protección,
señalización entre otras.
3.2 Proteóma
Es el conjunto de todas las proteínas producidas por una célula en un instante de
tiempo. El término proteoma se utilizó por primera vez en 1995 y ha sido aplicado
a diferentes escalas en los sistemas biológicos. El proteoma celular es la totalidad
de proteínas expresadas en una célula particular bajo condiciones de
medioambiente y etapa de desarrollo, (o ciclo celular) específicas, como lo puede
ser la exposición a estimulación hormonal. También se puede hablar del proteoma
completo de un organismo que puede ser conceptualizado como las proteínas de
todas las variedades de proteomas celulares. Es aproximadamente, el equivalente
proteínico del genoma.
El Proteoma es un elemento altamente dinámico, cuyos componentes varían en
un organismo, tejido, célula o compartimento subcelular, como consecuencia de
cambios en su entorno, situaciones de estrés, administración de drogas, señales
bioquímicas o su estado fisiológico o patológico.
Estrategias empleadas en los estudios de proteomas
La estrategia de elección más utilizada actualmente para el estudio de proteomas,
que ha demostrado ser eficiente, es la combinación de electroforesis en gel de
poliacrilamida bidimensional con espectrometría de masa (Gráfico 2). La
electroforesis permite la separación de proteínas de un dado sistema biológico con
alta resolución y reproductibilidad, mientras que la espectrometría de masa
permite, a través de alta demanda y sensibilidad, la identificación de proteínas
presentes en un spot de gel.
56
Bioinformática
Gráfico 2. Estrategia para el estudio de Proteomas (Electroforesis).
3.3 Proteómica
Ciencia que estudia el Proteoma. estudios que se han realizado tradicionalmente
mediante la técnica de electroforésis en gel de dos dimensiones. En la primera
dimensión las proteínas se separan por isoelectroenfoque, que separa las
proteínas con base en su carga eléctrica. En la segunda dimensión, las proteínas
se separan por peso molecular utilizando SDS-PAGE.
57
Bioinformática
Gráfico 3. Esquema en el que se puede observar el proceso seguido para la identificación y
cuantificación diferencial masiva de proteínas.
La Proteómica engloba un conjunto de metodologías orientadas al estudio
sistemático de las proteínas, que son los componentes primordiales que regulan la
maquinaria biológica. Los cambios experimentados por las células de un tejido,
por la acción de factores naturales, drogas o fármacos o a causa de alguna
patología, son consecuencia de cambios, más o menos sutiles, en la pauta de
proteínas que producen las células en ese momento. El análisis de estos cambios
está siendo cada vez más utilizado en la moderna biomedicina con fines
diagnósticos y de pronóstico (biomarcadores), para el tratamiento individualizado
de pacientes o para el estudio de mecanismos moleculares en el campo de la
investigación básica.
Si bien estos cambios pueden analizarse de forma indirecta mediante técnicas
genómicas (chips de microarrays de DNA), los resultados no siempre reflejan el
grado real de expresión de las proteínas. El estudio directo de estas últimas
produce datos mucho más fiables desde el punto de vista biomédico; sin embargo
su análisis a escala global es considerablemente más complejo y presenta
muchas dificultades tecnológicas.
Las estrategias más recientes extraen las proteínas de las células o tejidos y las
cortan en fragmentos más pequeños, o péptidos, que son analizados por
espectrometría de masas. Los espectros de masas obtenidos son procesados
mediante complejos algoritmos matemáticos que permiten la identificación y
58
Bioinformática
cuantificación de las proteínas presentes en las muestras. Basándose en un
modelo matemático de este proceso, los investigadores del CBMSO han
elaborado un método que permite la identificación de las proteínas de forma
mucho más robusta y eficiente. El método permite la automatización absoluta del
proceso de identificación de proteínas con una tasa máxima de error que puede
ser establecida a priori, obteniéndose así resultados completamente fiables.
En otro trabajo (Molecular &CellularProteomics 6, 1274-1286 (2007)), los
investigadores del mismo grupo han desarrollado un método para detectar
específicamente cambios de expresión en proteínas entre dos muestras
diferentes. El método utiliza un proceso de marcaje isotópico enzimático y un
complejo algoritmo matemático que permite la cuantificación relativa de las
proteínas a partir de los espectros de masas.
Conjuntamente, las dos técnicas permiten la identificación y cuantificación de
miles de proteínas de forma rápida y eficiente y son aplicables al estudio de
cualquier modelo biológico. Estas nuevas técnicas están siendo utilizadas por el
equipo que las ha desarrollado en proyectos de relevancia biomédica tales como
la identificación de nuevos ligandos de las células T del sistema inmune, el estudio
del mecanismo molecular de la angiogénesis (crecimiento de nuevos vasos
sanguíneos en tumores), o el análisis de los mecanismos de protección del
miocardio contra episodios de isquemia.
4. Análisis Comparativo de Proteínas
Significa tomar una proteína compararla con otras proteínas conocidas para ver
fundamentalmente su función.
La proteínas al estudiar su estructura se pueden dividir por Familias esta
clasificación es jerárquica.
Superfamilias, familias y subfamilias
Una superfamilia es un conjunto de proteínas con un origen evolutivo común, un
conjunto de homólogos. Las superfamilias se pueden dividir, más o menos
arbitrariamente, según lo grandes que sean, en familias y subfamilias. Son
conceptos paralelos a los de ortólogos y parálogos: las proteínas de una misma
subfamilia son ortólogas entre sí (también puede haber in-paralogs), mientras que
son parálogas de las de otras subfamilia que pertenezca a la misma superfamilia.
El interés de analizar la organización en familias de las proteínas
El objetivo más frecuente cuando estudiamos una proteína es llegar a conocer su
función y averiguar cómo se las apaña para llevarla a cabo. Como hemos visto,
conocer cuáles son sus homólogos nos puede ayudar, pero también es importante
conocer cuáles pertenecen a su misma familia o subfamilia, de modo que, por
59
Bioinformática
ejemplo, podamos encontrar una correlación entre la conservación de
determinados residuos en la subfamilia y características funcionales específicas
de ésta. O por ejemplo, una correlación entre la organización de dominios y las
distintas funciones.
Gráfico 1. Alineamiento de proteínas de unión a ATP. Algunos residuos están conservados en
todas las familias mientras que otros varían mucho.
Y otros presentan un patrón de conservación dependiente de cada familia.
En la superfamilia hay: chaperones (dnak), proteínas implicadas en la formación
del septo bacteriano (ftsA, mreB), hexokinasas (hxk), actina (act)....
La forma más frecuente de determinas qué familias y subfamilias hay es
construyendo un árbol filogenético. El problema de los árboles es que uno tiene
que buscar los homólogos, alinearlos, construir el árbol... y, además de que esto
puede llevar bastante tiempo, a veces los árboles resultantes no son buenos,
especialmente si hay proteínas demasiado divergentes o si hay dominios no
homólogos en las proteínas que intentamos alinear. Además, si queremos
comparar dos genomas y ver qué funciones tiene uno y cuáles el otro (quizás
intentándolo correlacionarlo con características fenotípicas de los organismos)
debemos conocer las relaciones de ortología. Y esto no podemos hacerlo
60
Bioinformática
manualmente construyendo árboles para tantos genes. Por eso (entre otras
razones) existen numerosas bases de datos y métodos para estudiar la
organización de las familias de proteínas.
Las distintas bases de datos y los distintos métodos afrontan el problema de forma
diferente, persiguiendo diversos objetivos. Unas aproximaciones tratan de
encontrar grupos de ortólogos. Otras aproximaciones, grupos de homólogos, etc.
5. PROSITE, PRINTS, Pfam, InterPro
5.1 PROSITE
PROSITE es una base de datos de familias y dominios de proteínas creada por
Amos Bairoch en 1988.Consiste en entradas que describen dominios, familias y
sitios funcionales así como patrones de aminoácidos. Estos son manualmente
verificados por un equipo del Instituto Suizo de Bioinformática e integrado con la
base de datos de Swiss-Prot.
Sus usos incluyen la identificación de posibles funciones de las proteínas
recientemente descubiertas y el análisis de aquellas ya conocidas pero con
actividades previamente desconocidas. PROSITE ofrece herramientas para el
análisis de secuencias de proteínas y detección de motivos de proteínas; es parte
de los servidores de análisis de proteómica de ExPASy.
La base de datos ProRule se basa en las descripciones de dominio de PROSITE.
Esta proporciona información adicional acerca de funcionalidades o de
aminoácidos estructuralmente críticos. Las reglas contienen información sobre los
residuos biológicamente significativos, como sitios activos, sitios de unión a
sustrato o cofactores, modificaciones postraduccionales o enlaces disulfuro, para
ayudar a determinar la función. Estas pueden automáticamente generar
anotaciones basados en los motivos de PROSITE.
En PROSITE existe un patrón para describir la superfamilia de las proteínas que
unen ATP/GTP, que es enorme. En Pfam, sin embargo, existen diversos dominios
para las distintas familias que unen ATP/GTP: la familia ras, la familia de factores
de elongación de la traducción, etc.
Veamos cómo funciona Prosite:
Cogeremos una secuencia de una proteína prueba en este caso será de Miosina
de Arabidopsisthaliana. Entonces lo primero que haremos es seleccionarla si ya la
hemos buscado, en nuestro caso la tomaremos de la plataforma moodle:
61
Bioinformática
Gráfico 1.Selección y copia de la secuencia de la proteína prueba (Miosina de
Arabidopsisthaliana).
Gráfico 2.Copia de la secuencia de la proteína prueba (Miosina de Arabidopsisthaliana).
62
Bioinformática
Gráfico 3. Espera de resultados en PROSITE.
Gráfico 4. Resultados en PROSITE.
5.2 PRINTS
Es una colección de las llamadas "FingerPrints ": proporciona tanto un recurso de
anotación detallada de las familias de proteínas , y una herramienta de diagnóstico
para recién determinar las secuencias. Una huella digital es un grupo de
conservación motivos tomados de un alineamiento de secuencias múltiples - en
conjunto, los motivos forman una firma característica de la familia de proteínas
alineadas. Los mismos motivos que no son necesariamente contiguos en la
63
Bioinformática
secuencia, pero pueden agruparse en un espacio 3D para definir los sitios de
unión molecular o las superficies de interacción. La fuerza especial de diagnóstico
de las huellas digitales reside en su capacidad para distinguir las diferencias de
secuencia en los niveles clan, superfamilia, familia y subfamilia. Esto permite de
grano fino diagnóstico funcional de las secuencias sin caracterizar, lo que permite,
por ejemplo, la discriminación entre los miembros de la familia sobre la base de los
ligandos que se unen o las proteínas con las que interactúan, y oligomerización
destacando el potencial o los sitios alostéricos.
Veamos cómo funciona PRINTS:
Cogeremos la misma secuencia de la proteína prueba (Miosina de
Arabidopsisthaliana). Lo primero que haremos es seleccionarla si ya la hemos
buscado, en nuestro caso la tomaremos de la plataforma moodle:
Gráfico 5.Selección y copia de la secuencia de la proteína prueba (Miosina de
Arabidopsisthaliana) .
64
Bioinformática
Gráfico 6. Interfaz PRINTS .
Gráfico 7. Insertar secuencia en PRINTS .
65
Bioinformática
Gráfico 8. Resultado de PRINTS.
Gráfico 9. Resultado de PRINTS.
66
Bioinformática
Gráfico 10. Gráfica que genera PRINTS.
5.3 Pfam
La base de datos Pfam es una de las más importantes colecciones de información
en el mundo para la clasificación de las proteínas. La base de datos clasifica el 75
por ciento de proteínas conocidas para formar una biblioteca de familias de
proteínas - una "tabla periódica" de la biología. El recurso de acceso abierto se
estableció en el Instituto Wellcome Trust Sanger en 1998. Su visión es ofrecer una
herramienta que permite a los biólogos experimentales, computacionales y la
evolución de clasificar las secuencias de proteínas y responder a preguntas sobre
lo que hacen y cómo han evolucionado. El proyecto Pfam es dirigido por el Dr.
Alex Bateman en el Instituto Sanger.
Para cada familia en Pfam se puede:
•Ver alineamientos múltiples
•Revisar las arquitecturas y organización de los dominios proteicos
•Examinar la distribución de especies
•Seguir enlaces a otras bases de datos
67
Bioinformática
•Ver estructuras proteicas conocidas
Nótese que una única proteína puede pertenecer a varias familias Pfam.
Pfam-A es la porción de la base de datos manualmente gestionada, y contiene
alrededor de 9.000 entradas. Por cada una de ellas se almacena un alineamiento
múltiple de secuencias de proteínas y un modelo oculto de Márkov. Estos modelos
ocultos de Márkov pueden usarse para buscar en bases de datos de secuencias
con el paquete HMMER. Puestos que estas entradas en Pfam-A no cubren todas
las proteínas conocidas, se proporciona un suplemento generado
automáticamente denominado Pfam-B. Pfam-B contiene un buen número de
familias pequeñas derivadas de la base de datos PRODOM. Aunque de menor
calidad, las familias Pfam-B pueden resultar útiles cuando no se encuentran
familias Pfam-A.
La base de datos iPfam se construye sobre las descripciones de dominios de
Pfam. Investiga si diferentes proteínas descritas conjuntamente en la base de
datos PDB de estructura de proteínas se encuentran lo suficientemente cercanas
para interactuar potencialmente.
Veamos cómo funciona Pfam:
Cogeremos la misma secuencia de la proteína prueba (Miosina de
Arabidopsisthaliana). Entonces lo primero que haremos es seleccionar la
secuencia de la misma manera que en Prosite y PRINTS:
Gráfico 11.Selección y copia de la secuencia de la proteína prueba (Miosina de Arabidopsisthaliana) .
68
Bioinformática
Gráfico 12. Interfaz Pfam.
Gráfico 13. Insertar secuencia en Pfam.
69
Bioinformática
Gráfico 14. Resultados Pfam.
Gráfico 15. Resultados gráficos Pfam.
70
Bioinformática
5.4 InterPro
InterPro es una base de datos de familias, dominios y sitios funcionales de
proteínas en donde las características identificables encontradas en proteínas
conocidas pueden ser aplicadas a nuevas secuencias de proteínas.
Fue creada en 1999 tras la formación del InterProConsortium entre el grupo de
Swiss-Prot en el Instituto Europeo de Bioinformática y el Instituto Suizo de
Bioinformática y los miembros fundadores de las bases de datos Pfam, PRINTS,
PROSITE y ProDom. Actualmente integra información de las bases de datos
PROSITE, Pfam, PRINTS, ProDom, SMART, TIGRFAMs, PIRSF, SUPERFAMILY,
GENE3D y PANTHER.
La base de datos está disponible para búsquedas por texto y basadas en
secuencia a través de un servicio web, y para descargas por FTP anónimo.
Incluye varios formatos de salida como tablas de texto, documentos XML y
gráficos para facilitar el análisis de sus resultados. Al igual que las otras bases de
datos del Instituto Europeo de Bioinformática, se encuentra en dominio público.
Veamos cómo funciona InterPro:
Cogeremos la misma secuencia de la proteína prueba (Miosina de
Arabidopsisthaliana). Entonces lo primero que haremos es seleccionar la
secuencia de la misma manera que en Prosite, PRINTS y Pfam:
Gráfico 16.Selección y copia de la secuencia de la proteína prueba (Miosina de
Arabidopsisthaliana) .
71
Bioinformática
Gráfico 17. Interfaz InterPro.
Gráfico 18. Insertar secuencia en InterPro.
72
Bioinformática
Gráfico 19. Espera de resultados en InterPro.
Gráfico 20. Resultados de InterPro.
73
Bioinformática
CAPITULO V BASES DE DATOS
1. Introducción
El término base de datos fue acuñado por primera vez en 1963, en un simposio
celebrado en California.
De forma sencilla podemos indicar que una base de datos no es más que un
conjunto de información relacionada que se encuentra agrupada o estructurada.
El archivo por sí mismo, no constituye una base de datos, sino más bien la forma
en que está organizada la información es la que da origen a la base de datos. Las
bases de datos manuales, pueden ser difíciles de gestionar y modificar. Por
ejemplo, en una guía de teléfonos no es posible encontrar el número de un
individuo si no sabemos su apellido, aunque conozcamos su domicilio.
Del mismo modo, en un archivo de pacientes en el que la información esté
desordenada por el nombre de los mismos, será una tarea bastante engorrosa
encontrar todos los pacientes que viven en una zona determinada. Los problemas
expuestos anteriormente se pueden resolver creando una base de datos
informatizada.
Desde el punto de vista informático, una base de datos es un sistema formado por
un conjunto de datos almacenados en discos que permiten el acceso directo a
ellos y un conjunto de programas que manipulan ese conjunto de datos.
Desde el punto de vista más formal, podríamos definir una base de datos como un
conjunto de datos estructurados, fiables y homogéneos, organizados
independientemente en máquina, accesibles a tiempo real , compartibles por
usuarios concurrentes que tienen necesidades de información diferente y no
predecibles en el tiempo .
La idea general es que estamos tratando con una colección de datos que cumplen
las siguientes propiedades:
•Están estructurados independientemente de las aplicaciones y del soporte de
almacenamiento que los contiene.
•Presentan la menor redundancia posible.
•Son compartidos por varios usuarios y/o aplicaciones.
74
Bioinformática
Gráfico 1. Fichero Excel.
2. Tipos de Base de Datos
Al igual que cuando se habla, p.ej., de coches no existe un único modelo, ni una
sola marca, ni siquiera una sola tecnología sobre su funcionamiento, cuando se
trabaja con bases de datos ocurre una cosa parecida: no existe una sola marca,
sino varias, y además cada marca puede tener diferentes productos cada uno de
ellos apropiado a un tipo de necesidades.
Sin embargo, la división que vamos a hacer aquí de las bases de datos será en
función de la tecnología empleada en su funcionamiento. Hablando de coches
tenemos los tradicionales de motor a gasolina, los de gasóleo, los turbo diesel, los
que funcionaban con gasógeno, y mucho menos frecuentes los coches solares o
incluso los de propulsión a chorro; pues bien, hablando de bases de datos
tenemos que las más utilizadas son la bases de datos relacionales, las más
antiguas son las jerárquicas y en red, y las más avanzadas son las orientadas a
objetos, y las declarativas. Estas se diferencian como hemos dicho, en la forma de
trabajar con los datos y en la concepción o mentalidad que el usuario debe
adoptar para interactuar con el sistema.
2.1 Modelo jerárquico.
El sistema jerárquico más comúnmente conocido es el sistema IMS de IBM. Esta
base de datos tiene como objetivo establecer una jerarquía de fichas, de manera
que cada ficha puede contener a su vez listas de otras fichas, y así
sucesivamente. P.ej., una ficha de clientes puede contener una lista de fichas de
facturas, cada una de las cuales puede contener a su vez una lista de fichas de
líneas de detalle que describen los servicios facturados.
75
Bioinformática
Una base de datos jerárquica está compuesta por una secuencia de bases de
datos físicas, de manera que cada base de datos física se compone de todas las
ocurrencias de un tipo de registro o ficha determinada.
Una ocurrencia de registro es una jerarquía de ocurrencias de segmento.
Cada ocurrencia de segmento está formada por un conjunto de ocurrencias o
instancias de los campos que componen el segmento.
P.ej., en la figura siguiente tenemos una ocurrencia del tipo de registro Curso, de
manera que como cabeza principal tenemos una instancia del segmento curso, de
la cual dependen una o varias instancias de los segmentos Requisito y Oferta; a
su vez, de Oferta dependen otros que son Profesor y Estudiante.
Gráfico 2. Ejemplo Modelo Jerárquico.
2.2 Modelo en red.
Podemos considerar al modelo de bases de datos en red como de una potencia
intermedia entre el jerárquico y el relacional que estudiaremos más adelante. Su
estructura es parecida a la jerárquica aunque bastante más compleja, con lo que
se consiguen evitar, al menos en parte, los problemas de aquél.
Los conceptos fundamentales que debe conocer el administrador para definir el
esquema de una base de datos jerárquica, son los siguientes:
- Registro: Viene a ser como cada una de las fichas almacenadas en un fichero
convencional.
- Campos o elementos de datos. Son cada uno de los apartados de que se
compone una ficha.
- Conjunto: Es el concepto que permite relacionar entre sí tipos de registro
distintos.
Podemos imaginar los registros simplemente como fichas de un fichero. Para
ilustrar el concepto de conjunto, supongamos que tenemos un tipo de registro de
clientes, y un tipo de registro de vuelos de avión, y supongamos que queremos
asociar ambas informaciones, de manera que para cada vuelo queremos saber
76
Bioinformática
cuáles son los pasajeros que viajan en él. La forma de hacerlo es a través de un
conjunto. Un conjunto relaciona dos tipos de registro. Uno de ellos es el registro
propietario del conjunto, y el otro es el miembro.
Gráfico 3. Modelo en Red.
2.3 Modelos Avanzados
Las bases de datos relacionales han sido y siguen siendo ampliamente utilizadas
para una extensa gama de aplicaciones. Sin embargo, el aumento de potencia de
los ordenadores personales, ha hecho aparecer nuevas aplicaciones potentes que
requieren la utilización de datos complejamente relacionados o con necesidades
de consultas muy particulares, como puedan ser p.ej., los sistemas de información
geográficos, el diseño de circuitos electrónicos por ordenador, etc.
2.4 Modelo orientado a objetos.
Actualmente, la creación de programas más grandes y complejos, ha hecho
avanzar los métodos de programación hacia nuevas formas que permiten el
trabajo en equipo de una forma más eficaz y en la que se disminuyen los
problemas de coordinación. Uno de estos métodos consiste en la programación
orientada a objetos (POO), que trata los problemas desde un punto de vista
realista, y modelando cada uno de ellos como si se tratase de un conjunto de
elementos u objetos que interrelacionan entre sí para solucionar el problema.
Para entender mejor esta filosofía, podemos pensar en ella como en el
funcionamiento de un reloj de cuerda. Un reloj de cuerda posee numerosos
elementos que interactúan entre sí para obtener como resultado final una
77
Bioinformática
determinada posición de las manecillas, que son interpretadas por una persona
como la hora actual. Cada uno de estos objetos es un elemento. Cuando un
engranaje, por ejemplo, gira, no lo hace por capricho, sino para obtener como
resultado el movimiento de otro engranaje, de una cremallera, o de la propia
manecilla. De esta forma, cuando el usuario da cuerda a la maquinaria, lo que está
haciendo realmente es modificar el estado de un objeto del reloj, normalmente la
espiral de la cuerda cuya energía potencial mueve la corona haciendo que un
oscilador avance el segundero. A su vez el movimiento del segundero hace
avanzar el del minutero, que hace avanzar el de la hora. Si el reloj es de cuco,
cada hora se activará la portezuela del cuco que saldrá un número determinado de
veces según la hora. De esta manera, una modificación del estado de un objeto
por parte de un usuario, desencadena una serie de acciones cuyo objetivo final es
solucionar un problema al usuario: darle a conocer la hora exacta. Así, la
programación orientada a objetos pretende ser una simulación de los procesos de
la realidad.
De este ejemplo podemos sacar varios conceptos útiles:
- Clase. Cuando hay varios objetos semejantes, pueden agruparse en una clase.
De hecho, todo objeto debe pertenecer a una clase, que define sus características
generales.. P.ej., nuestro reloj posee varios engranajes. Serán diferentes, puesto
que cada uno de ellos posee un diámetro y un número de dientes distinto, además
de poder ser o no helicoidal. Pero al fin y al cabo todos son engranajes. De esta
manera cada engranaje pertenece a la misma clase, a pesar de tener unas
características particulares que lo diferencian de los demás.
- Estado. Son las características propias de cada objeto. Siguiendo con el caso de
los engranajes, su estado puede ser el número de dientes, el tamaño, etc. El
estado se utiliza especialmente para guardar la situación del objeto que varía con
el tiempo. En nuestro caso almacenaríamos la situación en un espacio
tridimensional, y la posición o postura en que se encuentra.
- Encapsulación. Cada objeto es consciente de sus propias características. El
engranaje «sabe» que si recibe una fuerza en uno de sus dientes, debe girar, y lo
sabe porque obedece a unas leyes físicas.
En el caso de un programa, es el programador el que debe indicarle al objeto
cómo comportarse ante cada estímulo del exterior o de otro objeto. Los demás
objetos simplemente se limitan a indicarle al engranaje las fuerzas que le hacen, y
ya sabrá el engranaje para dónde se ha de mover, y a qué otros objetos modificar.
- Mensaje. Es cada uno de los estímulos que se envían a un objeto.
- Herencia. Para facilitar la programación, se puede establecer toda una jerarquía
de tipos o clases.
78
Bioinformática
P.ej., podemos declarar una clase Engranaje con las características básicas de
los engranajes. De ella podemos derivar otras tres: Eng. fijo, Cremallera, y Eng.
helicoidal. Cada una de estas clases especializa la clase general, con la ventaja
de que las características comunes a los tres tipos de engranajes sólo hay que
decirlas una vez.
Gráfico 4. Modelo Orientado a Objetos.
2.5 Modelo declarativo.
El enfoque de las bases de datos declarativas es sumamente intuitivo para el
usuario, y le permite abstraerse de los problemas de programación inherentes a
otros métodos. Este modelo suele usarse para bases de conocimiento, que no son
más que bases de datos con mecanismos de consulta en los que el trabajo de
extracción de información a partir de los datos recae en realidad sobre el
ordenador, en lugar de sobre el usuario. Estos mecanismos de consulta exigen
que la información se halle distribuida de manera que haga eficiente las
búsquedas de los datos, ya que normalmente las
consultas de este tipo requieren acceder una y otra vez a los datos en busca de
patrones que se adecúen a las características de los datos que ha solicitado el
usuario. Sin embargo, no hablaremos de la organización de los datos, sino sólo de
las formas de las consultas.
Antes de comenzar, aclararemos que, cuando se vea el lenguaje SQL sobre las
bases de datos relacionales, diremos que este es un lenguaje no procedural, en el
sentido de que el usuario especifica qué es lo que quiere, pero no cómo. No se
debe confundir este aspecto del SQL con un lenguaje puramente declarativo, ya
que éstos, amplían la filosofía de la base de datos, de manera que el usuario no
es consciente de los métodos de búsqueda que se realizan internamente, y la
forma en que se manejan los datos también es muy distinta; además, en el caso
de las funcionales, es necesario complicar soberanamente los métodos utilizados
79
Bioinformática
si se quiere mantener la pureza de la metodología funcional. Además, la teoría
que subyace en ambos modelos difiere radicalmente.
Gráfico 5. Modelo Declarativo.
3. Descomposición y Normalización
Siempre que un analista de sistemas de base de datos arma una base de datos,
queda a su cargo descomponer dicha base en grupos y segmentos de registros.
Este proceso es la descomposición; el mismo es necesario independientemente
de la arquitectura de la base de datos - relacional, red o jerárquica-. Sin embargo,
para la base de datos relacional, la acción correspondiente puede dividirse y
expresarse en términos formales y se denominanormalización a la misma.
La normalización convierte una relación en varias sub-relaciones, cada una de las
cuales obedece a reglas. Estas reglas se describen en términos de dependencia.
Una vez que hayamos examinado las distintas formas de dependencia,
encontraremos procedimientos a aplicar a las relaciones de modo tal que las
mismas puedan descomponerse de acuerdo a la dependencia que prevalece. Esto
no llevará indefectiblemente a formar varias subrelaciones a partir de la única
relación preexistente.
3.1 Normalización
¿Qué es normalización?
Normalización es un proceso que clasifica relaciones, objetos, formas de relación
y demás elementos en grupos, en base a las características que cada uno posee.
Si se identifican ciertas reglas, se aplica un categoría; si se definen otras reglas,
se aplicará otra categoría.
80
Bioinformática
Estamos interesados en particular en la clasificación de las relaciones BDR. La
forma de efectuar esto es a través de los tipos de dependencias que podemos
determinar dentro de la relación. Cuando las reglas de clasificación sean más y
más restrictivas, diremos que la relación está en una forma normal más elevada.
La relación que está en la forma normal más elevada posible es que mejor se
adapta a nuestras necesidades debido a que optimiza las condiciones que son de
importancia para nosotros:
• La cantidad de espacio requerido para almacenar los datos es la menor posible;
• La facilidad para actualizar la relación es la mayor posible;
• La explicación de la base de datos es la más sencilla posible.
Gráfico 6. Normalización.
4. Biología de Visualización de Datos
Es una rama de la bioinformática relacionada con la aplicación de gráficos por
ordenador, visualización científica, y la visualización de la información a las
diferentes áreas de las ciencias de la vida. Esto incluye la visualización de
secuencias de genomas, las alineaciones, las filogenias, estructuras
macromoleculares, la biología de sistemas, la microscopía, y los datos de
resonancia magnética. Herramientas de software utilizadas para la visualización
de los datos biológicos van desde simples programas independientes a los
sistemas complejos e integrados.
Hoy en día estamos experimentando un rápido crecimiento en el volumen y la
diversidad de los datos biológicos, presentando un desafío cada vez mayor para
los biólogos. Un paso clave en la comprensión y el aprendizaje a partir de estos
datos es la visualización. Por lo tanto, ha habido un aumento correspondiente en
el número y la diversidad de los sistemas de visualización de datos biológicos.
81
Bioinformática
Una nueva tendencia es la difuminación de las fronteras entre la visualización de
las estructuras 3D a resolución atómica, la visualización de los complejos más
grandes de crio-microscopía electrónica, y la visualización de la ubicación de las
proteínas y complejos dentro de las células y los tejidos conjunto.
Una segunda tendencia emergente es un aumento en la disponibilidad y la
importancia de la resolución temporal de datos de la biología de sistemas, la
microscopía electrónica y de imágenes de células y tejidos. Por el contrario, la
visualización de trayectorias ha sido durante mucho tiempo una parte importante
de la dinámica molecular.
Gráfico 7. Visualización de Datos.
5. Base de Datos Biológicas
Casi todos los desarrollos que se hacen a día de hoy en bioinformática de una u
otra manera hacen uso de datos almacenados en bases de datos “biológicas” o
“bioinformáticas”. Para aquellos de vosotros que tiene formación en ciencias de la
computación, cuando escucháis base de datos empezáis a pensar en SQL, el
modelo relacional, etc… Para la gente que las tiene que usar diariamente, les
vendrá a la mente los gestores de bases de datos y los distintos productos que
hay disponibles, tanto de pago como de código abierto, que permiten interrogar de
diversas maneras (usando el lenguaje de consultas SQL) la información
almacenada en una instancia del gestor. En bioinformática, el concepto de “base
de datos biológica” no alude tanto a la tecnología usada como al contenido
almacenado.
Una base de datos biológica es un almacén de datos para información derivada de
los datos obtenidos experimentos biológicos, ni más ni menos. Y una base de
datos bioinformática es un almacén de datos para información derivada de datos
82
Bioinformática
biológicos y de programas bioinformáticos. Si bajamos al nivel más técnico, las
bases de datos biológicas y bioinformáticas están disponibles generalmente como
un conjunto de ficheros planos, cuyo tamaño suele ser enorme. Para que os
hagáis una idea, os incluyo un gráfico público de crecimiento de la base de datos
GenBank desde 1982 hasta 2008
Gráfico 8. GenBank (Base de Datos Biológica).
Lo más importante de todo: casi todas estas bases de datos son de libre
disposición (cualquiera puede descargarlas). Ello es posible porque la información
almacenada en la mayor parte de estas bases de datos es de dominio público y
casi siempre estática, al venir de investigación científica ya terminada financiada
con fondos públicos. Estos ficheros están casi siempre en formato textual, y la
razón viene de los orígenes de la bioinformática: poder entender, ver y manipular
sus contenidos sin depender de herramientas especializadas. Los contenidos de
estos ficheros, al ser textuales, son muy comprimibles, y por eso suelen estar
comprimidos con gzip, bzip2, xz, etc…
83
Bioinformática
CAPÍTULO VI ESTRUCTURAS BIOLÓGICAS
1. Estructura ADN
La información con la que se fabrican las moléculas
necesarias para el mantenimiento de las funciones
celulares está guardada en una molécula de ácido
nucleico llamada ácido desoxirribonucleico (ADN). En este
apartado describiremos su estructura y explicaremos
cómo se almacena dentro del núcleo celular.
En la década de los cincuenta, el campo de la biología fue
convulsionado por el desarrollo del modelo de la
estructura del ADN. James Watson y Francis Crick en
1953 demostraron que consiste en una doble hélice
formada
por
dos
cadenas.
El ADN es un ácido nucleico formado por nucleótidos.
Cada nucleótido consta de tres elementos:
* Un azúcar: desoxirribosa en
este caso (en el caso de ARN
o ácido ribonucleico, el azúcar
que lo forma es una ribosa)
* Un grupo fosfato
* Una base nitrogenada:
adenina (A), guanina (G),
citosina (C) y timina (T). Estas
forman puentes de hidrógeno
entre ellas, respetando una
estricta complementariedad: A sólo se aparea con T (y
viceversa) mediante dos puentes de hidrógeno, y G sólo con
C (y viceversa) mediante 3 puentes de hidrógeno.
Si la molécula tiene sólo el azúcar unido a la base
nitrogenada entonces se denomina nucleósido.
Gráfico 2.Estructura del ADN.
El ácido desoxirribonucleico es
un polímero de dos cadenas anti
paralelas (orientación 5' 3' y 3'
5'). Cada cadena está compuesta
por unidades de un azúcar
(desoxirribosa), un fosfato y una
base nitrogenada unidas entre sí
por enlaces fosfodiéster. Las
bases presentes en el ADN son:
adenina (A), timina (T), citosina
(C) y guanina (G). Para recordar
cómo aparean entre sí las bases
podemos pensar en las iniciales
de dos grandes personajes del
tango: Aníbal Troilo (adenina es
la base complementaria de
timina) y Carlos Gardel (citosina
es la complementaria a guanina).
84
Bioinformática
El ADN tiene tres estructuras:
1.1 Estructura Primaria:
Se trata de la secuencia de desoxirribonucleótidos de una de las cadenas. La
información genética está contenida en el orden exacto de los nucleótidos.
Gráfico 3.Estructura Primaria (ATCCAT).
1.2 Estructura Secundaria:
Es una estructura en doble hélice. Permite explicar el almacenamiento de la
información genética y el mecanismo de duplicación del ADN.
Fue postulada por Watson y Crick, basándose en:
- La difracción de rayos X que habían realizado Franklin y
Wilkins
- La equivalencia de bases de Chargaff,que dice que la suma
de adeninas más guaninas es igual a la suma de timinas más
citosinas.
Gráfico 4.Estructura secundaria del ADN.
85
Bioinformática
1.3 Estructura Terciaria:
Se refiere a como se almacena el ADN en un volumen
reducido. Varía según se trate de organismos
procariontes o eucariontes:
a) En procariontes se pliega como una super-hélice en
forma, generalmente, circular y asociada a una
pequeña cantidad de proteínas. Lo mismo ocurre en la
mitocondrias y en los plastos.
b) En eucariontes el empaquetamiento ha de ser más
complejo y compacto y para esto necesita la presencia
de proteínas, como son las histonas y otras de
naturaleza no histona (en los espermatozoides las
proteínas son las protaminas).
2. Estructura ARN
El ARN es un polímero de ribonucleótidosde uracilo, citosina,
guanina y adenina, organizado en una banda simple, como la
mitad de una escalera con la misma estructura del ADN: los
laterales están formados por los grupos fosfatos y azúcares
de los cuales parte una base nitrogenada.
Para traducir de un idioma a otro se necesitan un diccionario
y unas reglas gramaticales; igualmente, para traducir el ADN
a las proteínas se necesita una clave o código genético de
equivalencia, que se denomina Código Genético.
Veamos el siguiente cuadro comparativo que nos podrá aclarar las dudas en
cuanto a la diferencias con el ADN:
86
Bioinformática
Gráfico 6.Cuadro Comparativo ADN / ARN.
2.1 Estructura Primaria del ARN
Al igual que el ADN, se refiere a la secuencia de las
bases nitrogenadas que constituyen sus
nucleótidos
2.2 Estructura
del ARN
Secundaria
Alguna vez, en una misma
cadena, existen regiones con
secuencias complementarias
capaces de aparearse.
87
Bioinformática
2.3 Estructura Terciaria del ARN
Es un plegamiento, complicado, sobre la estructura
secundaria.
3. Estructura de Proteínas
La palabra proteína proviene del griego protop (lo
primero, lo principal, lo más importante). Las
proteínas son las responsables de la formación y
reparación de los tejidos, interviniendo en el desarrollo corporal e intelectual. Las
proteínas son biopolímeros (macromoléculas orgánicas), de elevado peso
molecular, constituidas básicamente por carbono (C), hidrógeno (H), oxígeno (O) y
nitrógeno (N); aunque pueden contener también azufre (S) y fósforo (P) y, en
menor proporción, hierro (Fe), cobre (Cu), magnesio (Mg), yodo (Y). Estos
elementos químicos se agrupan para formar unidades estructurales (monómeros)
llamados aminoácidos (aa), a los cuales se consideran como los "ladrillos de los
edificios moleculares proteicos". Estos edificios macromoleculares se construyen y
desmoronan con gran facilidad dentro de las células, y a ello debe precisamente la
materia viva su capacidad de crecimiento, reparación y regulación. La unión de un
bajo número de aminoácidos da lugar a un péptido; si el número de aa que forma
la molécula no es mayor de 10, se denomina oligopéptido; si es superior a 10, se
llama poli péptido y si el número es superior a 50 aa, se habla ya de proteína.
Se clasifican, de forma general, en Holo proteínas y Heteroproteínas según estén
formadas, respectivamente, sólo por aminoácidos o bien por aminoácidos más
otras moléculas o elementos adicionales no aminoacídicos. La organización de
una
proteína
viene
definida
por
cuatro
niveles
estructurales
denominados: estructura primaria, estructura secundaria, estructura
terciaria y estructura cuaternaria. Cada una de estas estructuras informa de la
disposición de la anterior en el espacio.
Estructura Primaria
Una cadena polipeptídica consiste
en
una
cadena
lineal
de
aminoácidos unidos por enlaces
peptídicos. El primer puesto de la
cadena corresponde al grupo
amino terminal, y la estructura
primaria es la secuencia en la que
están
situados
todos
los
constituyentes hasta llegar al
carboxilo terminal. Esta secuencia
88
Bioinformática
está codificada genéticamente.
Existen cadenas poli peptídicas de cualquier número de aminoácidos, sin que
exista una solución de continuidad entre péptidos y proteínas. Por convención, se
suele considerar proteína aquellos poli péptidos con un peso molecular del orden
de 10.000 o más.
Estructura Secundaria
La estructura secundaria es la forma en la que la cadena poli peptídica se pliega
en el espacio. En una proteína, cada tramo de cadena polipeptídica tiene distinta
estructura secundaria. Existen varias formas definidas de estructura secundaria,
las más importantes de las cuales son las llamadas hélice a y hoja plegada b. Las
estructuras secundarias definidas están mantenidas por puentes de hidrógeno
formados exclusivamente entre los grupos amino y carboxilo que constituyen el
esqueleto de la cadena polipeptídica. Consecuentemente, los parámetros
estructurales (distancias, ángulos) serán iguales, independientemente de la
proteína y de los aminoácidos que formen la estructura.
Estructura Terciaria
La estructura terciaria de la proteína es
la forma en la que se organizan en el
espacio los diferentes tramos de la
cadena polipeptídica, que pueden tener
una estructura secundaria definida,
como las hélices u hojas o no tenerla.
La estructura terciaria está mantenida
por enlaces iónicos y de puentes de
89
Bioinformática
hidrógeno entre las cadenas laterales de los aminoácidos, enlaces hidrofóbicos y
eventualmente puentes disulfuro.
Estructura Cuaternaria
La estructura cuaternaria de una proteína es la forma en la que se asocian las
distintas subunidades constituyentes, si es que existen. Es decir, para poder
hablar de estructura cuaternaria es necesario que la proteína esté formada por
varias subunidades. Como ejemplos de proteínas con estructura cuaternaria se
puede considerar la hemoglobina, las inmunoglobulinas o la miosina.
Funciones y Ejemplos de las Proteínas
Las proteínas determinan la forma y la estructura de las células y dirigen casi
todos los procesos vitales. Las funciones de las proteínas son específicas de cada
90
Bioinformática
una de ellas y permiten a las células mantener su integridad, defenderse de
agentes externos, reparar daños, controlar y regular funciones.
Todas las proteínas realizan su función de la misma manera: por unión selectiva a
moléculas. Las proteínas estructurales se agregan a otras moléculas de la misma
proteína para originar una estructura mayor. Sin embargo, otras proteínas se unen
a moléculas distintas: los anticuerpos, a los antígenos específicos; la hemoglobina,
al oxígeno; las enzimas, a sus sustratos; los reguladores de la expresión genética,
al ADN; las hormonas, a sus receptores específicos.
4. Protein Data Bank
El Protein Data Bank es un repositorio de descripciones experimentales de las
estructuras moleculares de proteínas y ácidos nucleicos resueltos hasta el
momento. Cada descripción es un archivo de texto que contiene las coordenadas
atómicas de la molécula en cuestión en un formato que se llama PDB.
Crecimiento
Cuando se fundó, el PDB contenía tan sólo 7 estructuras de proteínas. Desde
entonces ha experimentado un crecimiento aproximadamente exponencial en el
número de estructuras y nada parece indicar que el ritmo vaya a decaer.
El ritmo de crecimiento del PDB ha sido analizado en profundidad en diversos
estudios.
Veamos en las siguientes imágenes como podemos navegar y observar las
descripciones:
Interfaz: podremos navegar dependiendo el organismo que queramos examinar,
así que seleccionamos entre las diferentes opciones brindadas.
91
Bioinformática
Seleccionamos Homosapiens donde
organismos se encuentran para este:
obtenemos
resultados
de
cuantos
Seleccionamos una de las figuras de las estructuras que encontramos en la
búsqueda más debajo de esta manera podemos analizar sus características.
92
Bioinformática
Veamos más grande la estructura:
5. Folding de Proteínas
Las proteínas para llevar a cabo sus
funciones deben alcanzar una forma
determinada, conocida como “Pliegue”,
en otras palabras, antes de realizar su
trabajo tienen que ensamblarse así
mismas. Este proceso de auto
ensamblaje se le llama “Plagamiento”.
Las proteínas plegadas incorrectamente
por lo general carecen de actividad biológica, pero en algunos casos pueden estar
asociadas con enfermedades.
Para esto las células tienen sistemas que reducen las posibilidades de que las
proteínas estén mal plegadas, además cualquier proteína de este tipo son
degradados por grupos celulares especializados del sistema de eliminación.
Por lo general, todas las moléculas de proteína de cualquier especie adoptan una
conformación única, llamada Cadena Nativa. Para la gran mayoría de las
proteínas, el estado natural es la forma más estable plegada de la molécula.
Las células requieren un mecanismo rápido y eficiente, para el plegamiento de
proteínas en su forma correcta, de lo contrario, las células perderían mucha
energía en la síntesis de proteínas funcionales y en la degradación de proteínas
mal plegadas o desplegadas.
93
Bioinformática
5.1 Proceso De Folding
La explicación de la eficiencia de la célula en la promoción de plegamiento de las
proteínas probablemente se encuentra en los chaperones, la cual es una clase de
proteína que se encuentra en todos los organismos desde las bacterias hasta en
los seres humanos. Los chaperones están localizados en cada compartimiento
celular, unidos a una gran variedad de proteínas, y la función de la chaperona en
general es el mecanismo de plegamiento de las proteínas en las células.
Existen dos tipos de Chaperonas:
Chaperonas Moleculares: Se unen para estabilizar las proteínas desplegadas o
parcialmente doblados, impidiendo así que estas proteínas se agreguen y se
degraden.
Chaperoninas: Facilitan directamente el plegamiento de las proteínas.
5.1.1 Chaperonas Moleculares
De particular importancia son las
chaperonas presentes en todos los
tipos de células y en los
compartimentos celulares. Algunas
chaperonas interactúan con las
cadenas recién formadas que
emergen de los ribosomas. En tanto
que otras guían en las etapas
posteriores
del
plegado.
Las
chaperonas
moleculares
frecuentemente trabajan en conjunto
asegurando que los diferentes estadios en el plegado de cada sistema sean
completamente eficientes. Muchos de los detalles del funcionamiento de las
chaperonas moleculares han sido determinados en estudios realizados in Vitro.
Cada día es más evidente que las funciones celulares, altamente complejas y
relacionadas entre sí, son llevadas a cabo por un gran número de proteínas
actuando en forma de complejos proteicos, bien transitorios o estables. Hasta
hace poco se pensaba que el poli péptido naciente adquiría espontáneamente su
configuración funcional al ser sintetizado en el ribosoma. Pero hoy se sabe que
tanto el correcto plegamiento de las proteínas como su adecuado ensamblaje en
complejos requieren el concurso de unas proteínas especializadas, conocidas
como chaperonas, debido a que su papel es vigilar y eventualmente corregir el
plegamiento. Estas proteínas están presentes en todos los seres vivos. Las
chaperonas tales como la trimetilamina N oxidasa (TMAO) tienen un papel activo
en el plegamiento de las proteínas, esta enzima de manera específica permite el
plegamiento correcto de la PrPc (Proteínaprionica celular), la carencia de dicha
chaperona propicia la formación de la PrPsc ( Proteína prionica scrapie ) al
94
Bioinformática
permitir la formación de bandas beta. El mecanismo por el cual las cadenas poli
peptídicas se pliegan en una específica estructura tridimensional han sido un
misterio hasta hace poco tiempo. La proteína nativa casi siempre corresponde a
una estructura que es termodinámicamente estable bajo condiciones fisiológicas.
Sin embargo el número total de posibles combinaciones de una cadena poli
peptídica es muy grande, una búsqueda sistemática para una estructura en
partícula seria larga y difícil. Es claro que el proceso de plegamiento no involucra
una serie de pasos predeterminados entre partes específicas, pero lleva a cabo
una búsqueda de muchas conformaciones accesibles a la cadena polipeptídica.
Si la energía superficial es la adecuada, únicamente un pequeño número de
todas las posibles combinaciones darán origen a la estructura nativa de una
proteína. Porque la forma final es codificada por la secuencia de aminoácidos y la
selección natural que permite evolucionar y ser capaces de plegarse rápida y
eficientemente.
Una cuestión fundamental acerca de si una proteína se pliega o no correctamente
emerge de la utilización de la energía. El resultado de muchos estudios sugiere
que el mecanismo fundamental del plegamiento de proteínas involucra la
interacción del menor número de residuos para formar un núcleo de plegado
alrededor del cual se condensaran todas las demás estructuras rápidamente, que
implica el menor gasto de energía. Mientras la topología correcta central no se
pliegue el resto de las interacciones no se llevaran a cabo y la proteína no
alcanzara su estructura globular estable; Este mecanismo por lo tanto actúa
también como un proceso de control de calidad.
5.1.2 Chaperoninas
Las chaperoninas utilizan su
estructura para ayudar en el
plegamiento de muchas proteínas
mediante un mecanismo muy
general pero poco eficiente, que se
basa en el aislamiento de la
proteína
a
plegar.
En
los
organismos
eucariotas
esta
arquitectura
ha
generado
la
chaperonina CCT, que pliega
eficientemente un reducido número
de proteínas.
Aunque es conocido desde los trabajos seminales de Anfinsen que las proteínas
almacenan en su propia secuencia aminoacídica la información con la que adquirir
su conformación final, también es cierto que en muchas ocasiones no les es
posible adquirir tal conformación por sí solas, rodeadas como están en la célula
por una concentración tan alta de solutos. Para resolver este problema, la
naturaleza ha diseñado un tipo de proteínas que se encargan de ayudar a todas
las demás a adquirir esa conformación nativa, son las denominadas chaperonas
95
Bioinformática
moleculares. Éstas forman un grupo muy variado en cuanto a su tamaño y
estructura, una gran parte de ellas actúa mediante un mecanismo similar, que
consiste en ofrecer a la proteína desnaturalizada una superficie con la que
interaccionar adecuadamente, librándola de otro tipo de interacciones
contraproducentes.
Uno de los ejemplos más evidentes de este mecanismo es el de las chaperoninas
o proteínas de choque térmico de 60 kDa (Hsp60). Estas chaperonas se
encuentran en todos los organismos, y en realidad son mucho mayores, pues son
grandes oligómeros compuestos por subunidades de esa masa molecular que
forman siempre la misma estructura, un doble anillo dispuesto espalda contra
espalda. La unidad funcional de las chaperoninas es sin embargo el anillo,
compuesto por 7-9 subunidades (dependiendo del tipo de chaperonina) y su
funcionamiento es a grandes rasgos común para todas ellas, con una
conformación en la que la cavidad del anillo está abierta, lista para reconocer la
proteína desnaturalizada y unirse a ella, y otra conformación en la que la cavidad
se cierra y libera la proteína en su interior, donde libre de otras interacciones
puede adquirir su conformación nativa utilizando la información codificada en su
secuencia. El cierre de la cavidad se produce a la vez en todas las subunidades
por la unión e hidrólisis de ATP. Aunque la unidad funcional sea el anillo, la
presencia de dos unidos entre sí se explica porque el funcionamiento de cada
anillo está controlado por el otro, como en un motor de dos cilindros en el que la
explosión en uno de ellos empuja a la compresión en el otro, y viceversa.
Las chaperoninas se clasifican en dos grupos, las de tipo I que se encuentran en
las eubacterias y en organelos endosimbiontes, y las de tipo II que se localizan en
las arqueo bacterias y en el citosol de eucariotas. Las de tipo II son más complejas
que las de tipo I, pero todas ellas funcionan como chaperonas generales, capaces
de plegar casi cualquier proteína desnaturalizada en cualquier conformación,
mediante interacciones hidrófobas entre los residuos de las proteínas
desnaturalizadas y los que se encuentran en la entrada de la cavidad de la
chaperonina.
¿Todas las chaperoninas funcionan, pues, de la misma manera? Todas no,
existen diferencias entre ellas que sugieren que la naturaleza ha utilizado la
arquitectura general de las chaperoninas, que realizan una función muy general
aunque de una manera poco eficiente, para producir CCT, una chaperonina que
hace una labor muy específica y muy eficiente, a veces con la colaboración de
otras chaperonas.
96
Bioinformática
6. Alineamiento de Estructuras
Un alineamiento estructural es un tipo de alineamiento de secuencias basado en la
comparación de la forma. Estos alineamientos intentan establecer equivalencias
entre dos o más estructuras de polímeros basándose en su forma y conformación
tridimensional. El proceso se aplica normalmente a las estructuras terciarias de las
proteínas, pero también puede usarse para largas moléculas de ARN. En
contraste a la simple superposición estructural, donde al menos se conocen
algunos residuos equivalentes de las dos estructuras, el alineamiento estructural
no requiere un conocimiento previo de posiciones equivalentes. Es una valiosa
herramienta para la comparación de proteínas con baja similitud entre sus
secuencias, en donde las relaciones evolutivas entre proteínas no pueden ser
fácilmente detectadas por técnicas estándares de alineamiento de secuencias. El
alineamiento estructural puede usarse, por lo tanto, para sugerir relaciones
evolutivas entre proteínas que comparten una secuencia común muy corta. Sin
embargo, el uso de los resultados
como evidencia de un ancestro
evolutivo común debe realizarse
con cautela dados los posibles
efectos de confusión con la
evolución convergente, según la
cual múltiples secuencias de
aminoácidos
sin
relación
filogenética entre si convergen a
una misma estructura terciaria."
Los alineamientos estructurales
pueden comparar dos o múltiples
secuencias. Puesto que estos
alineamientos
dependen
de
información sobre todas las
conformaciones tridimensionales
de las secuencias problema, el método solo puede ser usado sobre secuencias
donde estas estructuras sean conocidas. Estas se encuentran normalmente por
cristalografía de rayos X o espectroscopia de resonancia magnética nuclear. Es
posible realizar un alineamiento estructural sobre estructuras producidas mediante
métodos de predicción de estructura. En efecto, la evaluación de tales
predicciones requiere a menudo un alineamiento estructural entre el modelo y la
estructura real conocida para evaluar la calidad del modelo. Los alineamientos
estructurales son especialmente útiles para analizar datos surgidos de los campos
de la genómica estructural y de la proteínica, y pueden usarse como puntos de
comparación para evaluar alineamientos generados por métodos bioinformáticas
basados exclusivamente en secuencias.
El resultado de un alineamiento estructural es una superposición de los conjuntos
de coordenadas atómicas, así como una distancia media cuadrática mínima (o
RMSD, de Root Mean SquareDeviation, o desviación de la media cuadrática) entre
97
Bioinformática
las estructuras básicas de las proteínas superpuestas. La RMSD de estructuras
alineadas indica las divergencias entre ellas. El alineamiento estructural puede
complicarse por la existencia de múltiples dominios proteicos en el interior de una
o más de las estructuras de entrada, ya que cambios en la orientación relativa de
los dominios entre dos estructuras a alinear pueden exagerar la RMSD
artificialmente.
La
información
mínima
producida por un alineamiento
estructural correcto es un
conjunto
de
coordenadas
tridimensionales superpuestas
para cada estructura inicial.
Nótese que uno de los
elementos de entrada puede
estar fijado como referencia y
que, por lo tanto, sus
coordenadas superpuestas no
cambiaran. Las estructuras
encajadas pueden usarse para
calcular valores RMSD mutuos, así como otras medidas de similitud estructural
más sofisticadas como el test de distancia global (GDT, de sus siglas en inglés, y
que es la métrica utilizada en CASP, CriticalAssessment of Techniques for Protein
Structure Prediction). Un alineamiento estructural también implica un alineamiento
de secuencias unidimensional desde el que una secuencia identidad, o el
porcentaje de residuos que son idénticos entre las estructuras de entrada, puede
calcularse como una medida de cuan cercanamente se encuentran ambas
secuencias.
Puesto que las estructuras de las proteínas se componen de aminoácidos cuyas
cadenas laterales están enlazadas por un esqueleto de proteínas comunes, se
puede utilizar un número de los posibles subconjuntos diferentes de átomos que
conforman una macromolécula de proteína para producir un alineamiento
estructural y calcular los correspondientes valores RMSD. Cuando se alinean
estructuras con secuencias muy diferentes, los átomos de la cadena lateral,
generalmente, no se toman en cuenta, ya que sus identidades difieren en muchos
de los residuos alineados. Por esta razón, en los métodos de alineamiento
estructural es común usar por defecto solo los átomos del esqueleto incluidos en
el enlace peptídico. Por simplicidad y eficiencia a menudo solo se consideran las
posiciones del carbono alfa, ya que el enlace peptídico tiene una conformación
plana mínimamente variante. Solo cuando las estructuras a alinear son altamente
similares, e incluso idénticas, es significativo alinear posiciones de átomos de la
cadena lateral, en cuyo caso la RMSD refleja no solo la conformación del
esqueleto de la proteína, sino también los estados de las rotaciones angulares en
las cadenas laterales. Otros criterios de comparación que reducen el ruido e
impulsan las coincidencias incluyen tomar en consideración la estructura
secundaria de las proteínas, los mapas de contactos nativos o patrones de
98
Bioinformática
interacción entre residuos, medidas del empaquetamiento de la cadena lateral, y
medidas del mantenimiento de los enlaces de hidrogeno.
La comparación más
sencilla posible entre
estructuras de proteínas
no intenta alinear las
estructuras de entrada,
sino que necesita un
alineamiento
pre
calculado como input
para determinar cuáles
de los residuos en la
secuencia
deben
considerarse para el
cálculo de la RMSD. La
superposición estructural
se usa comúnmente para comparar conformaciones múltiples de la misma
proteína (en cuyo caso no es necesario el alineamiento ya que la secuencia es la
misma) y para evaluar la calidad de los alineamientos producidos usando solo
información de las secuencias entre dos o más secuencias cuyas estructuras son
conocidas. Este método utiliza tradicionalmente un sencillo algoritmo de ajuste por
mínimos cuadrados, en el que las rotaciones y translaciones óptimas se
encuentran minimizando la suma de los cuadrados de las distancias entre todas
las estructuras de la superposición. Más recientemente, los métodos bayesianos y
de máxima verosimilitud han incrementado enormemente la precisión de las
rotaciones, translaciones y matrices de covarianza estimadas para la
superposición.
99
Bioinformática
CONCLUSIONES

Durante todo el proceso de recopilación de la información para
complementar las notas de clase se conceptualizaron muchos conceptos y
se recordaron otros para el aprovechamiento de la asignatura
bioinformática.

Algunos de los conceptos de la bioquímica aplicada a la bioinformática
dieron más ideas y compresión acerca de las bases de datos que se
pueden crear para el desarrollo y avance en cuanto al conocimiento de la
información de los organismos en general.
100
Bioinformática
BIBLIOGRAFÍA E INFOGRAFÍA
Apuntes de Clase de Bioinformática. Ingeniería Telemática. Docente Marco
Regalia. Universidad Distrital Francisco José de Caldas. 2011.
http://tecnologica.udistrital.edu.co/moodle/course/view.php?id=36
http://www.um.es/molecula/anucl03.htm
http://www.slideshare.net/munevarjuan/protein-folding-2105013
http://www.cienciasaplicadas.buap.mx/convocatoria/memorias_2005/065.pdf
http://folding.stanford.edu/Spanish/Science
http://es.scribd.com/doc/2529983/Plegamiento-de-Proteinas
http://www.sebbm.es/ES/divulgacion-ciencia-para-todos_10/chaperoninasplegamiento-mediante-aislamiento_522
http://es.wikipedia.org/wiki/Alineamiento_estructural
http://www.psicologia2000.com/es/enciclopedia-general-psicologia-on-line-wikiletra-a/21805-alineamiento-estructural.html
http://aportes.educ.ar/biologia/nucleo-teorico/estado-del-arte/el-libro-de-la-vida-eladn/estructura_del_adn.php
http://www.um.es/molecula/anucl02.htm
http://www.xuletas.es/ficha/estructura-del-adn-y-arn/
http://www.profesorenlinea.cl/Ciencias/ProteinasEstruct.htm
http://milksci.unizar.es/bioquimica/temas/aminoacids/estructurprot.html
http://www.aula21.net/Nutriweb/proteinas.htm#10
http://www.slideshare.net/carmen42/presentacin-proteinas
101
Descargar