Análisis del ADN por medio del uso de

Anuncio
INSTITUTO POLITÉCNICO NACIONAL
UNIDAD PROFESIONAL INTERDISCIPLINARIA
EN INGENIERÍA Y TECNOLOGÍAS AVANZADAS.
UPIITA
“Análisis del ADN por medio del uso de lógica difusa”
TRABAJO TERMINAL
Que Para Obtener El Titulo De:
“INGENIERÍA BIÓNICA”
Presenta RIOS MOGUEL
JANNETE
Asesores: Dr. en C. Herón
Molina Lozano M. en C. Claudia Katia
Reyes Quintanar M. en C. Isaac Guzmán
Domínguez
México, D. F.
2006
INSTITUTO POLITÉCNICO NACIONAL
UNIDAD PROFESIONAL INTERDISCIPLINARIA
EN INGENIERÍA Y TECNOLOGÍAS AVANZADAS.
UPIITA
“Análisis del ADN por medio del uso de lógica difusa”
TRABAJO TERMINAL
Que Para Obtener El Titulo De:
“INGENIERÍA BIÓNICA”
Presenta
RIOS MOGUEL JANNETE
Asesores:
Dr. Herón Molina Lozano
M. en C. Claudia Katia Reyes Quintanar
M. en C. Isaac Guzmán Domínguez
Presidente de Jurado
M. en C. Álvaro Anzueto Ríos
Profesor Titular
Ing. Cuauhtémoc Valaguez Velásquez
México, D. F.
2006
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
ÍNDICE
Índice de Figuras ............................................................................................................................................ B
Índice de Tablas ............................................................................................................................................. C
Resumen ......................................................................................................................................................... I
Abstract ........................................................................................................................................................... I
Justificación.................................................................................................................................................... II
Objetivo General del Trabajo Terminal .......................................................................................................... II
Planteamiento del problema......................................................................................................................... III
Diagrama del Planteamiento del Problema .................................................................................................. III
CAPÍTULO 1 Antecedentes ........................................................................................................................... 1
1.1 Cáncer .............................................................................................................................................. 2
1.1.1 Características del cáncer ........................................................................................................ 2
1.1.2 Clasificación del cáncer............................................................................................................ 3
1.1.3 Origen del cáncer ..................................................................................................................... 5
1.2 Genética ........................................................................................................................................... 6
1.2.1 Estudio de la Genética ................................................................................................................ 6
1.3 Bioinformática ................................................................................................................................... 6
1.3.1 Antecedentes de Bioinformática .................................................................................................. 7
1.4 Lógica Difusa .................................................................................................................................... 8
1.4.1 Conjunto Difuso ........................................................................................................................... 8
CAPÍTULO 2 Marco Teórico .......................................................................................................................... 9
2.1 Estructura del ADN ......................................................................................................................... 10
2.2 Genoma de eucariontes ................................................................................................................. 12
2.3 Extracción del ADN......................................................................................................................... 12
2.4 Genética y Cáncer .......................................................................................................................... 14
2.4.1 El ciclo celular ........................................................................................................................ 15
2.4.2 El gen p53 y el ciclo celular .................................................................................................... 16
2.4.3 La propagación de las células cancerosas............................................................................. 16
2.4.4 Modelo genético para cáncer de colon................................................................................... 17
2.4.5 Desarrollo de estadios de cáncer de colon ............................................................................ 18
2.4.6 Factores genéticos y ambientales en el cáncer de colon ....................................................... 18
2.4.7 Inestabilidad genómica y cáncer ............................................................................................ 18
2.4.8 El cáncer como enfermedad genética .................................................................................... 19
2.5 Alineación de cadenas de ADN ...................................................................................................... 20
2.5.1 Métodos de alineamientos ......................................................................................................... 20
2.6 Blast................................................................................................................................................ 22
2.7 Introducción a la Gramática ............................................................................................................ 23
2.7.1 Definición de Gramática ......................................................................................................... 23
2.7.2 Tipos de Gramática ................................................................................................................ 23
2.7.3 Definición de gramáticas difusas ............................................................................................ 25
2.8 Lógica Difusa o Borrosa y Probabilidad .......................................................................................... 26
CAPÍTULO 3 desarrollo................................................................................................................................ 27
3.1 Metodología .................................................................................................................................... 28
3.2 Java ................................................................................................................................................ 33
3.3 Algoritmo CYK adaptado para el Lenguaje Libre de Contexto Difuso ............................................ 33
3.4 Simplificación de las Gramáticas Libres de Contexto ..................................................................... 37
3.4.1 Forma Normal de Chomsky o FNC ........................................................................................... 37
CAPÍTULO 4 Pruebas Preliminares y Resultados ........................................................................................ 41
4.1 Pruebas preliminares ....................................................................................................................... 42
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
4.2 Pruebas adicionales ....................................................................................................................... 43
4.3 Análisis de la Cadena ..................................................................................................................... 48
4.4 Análisis con Proteínas .................................................................................................................... 51
4.5 Análisis de Resultados ................................................................................................................... 52
CAPÍTULO 5 Conclusiones y Trabajo a Futuro ............................................................................................ 56
5.1 Conclusiones .................................................................................................................................. 57
5.1.2 Comparación del Programa Análisis del ADN para Detectar Cáncer de Colon con el Programa
Blast ................................................................................................................................................... 57
5.2 Trabajo a Futuro ............................................................................................................................. 58
Apédice A .......................................................................................................................................... anexo cd
Apédice B .......................................................................................................................................... anexo cd
Apédice C.......................................................................................................................................... anexo cd
Fuentes Consultadas ................................................................................................................................................... 59
Bibliografía .............................................................................................................................................. 59
Cibergrafías............................................................................................................................................. 60
Glosario ....................................................................................................................................................... 61
ÍNDICE DE FIGURAS
Figura I. Diagrama del Planteamiento del Problema...........................................................................
V
Figura. 1.1 Cuando las células normales se lesionan o envejecen, mueren por apoptosis, pero las células
cancerosas evitan la apoptosis............................................................................................................
61
Figura 1.2 Si los carcinomas se parecen a la piel, se les denomina epidermoides, que son los más frecuentes
en la boca, la laringe, la faringe, el cuello del útero, entre otros sitio ...................................................
4
Figura 1.3 Sarcoma de tejido suave ................................................................................................................... 4
Figura 2.1 Pasos que se siguen para realizar la secuenciación .........................................................
14
Figura 2.2 El ciclo celular está controlado en dos y posiblemente en más puntos de control, uno es la transición
G2/M y otro al final de la fase G1, antes de entrar en la fase S. Estos puntos de control implican interacciones
entre proteínas transitorias, llamadas ciclinas y quinasas, que añaden grupos fosfatos a las proteínas. La
fosforilación de las proteínas diana disparan una cascada de sucesos que permiten el progreso a través del
ciclo celular .........................................................................................................................................
16
Figura 2.3 Modelo para la producción del cáncer de colon en pasos sucesivos. El primer paso es la pérdida O
inactivación del gen APC del cromosoma 5. En los casos familiares, se hereda un gen mutante APC. La
pérdida de ambos alelos da lugar a la formación de adenomas benignos. Mutaciones posteriores, que Implican
a genes en los cromosomas 12, 17 y 18 de las células de los adenomas benignos, pueden conducir a una
transformación maligna que dé lugar al cáncer de colon. Aunque las mutaciones en los cromosomas 12, 17 y
18 ocurren normalmente en estadios más tardíos que las mutaciones del cromosoma 5, la suma de los
cambios es más importante que el orden en el que se dan .................................................................
17
Figura 2.4 El cáncer es producido por la mutación de determinados genes de una célula determinada y que
adquiere así las características propias de dicha enfermedad ............................................................
20
Figura 2.5 Alineamiento Global (Needleman-Wunsch) ......................................................................
21
Figura 2.6 Alineamiento Local (Smith-Waterman) ..............................................................................
21
Figura 3.1 Primer alineamiento usando Matlab...................................................................................
31
Figura 3.2 Alineamineto de secuencias ..............................................................................................
32
Figura 3.3 Algoritmo 3.1 ......................................................................................................................
34
Figura 3.4 Combinaciones en las 5 primeras reglas ...........................................................................
40
Figura 4.1 Grados de Membresía que existen en la cadena ..............................................................
42
Figura 4.2 Gráfica de reconocimiento de patrones .............................................................................
43
Figura 4.3 Gráfica con la secuencia artificial 1 con la inserción de la cadena cancerígena original atctat cinco
veces, devolviendo un grado de pertenencia de 1 como máximo ........................................................
44
Figura 4.4 Gráfica con la secuencia artificial 2 con cinco inserciones de la cadena cancerígena modificada en
la primera base ttctat, devolviendo un grado de pertenencia de 0.833 como máximo........................
44
Figura 4.5 Gráfica de la secuencia artificial 3 con cinco inserciones de la cadena cancerígena modificada en la
primera y segunda base tgctat, devolviendo un grado de pertenencia de 0.693 como máximo .........
45
Figura 4.6 Gráfica de la secuencia artificial 4 con cinco inserciones de la cadena cancerígena modificada en la
primera, segunda y tercera base tgttat, con un grado de pertenencia de 0.578 como máximo ..........
45
Figura 4.7 Gráfica de la secuencia artificial 5 con cinco inserciones de la cadena cancerígena modificada en
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUS
la primera, segunda, tercera y cuarta base tgtcat, con un grado de pertenencia de 0.481 como máximo
46
Figura 4.8 Gráfica de la secuencia artificial 6 con cinco inserciones de la cadena cancerígena modificada en la
primera, segunda, tercera, cuarta y quinta base tgtcct, donde el grado de pertenencia tiene que disminuir hasta 0.401,
recordemos que la cadena sigue comparando aún con los cambios ...................................................
46
Figura 4.9 Amplificación de la gráfica secuencia artificial 6, como se observa el valor del primer pico es de 0.401, los
valores de los siguientes picos son la comparación que sigue haciendo el patrón con respecto a la secuencia 47
Figura 4.10 Gráfica de la secuencia artificial 7 con cinco inserciones de la cadena cancerígena modificada en la
primera, segunda, tercera, cuarta, quinta y sexta base tgtcca, donde el grado de pertenencia tiene que disminuir hasta
0, recordemos que la cadena sigue comparando aún con los cambios ..............................................
47
Figura 4.11 Amplificación de la gráfica secuencia artificial 7, como se observa el valor del primer pico es de 0.481,
esto es por que la cadena sigue haciendo comparaciones, por este motivo no se va a obtener una gráfica en cero
............................................................................................................................................................
48
Figura 4.12 Comparación de una cadena con cáncer contra una secuencia sin cáncer ....................
49
Figura 4.13 Comparación amplificada de la sección señalada ..........................................................
49
Figura 4.14 Comparación de una cadena con cáncer contra una secuencia con cáncer ...................
50
Figura 4.15 Comparación amplificada de la sección señalada ..........................................................
50
Figura 4.16 Comparación una cadena cancerígena (atctat) con una secuencia con cáncer ..............
52
Figura 4.17 Comparación una cadena cancerígena (atctat) con una secuencia con cáncer diferente
a la anterior .........................................................................................................................................
52
Figura 4.18 Comparación amplificada de la 1a. sección .....................................................................
53
Figura 4.19 Comparación amplificada de la 2ª sección ......................................................................
53
Figura 4.20 Comparación de la cadena cancerígena contra diferentes secuencias con cáncer.........
54
Figura 4.21 Comparación de una cadena cancerígena con una sección diferente de la secuencia R2 con
cáncer .................................................................................................................................................
54
Figura 4.22 Comparación de una cadena cancerígena contra una secuencias sin cáncer ..................
54
Figura 4.23 Comparación con otra cadena cancerígena contra diferentes secuencias con cáncer .....
55
Figura 4.24 Comparación de una cadena cancerígena con una sección diferente de la secuencia R2 y otra
secuencia con cáncer..........................................................................................................................
55
Figura 4.25 Comparación de una cadena cancerígena con una sección diferente de la secuencia R2 con cáncer y una
secuencia sin cáncer ..........................................................................................................................
55
ÍNDICE DE TABLAS
Tabla 1 Proteínas utilizadas del cromosoma 18p sano para realizar alineamientos con cadenas con Cáncer 51
Tabla 2 Alineaciones que se realizaron con la proteína y la secuencia con cáncer de colon ..............
51
Tabla 3 Ventajas y desventajas del Programa BLAST .......................................................................
58
Tabla 4 Ventajas y desventajas del Programa Análisis del ADN para detectar Cáncer de Colon ......
58
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Resumen
El presente trabajo tiene el propósito de realizar un estudio de análisis genómico de
cadenas de ácido desoxirribonucleico (ADN) del genoma humano, específicamente del
cáncer de colon que se desarrolla en el cromosoma 18 en el brazo corto “p”, con el
propósito de detectar a pacientes con cáncer, éste desarrollo se divide en dos partes:
1) Realizar una búsqueda en las bases de datos que se encuentran disponibles en la
página de Internet del Centro Nacional para la Información Biotecnológica (CNIB) de
cadenas de ADN, para observar la relación de pacientes con cáncer y personas sanas a
nivel genético. Esta etapa se relaciona con el área biológica, debido a que hay que
descifrar las secuencias de las cadenas genéticas, así como su función biológica.
2) En el área de la bioinformática se desarrolló un programa en la plataforma de Java,
elaborado a partir de un sistema de lógica difusa que se encarga de calcular el grado de
pertenencia con respecto a un segmento de ADN. El sistema difuso se definió a partir de lo
que se conoce como gramática difusa y se extrajo a partir de código genético con cáncer.
Abstract
The present work has the purpose to develop a genomic analysis of the
deoxyribonucleic acid (DNA) chains of the human being, specifically the analysis of DNA is
centered on the cancer of colon of the chromosome 18 “p” with the finality of detect patients
with this kind of cancer. The main analysis was based on the use of fuzzy grammars. The
bases of DNA were found on the National Center of Biotechnology Information (NCBI) web
page.
Introducción General
La biónica es la disciplina que se encarga del estudio y observación de los sistemas
biológicos, a partir de esta información se da solución a problemas de ciencia y tecnología.
En la actualidad, la biónica se ha utilizado para implementar sistemas neurodifusos, a partir
del estudio del funcionamiento de las redes neuronales de la lógica difusa de donde se han
realizado sistemas difusos, estos sistemas se implementan por medio de reglas del tipo “sientonces”, de manera que la experiencia de una persona u otro tipo de sistema se pueden
diseñar mediante el dictado de estas reglas. La ventaja que se tiene al usar estas reglas es
que el tipo de problemas que se van a tratar muchas veces no están bien definidos o son
términos vagos o con ruido.
La ventaja que existe al utilizar el método de gramáticas difusas con respecto a las
gramáticas certeras, es que las gramáticas difusas pueden dar un grado de pertenencia de
una cadena de ADN con respecto a una gramática. En cambio las gramáticas certeras
únicamente permiten decir si una cadena de ADN pertenece o no a una gramática.
Las reglas difusas se generan a través de los conjuntos difusos, donde un conjunto
difuso se define por medio de dos términos, el primero se refiere al elemento u objeto, y el
segundo al grado de pertenencia o membresía que puede tener dicho elemento con
respecto al conjunto.
Una total pertenencia se define como un grado de pertenencia igual a uno, y una nula
pertenencia se define como un grado de pertenencia igual a cero; además, existen grados
UPIITA - INGENIERÍA IÓNICA
I
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
de pertenencia intermedios. Por otro lado, existen sistemas difusos que son capaces de
reconocer cadenas de texto, es decir dar un grado de pertenencia a una cadena, a partir de
un segmento de cadena1. Este tipo de sistemas se efectúan por medio de una gramática
difusa y a su vez, la gramática difusa se implementa por medio de una cadena de texto
previamente seleccionada. A partir de la gramática difusa se pueden hacer programas que
analicen cadenas de texto. Algunos de los análisis es la comparación de dos o más
cadenas de ADN diferentes o alineaciones de ADN. Para realizar las alineaciones existen
dos tipos; el alineamiento local que compara un número pequeño de bases de ADN o el
alineamiento global que utiliza una gran cantidad de bases de ADN. Otra manera de
realizar comparaciones es por medio de gramáticas computacionales, dicha gramática es
una serie de reglas de reescritura que permiten describir dicho lenguaje genético. Bajo el
principio y concepto de que el código de ADN codificante es un lenguaje, Searls (2002)
presenta un amplio estudio de los diferentes tipos de gramáticas que existen, que se
utilizan para representar dicho lenguaje.
Ya que en México no es fácil encontrar un laboratorio que realice la extracción y el
desglose de las cadenas de ADN en sus cuatro bases nitrogenadas, es necesario tomar la
información de cáncer y sin cáncer utilizada en este trabajo de la base de datos del Centro
Nacional para la Información Biotecnológica (CNIB).
El presente trabajo tiene el propósito de realizar un estudio de la posibilidad que existe
para detectar a pacientes con cáncer a partir de un segmento de cadena de ADN,
utilizando un sistema de lógica difusa para indicar el grado de pertenencia. El tipo de
cáncer que se va analizar es el del colon que se desarrolla en el cromosoma 18 en el brazo
corto o “p”.
Justificación
El cáncer es la segunda causa principal de muerte después de las enfermedades
cardiacas. Se estima que a lo largo del siglo XXI, el cáncer sea la primera causa de muerte
en los países desarrollados (Gardner, 2003).
Por ello al utilizar el método de gramáticas difusas para el análisis de ADN, se puede
obtener un grado de pertenencia para detectar pacientes con cáncer a partir de un
segmento de cadena de ADN. Esto ayudará a detectar de una manera más rápida y
preventiva el cáncer.
Objetivo General del Trabajo Terminal
Determinar el grado de pertenencia de un segmento de ADN humano utilizando un
sistema de gramáticas difusas con el propósito de identificar segmentos que sean
cancerígenos.
1
Una cadena de texto o ADN es una concatenación definidos a partir de un alfabeto, de igual forma un
segmento es también una concatenación de dichos símbolos, la cantidad de elementos de la cadena es
superior o mayor respecto al número de elementos del segmento, es decir, un segmento puede ser una
subcadena, pero nunca el segmento será mayor a una cadena.
UPIITA - INGENIERÍA BIÓNICA
II
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Planteamiento del problema
Desde el punto de vista biológico, la genómica comparativa permite encontrar el
comportamiento de una determinada proteína, bacteria o virus, debido a que si se logra
extraer parte del código genético de un genoma, se pueden realizar comparaciones que
permiten detectar si es parecido a otro genoma y determinar sus características
genómicas.
Debido a que se han realizado pocos análisis desde el punto de vista bioinformático, se
tiene la oportunidad de encontrar las características computacionales que tienen al
momento de realizar un análisis comparativo entre una cadena y otra. Las principales
características que se pretenden investigar serán:
1. Descubrir una gramática que permita describir el lenguaje del ADN no codificante.
2. Un análisis que permita detectar si una determinada cadena de ADN es no
codificante y si pertenece a una secuencia genómica que esté infectada con cáncer.
3. Realizar un análisis gramatical de las mismas.
En este trabajo se propone implementar y desarrollar análisis gramaticales con cierto
grado de profundidad, con el propósito de incursionar y explorar la posibilidad de programar
e implementar sistemas de análisis y que estén disponibles para proyectos futuros. Se
propone utilizar el uso de gramáticas difusas, debido a que en una cadena de ADN una
determinada función no siempre es exactamente la misma. Esto nos da la posibilidad de
que dos cadenas de ADN tengan un grado de pertenencia alto, intermedio o bajo, lo que
permitiría establecer que tan parecidas son dos o más cadenas de ADN. Además, el uso
de la teoría difusa permite analizar cadenas de ADN desde un contexto más relajado,
situación que no sucede con otro tipo de análisis informáticos que se consideran duros y
sin posibilidad a variaciones o cambios.
Este trabajo tiene sus bases en una investigación previa realizada por el Dr. Herón
Molina Lozano, donde su propósito principal es hacer el análisis de las cadenas de ADN de
tres diferentes organismos (el pollo, el ratón y el hombre), con el objeto de encontrar las
semejanzas que existen entre cada cadena de ADN, empleando lógica difusa para el
desarrollo de su investigación.
A partir de esta investigación se obtienen los algoritmos de lógica difusa que se emplean
en los programas de éste trabajo de tesis, enfocando el análisis a las cadenas de ADN
para detectar cáncer de Colon en el cromosoma 18p del hombre.
Diagrama del Planteamiento del Problema.
El siguiente diagrama (figura I) muestra el método que se siguió para el desarrollo del
análisis del ADN. Se observa que en primer lugar es necesario obtener de la base de datos
de la CNIB los archivos con los cuales se comenzará el análisis.
Debido a que existen diferentes tipos de formatos (página de la CNIB), como por
ejemplo: GenBank, FASTA, formato para la base de datos Blast, Entrez, Sequin,
LocusLink, es recomendable trabajar con un solo tipo de formato. Específicamente se
seleccionó el formato GenBank ya que es un formato que contiene información relacionada
a las proteínas. En este formato se da información que ubica el inicio y final de una
proteína, la información está representada en forma de nucleótidos y es necesario
UPIITA - INGENIERÍA BIÓNICA
III
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
preprocesar la información debido a que se necesita quitar texto datos numéricos y
espacios en blanco. Esto se logra utilizando algún lenguaje de programación que maneje
cadenas de texto, como lo son: Traductor Perl, Lenguaje C, Matlab o Java. Una vez que se
ha ubicado la cadena de ADN con cáncer que se va estudiar se aplica el método de
consenso y alineación para ubicar la sección de ADN la que va a servir para hacer la
gramática difusa. A continuación dicha gramática se implementa en un programa en Java.
Con este programa se puede analizar la cadena de ADN que pudiera ser cancerígena. El
programa crea un archivo de texto con la cadena de ADN analizada y posteriormente dicho
archivo se abre en Matlab y se analiza gráficamente. Finalmente, a partir de esta
información tiene la conclusión si la cadena utilizada tiene o no cáncer.
UPIITA - INGENIERÍA BIÓNICA
IV
ANALISIS DEL ADN POR MEDIO DEL USO DE LOGICA DIFUSA
V
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
CAPÍTULO 1
ANTECEDENTES
UPIITA - INGENIERÍA BIÓNICA
1
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
1.1 Cáncer
La palabra Cáncer es derivada de una palabra en latín que significa cangrejo, este
término describe la capacidad de extensión de los tumores malignos (forma abigarrada,
con ramificaciones, se adhiere a todo lo que agarra con obstinación, similar a un cangrejo
marino), es decir, son masas de tejido constituido por células que proliferan con autonomía
crecen y se multiplican desordenadamente. En el área médica, el cáncer es el conjunto de
síntomas que sirven para su pronóstico y el tratamiento es diferente dependiendo de la
localización anatómica en la que se encuentre y del tipo celular o histológico del que
proceda, principalmente.
El cáncer surge cuando las células de alguna parte del cuerpo comienzan a crecer sin
control. Las células normales del cuerpo crecen, se dividen y mueren en una forma
ordenada. Durante los primeros años de vida de una persona, las células normales se
dividen con más rapidez hasta que la persona alcanza la edad adulta. Posteriormente, las
células normales de la mayoría de los tejidos sólo se dividen para reemplazar las células
desgastadas o moribundas y para reparar las lesiones. Debido a que las células
cancerosas continúan creciendo y dividiéndose, son diferentes de las células normales. En
lugar de morir, viven más tiempo que las células normales y continúan formando nuevas
células anormales. La figura 1.1 muestra la división de la célula normal y división de células
cancerosas.
Figura. 1.1 Cuando las células normales se lesionan o envejecen, mueren por apoptosis,
pero las células cancerosas evitan la apoptosis.
El cáncer es la segunda causa principal de muerte después de las enfermedades
cardiacas. Sin embargo, las muertes por enfermedades cardiovasculares están
disminuyendo, mientras que las muertes por cáncer están aumentando.
Se estima que a lo largo del siglo XXI, el cáncer sea la primera causa de muerte en los
países desarrollados. Y a pesar de esto, se ha producido un aumento en la supervivencia
de los pacientes con cáncer gracias a los avances tecnológicos para la detección oportuna
de esta enfermedad (Gardner, 2003).
1.1.1 Características del cáncer
Las características que presenta el cáncer se pueden engloba de la siguiente forma:
1.
Todas las células dañadas proceden de una célula original, la cual sufre una
mutación, por esto se dice que son monoclonales.
2
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
2.
Son capaces de invadir las estructuras próximas y/o lejanas y desarrollar nuevos
puntos de desarrollo del cáncer, a esta característica se le llama metástasis.
3.
Las células nuevas presentan diferencias, estas células son de procedencia, es
decir, no son iguales, por esto se les denomina células anaplásicas.
4.
Crecen rápidamente y repercuten negativamente sobre el organismo del
paciente.
1.1.2 Clasificación del cáncer.
La rama de la medicina relacionada con el diagnóstico y tratamiento del cáncer se
denomina oncología; el cáncer puede dividirse en tumores benignos y malignos, y estos a
su vez tienen dos componentes básicos en su estructura:
1.
2.
Las células neoplásicas proliferantes que constituyen el parénquima.
Su estroma de sostén, constituido por tejido conectivo y vasos sanguíneos.
Los tumores se pueden clasificar, básicamente, de acuerdo a tres características: a) por
su comportamiento parenquimatoso, por ejemplo, tumores benignos y tumores malignos; b)
por su lugar de origen, se hace referencia al nombre el cáncer de acuerdo al lugar (órgano)
de origen que este haya tenido, por ejemplo, podemos citar los siguientes, cáncer de
pulmón, de mama, de próstata, de colon, de recto; c) por el tejido o célula del que
proceden; los tejidos tienen, además de las células, gran número de sustancias que las
rodean y que contribuyen a las características de cada tejido.
Por ejemplo, el cuerpo está formado por células que se encuentran en distintos tejidos.
Todas estas sustancias se denominan espacio extracelular.
Los Tumores benignos se caracterizan por lo siguiente: su nombre acaba en el sufijo oma y según el origen del tejido del que procedan pueden ser: fibroma (tejido conjuntivo
fibroso), mixoma (tejido conjuntivo laxo), lipoma (tejido adiposo), condroma (tejido
cartilaginoso), osteoma (tejido óseo), hemangioma o angioma (tejido vascular), linfagioma
(tejido linfático), meningioma (meninges), tumor glómico (tejido nervioso de sostén),
leiomioma (tejido muscular liso), rabdomioma (tejido muscular estriado), papiloma (tejido
epitelial formando papilas), adenoma (tejido glandular), teratoma (células totipotenciales),
nevus (melanocitos).
En el caso de tumores malignos, encontramos los siguientes grupos:
Los carcinomas son, con mucha diferencia, los más frecuentes. Los carcinomas se
originan en los epitelios, que son los tejidos que revisten las cavidades y los conductos del
cuerpo, además de la piel. También son epitelios las glándulas, que se encargan de
segregar sustancias.
Si los carcinomas se parecen, a la piel, se les denomina epidermoides, que son los más
frecuentes en la boca, la laringe, la faringe, el cuello del útero, entre otros sitios (figura 1.2),
estos se nombran a partir de la palabra carcinoma, seguido del tejido donde se encuentra,
ejemplo: carcinoma epidermoide o escamoso, carcinoma basocelular.
Si los carcinomas se parecen a glándulas, se les denomina "adenocarcinomas". Estos
tumores representan la gran mayoría de los tumores de mama, próstata, estómago,
3
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
riñón,
colon
y
recto,
por
ejemplo,
cistoadenocarcinoma.
El epitelio de las vías urinarias es diferente al glandular y a la piel y se llama epitelio de
transición. Los carcinomas que proceden de este epitelio, más frecuentes en la vejiga, se
denominan carcinomas transicionales.
Figura 1.2 Si los carcinomas se parecen a la piel, se les denomina epidermoides, que son los más frecuentes en
la boca, la laringe, la faringe, el cuello del útero, entre otros sitios.
En segundo lugar, nos encontramos a los sarcomas (del griego sarcos, "carnoso"), que
proceden del tejido conjuntivo y sus derivados. Como el tejido conjuntivo se encuentra en
todo el cuerpo, estos tumores pueden aparecer en cualquier parte, aunque son poco
frecuentes. Como ejemplos se pueden citar los sarcomas de hueso y los miosarcomas
(procedentes del músculo), mesotelioma (tejido pleural), figura. 1.3.
Figura 1.3 Sarcoma de tejido suave.
Otra variedad de tumores son los linfomas, que se derivan de los linfocitos y suelen
surgir en los ganglios linfáticos. Las leucemias se producen en la médula ósea y comparten
algunas características con los linfomas.
Los melanomas son tumores que suelen surgir en la piel (aunque también en otras
localizaciones), pero que son muy distintos de los carcinomas, tanto al microscopio como
en su comportamiento, por lo que se les clasifica por separado.
UPIITA - INGENIERÍA BIÓNICA
4
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Los tumores del sistema nervioso central se clasifican también por separado. La
mayoría de ellos pertenecen al grupo de los gliomas, aunque, a pesar de ser poco
frecuentes, la variedad es muy amplia.
Los tumores que se parecen mucho a su tejido original, se dice que son muy
diferenciados y cuanto menos se parecen menos diferenciados son. De vez en cuando,
aparecen tumores que no se parecen a ningún tejido, porque son muy poco diferenciados.
Suelen ser agresivos, pero esto no es universal.
En la mayoría de los tumores, para definir su extensión, se utiliza una clasificación
denominada TNM. En este tipo de clasificación, se asigna un número a la T de acuerdo con
el tamaño o la invasión del tumor primario (en el sitio original), se asigna otro número a la N
de acuerdo con los ganglios linfáticos afectados y otro número a la M según si hay
metástasis a distancia. A cada combinación de números para T, N y M se le asigna un
grado de extensión global que se relaciona con la probabilidad de curación. Este grado de
extensión se llama estadio, que suele ser de la clasificación TNM, aunque hay tumores en
que se usan otras clasificaciones.
1.1.3 Origen del cáncer.
Las células cancerosas son células normales que en un momento determinado cambian
genéticamente -se modifica su ADN- a causa de algún "agente carcinógeno" siempre que
sean "susceptibles", es decir, que se trate de células propensas a contraer el cáncer.
Las causas específicas que ocasionan el surgimiento de muchos de los tipos de cáncer
conocidos, aun son un misterio, sin embargo, existen factores de riesgo que nos permiten
comprender lo propensa que esta una persona a contraer algún tipo de cáncer. El primer
factor de riesgo conocido como tal, fue la ceniza de chimenea, dicho estudio fue realizado
en 1775 por el cirujano londinense Sir Percival Pott,
Dentro de los factores de riesgo podemos encontrar algunos como la edad, el sexo y
factores genéticos, hechos que están más allá de la medicina actual. Por otro lado, también
encontramos factores ocupacionales, ambientales o de estilo de vida de las personas, los
cuales pueden ser eliminados, minimizados o controlados, dentro de estos tenemos los
siguientes:
1. Factores ocupacionales y ambientales. La exposición a radiación, radón, solventes,
pesticidas, asbesto y muchas sustancias industriales incrementan el riesgo a padecer
ciertos tipos de cáncer.
2. Tabaco: el uso cotidiano del tabaco, ya sea en forma de cigarrillos o en otras
formas, es el mayor factor de riesgo para contraer algunos tipos de cáncer, como el de
pulmón, boca, garganta, laringe, páncreas y vejiga. Según estadísticas del Instituto
Nacional contra el cáncer de E.U.A., alrededor del 30% de las muertes por esta
enfermedad están relacionadas con el uso de tabaco.
3. Alcohol: el uso de alcohol (bebidas alcohólicas), a largo plazo incrementa el riesgo
de cáncer de hígado, páncreas y laringe.
4. Nutrición: las dietas altas en grasa y la obesidad parecen incrementar el riesgo de
contraer cáncer de mama y de útero. Una dieta alta en comidas fermentadas ha sido
asociado con el aumento de cáncer de estomago e intestinos. Las dietas bajas en fibras
son un factor de riesgo para padecer cáncer de colon.
5. Exposición solar: la exposición los rayos ultravioleta del sol parecen aumentar el
riesgo de cáncer de piel y melanoma maligno.
5
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
6. Actividad sexual: la promiscuidad y/o las enfermedades de transmisión sexual
aumenta el riesgo de padecer cáncer cervical en mujeres y cáncer de pene en hombres.
7. Las cinco principales causas de muerte por cáncer por orden de importancia tanto
en hombres como en mujeres son: cáncer de pulmón, cáncer colorrectal, cáncer de mama,
cáncer de próstata y cáncer de páncreas.
1.2 Genética
1.2.1 Estudio de la Genética.
La genética es el estudio de la herencia en todas sus manifestaciones, desde la
distribución de los caracteres humanos en un árbol genealógico hasta la bioquímica del
material genético, el ácido desoxirribonucleico (ADN). Se basa en las leyes y principios que
gobiernan las semejanzas y diferencias entre los individuos de una misma especie.
La genética como la conocemos hoy, realiza su estudio basada en la “teoría de la
herencia por genes”, área de estudio que se inició con las investigaciones realizadas por
Gregor Johann Mendel (1822-1884), y es llamado apropiadamente el “Padre de la
Genética” (Gadner, 2003). Sus experimentos con chícharos comestibles, sentaron los
precedentes de la genética, estudios que se realizaron en el limitado espacio del jardín de
un monasterio mientras realizaba su labor como maestro de escuela sustituto. Las
conclusiones a las que llegó a partir de sus excelentes investigaciones constituyen el
fundamento de la ciencia actual de la genética. Mendel no fue el único en realizar
experimentos de hibridación, pero sí fue el primero en considerar los resultados en
términos de caracteres únicos.
Hoy en día, la genética es una ciencia madura y dinámica, claramente se encuentra en
su cúspide, y es reconocida como el centro mismo de la biología moderna. Como tal, la
ciencia de la genética, erigida sobre los cimientos desarrollados por Mendel, debe su
dimensión actual a las contribuciones de un gran número de científicos e institutos de
biología y medicina apoyadas por las universidades: así como los gobiernos de todo el
mundo. Además, las técnicas experimentales de la biología molecular están produciendo
grandes volúmenes de datos.
1.3 Bioinformática
Bioinformática es la aplicación de las herramientas computacionales y técnicas para
administrar y analizar datos biológicos. En particular la bioinformática es algunas veces el
término utilizado cuando se refiere a los datos y las técnicas utilizadas en análisis y
secuencias a gran escala de genomas completos, tales como Homo sapiens, Arabidopsis,
Mus musculus y Gallus gallus, entre otros (Tisdalt, 2001).
Además la bioinformática es una disciplina emergente que utiliza la tecnología de la
información para organizar, analizar y distribuir información biológica con la finalidad de
responder preguntas complejas de la Biología. Es un área de investigación
multidisciplinaria; es la unión, principalmente, entre dos ciencias: Biología y Computación.
Según el Centro Nacional para la Información Biotecnológica (CNIB), en Inglés National
Center for Biotechnology Information y sus siglas son NCBI, la bioinformática es el campo
de la ciencia en el cual confluyen varias disciplinas tales como: Biología, Computación y
Tecnología de la Información. El fin último de este campo es facilitar el descubrimiento de
nuevas ideas biológicas, así como crear perspectivas globales a partir de las cuales se
pueden discernir principios unificadores en la Biología. Al comienzo de la “revolución
6
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
genómica”, el concepto de bioinformática se refería sólo a la creación y mantenimiento de
bases de datos, donde se almacenaba la información genética, tales como la secuencias
de nucleótidos y aminoácidos. El desarrollo de este tipo de bases de datos no solamente
significaba el diseño de la misma, sino también el desarrollo de interfaces complejas donde
los investigadores pudieran acceder los datos existentes y suministrar o realizar búsqueda
de datos.
1.3.1 Antecedentes de Bioinformática.
Actualmente en México se está realizando investigación relacionada con el genoma
humano, específicamente el Instituto Nacional de Medicina Genómica, se encarga de
realizar estudios relacionados con el genoma del mexicano. Se tiene una cantidad de datos
de código de ADN que necesita ser analizado por medio de técnicas novedosas, una de
ellas es la bioinformática. La bioinformática es el área encargada de realizar el
procesamiento de la información genética, no sólo a nivel bases de datos, si no también
intenta explorar diferentes métodos computacionales para analizar la gran cantidad de
datos genéticos que existen hoy en día. Esto ayudará al medico a detectar de una manera
más rápida y así prevenir el cáncer.
Desde hace varios años y en diversos países, se han realizado algunas investigaciones
en la detección de tumores y alineamiento de secuencias de ADN, de las cuales se
mencionan las siguientes:
En Colombia se ha trabajado en un procesador para el alineamiento global de
secuencias de ADN. El algoritmo implementado en hardware es el algoritmo de Needleman
y Wunsch, el cual se basa en usar programación dinámica. El procesador fue diseñado
usando captura esquemática y descripción estructural en VHDL. Los resultados de las
simulaciones muestran que el procesador de ADN, presenta un buen desempeño usando
poca área del C.I. En este caso, para el alineamiento óptimo de dos secuencias de ADN,
cada una de 7 bases se utilizan 1674 ALU’s, 54 registros y tarda 43,044 ns. Teniendo en
cuenta los resultados, el procesador diseñado puede ser usado para estudiar los árboles
genealógicos y procesar información para otras aplicaciones genéticas (Lozano,1996 ).
Se ha desarrollado un clasificador de tumor con el gen señalador usando la selección de
características y el método de agrupamiento c-medias difusas, con el cual se agrupan
datos de pequeñas matrices.
Usando pequeñas matrices de ADN, se han desarrollado dos modelos nuevos para
clasificación de tumores y pronóstico de meta genes. Primero, la expresión de genes son
resumidos por selección óptima identidad por medio de una red neuronal de mapas autoorganizados (Self-Organizing Maps-SOM), y a continuaciones realiza la clasificación de
muestras del tumor por medio del algoritmo de agrupamiento c-medias difusas. Entonces el
pronóstico que señala genes se logra por medio de la selección de característica manual
(visualizar el SOM componente de media de / añadido peso) o la selección de
característica automática (por el discriminante lineal de Fisher).
Los resultados obtenidos en los modelos propuestos pueden ser evaluados en cuatro
estudios: 1) la leucemia; 2) los tumores cerebrales de cáncer; 3) tumores de colon; 4)
líneas de célula cancerígena de NCL. Los modelos dieron un indicador de la clase con
rangos de error notablemente reducido, comparado con otros enfoques de pronóstico de
clase y la importancia de la selección de característica sobre el análisis de datos de
pequeñas matrices.
7
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Los modelos asocian genes señaladores con el potencial predictivo, a menudo mejor
que otros métodos disponibles en la literatura. Los modelos son potencialmente útiles para
los diagnósticos médicos y pueden revelar algunas perspicacias en la clasificación de
cáncer. Adicionalmente, existen dos limitaciones en la clasificación de tumor de los datos
de pequeñas matrices relacionadas con la biología que subyace con los datos, en relación
tanto con el tamaño de clase de los datos, como la estructura interna de clases. Estas
limitaciones no son específicas para la clasificación que usaron de modelos (Wang, 2003).
1.4 Lógica Difusa
La lógica difusa es la rama de la inteligencia artificial que se funda en el concepto "grado
de pertenencia”, lo cual permite manejar información vaga o de difícil especificación, si
quisiéramos hacer cambiar con esta información el funcionamiento o el estado de un
sistema especifico. Con la lógica difusa es posible definir un sistema por medio de reglas
de 'sentido común' las cuales se refieren a cantidades indefinidas.
Las reglas involucradas en un sistema difuso o borroso, pueden ser aprendidas con
sistemas adaptativos (como por ejemplo, redes neuronales artificiales) que aprenden al '
observar ' como operan las personas los dispositivos reales, o estas reglas pueden también
ser formuladas por una persona experta. En general la lógica difusa se aplica tanto a
sistemas de control como para modelar cualquier sistema continuo de ingeniería, física,
biología o economía.
La lógica difusa es entonces definida como un sistema matemático que modela
funciones no lineales, que convierte entradas en salidas acordes con los planteamientos
lógicos que usan el razonamiento aproximado.
Se fundamenta en los denominados conjuntos difusos y un sistema de inferencia difuso
basado en reglas de la forma " SI ....... ENTONCES .......", donde los valores lingüísticos de
la premisa y la consecuencia están definidos por conjuntos difusos, es así como las reglas
siempre convierten un conjunto difuso en otro.
Dentro del uso de la lógica difusa, existen varias herramientas para realizar los
procedimientos, uno de ellos son las gramáticas difusas, las cuales se definirán a
continuación.
1.4.1 Conjunto Difuso.
Si X es una colección de objetos denotados genéricamente por x, el conjunto difuso A
en X es definido como un conjunto de pares ordenados:
A = {(X,UA(X))|X E X}
donde uA(x) es llamado función de pertenencia (ó MF) del conjunto difuso A. La MF
mapea cada elemento de x a un grado de pertenencia entre 0 y 1.
El análisis se va a realizar por medio del uso de gramáticas difusas, por lo tanto se
definirá el concepto de gramática, y de igual manera se definirán los términos necesarios
para un mejor entendimiento de gramáticas difusas.
8
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
CAPÍTULO 2
MARCO TEÓRICO
9
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
2.1 Estructura del ADN.
Cada organismo vivo tiene un genoma, único y característico, todos los organismos
vivos contienen ácido desoxirribonucleico (ADN) y de ácido ribonucleico (ARN) en sus
células. El contenido total de ADN de un organismo se conoce como su genoma y se forma
a partir de cadenas con cuatro tipos de moléculas nitrogenadas llamadas bases: las cuales
son los bloques de construcción básicos de los seres vivos. Estos bloques son las
moléculas de: Adenina (A), Citosina (C), Guanina (G) y Timina (T). Básicamente la
molécula de adenina es el complemento de la timina, por lo que forman un par base (pb),
otro par base se forma a partir de la unión entre la citosina con la guanina, cada uno de
estos pares de bases se unen por medio de ligas de hidrógeno. El ADN se forma a partir de
dos cadenas de pares de bases. Al unirse estas dos cadenas, forman dos cadenas de
doble hélice que están orientadas en sentidos opuestos la alineación de las bases a lo
largo de la cadena de ADN se le da el nombre de secuencia. Cuando las células se
dividen, la totalidad del ADN de la célula se copia, esto se realiza mediante la separación
de las cadenas, debido a que las dos cadenas del ADN son complementarias, al separarse
se producen dos secuencias de ADN duplicadas, (Brown, 1999; Barahona, 2000; SoberónMainero, 2002; Gardner, 2003).
Además de las 4 bases antes mencionadas, el ADN contiene moléculas de azúcar
llamadas 2-desoxirribosa, y enlaces fosfodiéster junto con las cuales forman polímeros o
polinucleótidos de ADN. El nucleótido del ARN es una molécula de azúcar llamada ribosa,
además de que la timina es reemplazada por una base llamada Uracilo (U) (Tamarin,
1996).
La información contenida en un gen es leída por proteínas, el tamaño de una proteína es
variable, y puede ser desde algunos cientos de pares de bases hasta varios millones de
pares de bases. El gen es aquella parte del genoma que es necesario para crear proteínas,
es decir, los genes son secuencias de nucleótidos que codifican información para crear
proteínas. La expresión de un gen es un proceso de reacciones bioquímicas que se conoce
como expresión genética. En los eucariontes este proceso se divide, en general, en dos
etapas, translación y trascripción: la primera etapa produce una copia de ARN del gen, y la
segunda etapa resulta en una síntesis de una proteína cuya secuencia de amino ácido se
determina por medio del código genético, por medio de la secuencia del nucleótido de la
trascripción de ARN.
El siguiente diagrama muestra el proceso por medio del cual a partir de una cadena de
ADN se obtiene una cadena de proteínas, se observa que, efectivamente, el flujo de la
información va de ADN a la proteína, a este proceso también se le llama dogma de la
genética:
De acuerdo con Brown (1999) una copia completa de genoma debe de ser hecha cada
vez que una célula se divide, la replicación del ADN debe ser exacta, a fin de que no se
introduzcan mutaciones en las copias del genoma. Algunas mutaciones, sin embargo,
ocurren, debido a que se realizó algún error al momento de la replicación o a efectos
químicos y físicos de los mutágenos que alteran directamente la estructura química del
ADN. Existen enzimas de reparación del ADN que corrigen muchos de estos errores;
aquellos que escapan del proceso de reparación se convierten en características del linaje
descendiente del genoma original.
UPIITA - INGENIERÍA BIÓNICA
10
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Por ejemplo, se muestra el inicio de la secuencia del código del primer cromosoma del
hombre (archivo NT_077402.1 del CNIB), y se puede observar que se repite el patrón
TAACCC:
Durante la expresión genética se obtiene la síntesis de las proteínas, el proceso se
divide en dos etapas: trascripción y traducción. En la expresión genética tanto los exones
como los intrones son transcritos para formar el ácido ribonucleico pre–mensajero
(preARNm). El proceso de unión y formación del ARN elimina los intrones y produce
moléculas de ácido ribonucleico mensajero (ARNm) maduro que codifica a un polipéptido.
Los exones se definen como secuencias que están representadas en el ARNm. Además de
los genes, el ADN está compuesto por regiones reguladoras y regiones intergénicas. Al
igual que los intrones, no se tiene una idea clara de la función que tienen las regiones
intergénicas. La relevancia que se tendría con un estudio de este tipo es descubrir si,
efectivamente, las regiones intergénicas tienen alguna función dentro del proceso de
codificación de ADN a proteína, o si no se tiene definitivamente ninguna función, y no son
más que un separador de regiones de ADN codificante.
La parte del gen que se traslada en proteína se le llama Marco de Lectura Abierto
(MLA). Cada tripleta de los nucleótidos en el MLA es un codón que especifica un amino
ácido en concordancia con las reglas del código genético. El MLA se lee con la dirección 5’
a 3’ a lo largo del ARNm, comienza con un codón inicial y finaliza con un codón terminante.
La parte del ARNm antes del MLA se le llama segmento líder y aquella parte del ARNm
que le sigue al MLA se denomina segmento trailer.
Algunos otros segmentos de secuencias que típicamente se encuentran en los genes
son: pseudogenes, que son una copia no funcional de un gen. Estos son usualmente
aquellos que han mutado, y su información biológica no se puede leer. También existen las
secuencias del genoma ampliamente repetidas, estas secuencias se encuentran en
muchos lugares del genoma, y hay principalmente cuatro tipos llamados Elementos
Nucleares Ampliamente Entremezclados (ENAE), Elementos Nucleares Cortos
Entremezclados (ENCE), Elementos de Repeticiones Terminales Amplias (RTA) y
transposones de ADN; microsatélites, que son secuencias en los que motifs cortos se
repiten en secuencia. Muchos microsatélites son polimórficos, por ejemplo, un microsatélite
visto como un motif con las bases GA repetido dieciséis veces da la siguiente secuencia:
Finalmente, una gran parte del genoma humano esta hecho de ADN no repetitivo no
génico que no se sabe cuál es su función y permanece sin significado.
Muchos genes de los eucariontes son discontinuos y se dividen en exones e intrones.
Los intrones se remueven de la trascripción primaria por medio de la unión de los exones
para producir las moléculas de ARN funcional. Básicamente los intrones se encuentran
entre los exones. Como se mencionó, los exones son partes de las cadenas de ADN que
www.ncbi.nih.gov/
11
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
contienen la secuencia codificante para crear las proteínas y los intrones son secuencias
no codificantes y aún se desconoce su verdadera utilidad.
La biología divide a los seres vivos en dos tipos de organismos: eucariontes, cuyas
células contienen una membrana, y que incluye núcleo y organelos tales como las
mitocondrias, y en el caso de las células de las plantas, cloroplastos. Los eucariontes
incluyen animales, plantas y hongos; y los procariontes, cuyas células les faltan ciertos
elementos internos de la célula, como el núcleo bien definido.
Los eucariontes y procariontes tienen diferentes tipos de genomas, por lo que se deben
de considerar por separado. En este trabajo se consideraron solo las características
genómicas de los eucariontes.
2.2 Genoma de eucariontes
Las células humanas son eucariontes típicos y el genoma humano, es por lo tanto, un
buen modelo de los eucariontes en general. Todos los genomas nucleares de los
eucariontes que se han estudiado hasta ahora, como la versión del genoma humano,
contienen pequeños genomas mitocondriales, usualmente circulares.
A pesar de que la estructura física de todos los genomas nucleares de los eucariontes
son similares, el tamaño del genoma es diferente en todos los organismos, los genomas de
los eucariontes más pequeños son de alrededor de 10 Mpb (millones de pares de bases), y
el más grande de 100,000 Mpb. Existe cierta coincidencia entre la extensión del genoma y
la complejidad del organismo. Los eucariontes más complejos tienen un genoma más
grande para acomodar los genes extras.
Por muchos años, la falta de una correlación precisa entre la complejidad de un
organismo y el tamaño de su genoma se ha visto como un rompecabezas, y se le ha dado
el nombre de la llamada paradoja del valor “C”. De hecho la respuesta es simple: el espacio
guardado en el genoma de organismos menos complejos se debe a que los genes
empaquetados están más cercanos. Los genes más simples tienen menos intrones y el
espacio entre los genes es relativamente más corto. Al mismo tiempo, el número de
secuencias que se repiten es mucho mayor en los organismos más complejos.
2.3 Extracción del ADN.
En general la extracción de ADN de cualquier organismo, consiste en remover la
envoltura celular (pared celular y membrana nuclear) para liberar el ADN, mantener integra
la cadena y separarla de “impurezas” como son las separación de todos los demás
componentes como proteínas, lípidos, restos de pared y ARN.
Los pasos esenciales para la extracción son: 1.- Romper o digerir paredes
celulares, moliendo el tejido 2.- Eliminar membranas celulares. Empleando
detergentes como SDS y CTAB 3.- Proteger ADN de nucleasas endógenas.
Empleando detergentes, EDTA
(agente quelante atrapa iones Mg un cofactor de endonucleasas) 4.Evitar degradación y rompimiento de ADN.
Para realizar la extracción de ADN existen varias técnicas, en particular la técnica del
PCR, es una técnica muy eficiente que tiene gran aceptación entre la comunidad científica.
La técnica del PCR (reacción en cadena de la polimerasa), permite la síntesis de
grandes cantidades de un fragmento de ADN, sin clonarlo. Es una tecnología que se utiliza
para sintetizar in Vitro fragmentos específicos de ADN con la finalidad de detectar una
UPIITA - INGENIERÍA BIÓNICA
12
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
secuencia o gen de interés en el genoma de un individuo. Tiene varios requerimientos,
entre los cuales es indispensable un molde de ADN, moléculas iniciadoras llamadas
“primers”, una enzima ADN polimerasa resistente a fluctuaciones de temperatura, una
mezcla de desoxirribonucleótidos trifosfato (dATP, dCTP, dGTP y dTTP), un amortiguador
apropiado y un equipo llamado “termociclador” que tiene la capacidad de cambiar las
temperaturas dependiendo del ciclaje programado.
En esta técnica existen tres pasos fundamentalmente, los cuales son:
Desnaturalización: primero, el ADN que se quiere amplificar se desnaturaliza en
cadenas sencillas. Este ADN no necesita estar ni purificado ni clonado, y puede provenir de
distintas fuentes, incluyendo ADN genómico, muestras forenses como sangres seca o
semen, muestras almacenadas o registros médicos, pelos, restos momificados, y fósiles.
EL ADN de doble cadena se desnaturaliza por calor (a unos 90° C) hasta que se disocia en
cadenas sencillas (normalmente unos 5 minutos).
Hibridación: los cebadores hibridan al ADN de cadena sencilla. Estos cebadores son
oligonucleótidos sintéticos que hibridan con las secuencias flanqueantes del segmento a
amplificar. Generalmente se utilizan dos cebadores diferentes. Cada uno de ellos tiene la
secuencia complementaria a una de las dos cadenas del ADN. Los cebadores se alinean
con sus extremos 3’ encarados ya que hibridan a cadenas opuestas. La utilización de
cebadores sintéticos significa que se debe tener alguna información de la secuencia de
ADN a amplificar.
Extensión: a la mezcla de reacción se le añade una ADN polimerasa resistente al calor
(la polimerasa Taq). La polimerasa extiende a los cebadores en dirección 5’ – 3’, utilizando
como molde al ADN de cadena sencilla unido al cebador. El producto es una molécula de
ADN de doble cadena con los cebadores incorporados en el producto final.
Una vez que se termina este proceso, se lleva a cabo la electroforesis, que es un
método en el cual se aprovecha el hecho de que las proteínas presentan una carga
eléctrica neta si se encuentran en un medio que tenga un pH diferente al de su punto
isoeléctrico y por eso tienen la propiedad de desplazarse cuando se someten a un campo
eléctrico. La velocidad de migración es proporcional a la relación entre las cargas de la
proteína y su masa. Cuanto mayor carga por unidad de masa más rápida será la migración.
Empleando geles de sílice o de acetato de celulosa y aplicando las proteínas en una zona
estrecha en torno a los electrodos se pueden determinar diferencias de carga neta (carga
total/masa) entre proteínas
En función del estado de las proteínas (nativo o desnaturalizado) a lo largo del proceso
electroforético éstas se clasifican en electroforesis nativas o desnaturalizantes.
1. Una electroforesis desnaturalizante, la más común, es la que somete a las
proteínas a migración por cargas, asegurando la completa desnaturalización (pérdida de la
estructura tridimensional). En esta situación la migración es proporcional a la carga y al
tamaño de la molécula pero no a su forma. El agente desnaturalizante más empleado es el
sodio decilsulfato o SDS, un detergente.
2. La electroforesis nativa es la que somete a las proteínas a migración sin
desnaturalización. En esta situación las proteínas migran en función de su carga, de su
tamaño y de su forma. Además se mantienen en ciertos casos las interacciones entre
subunidades y entre proteínas, separándose los complejos. Los sistemas tampón
empleados en estos caso son: tris-glicina (rango de pH 8.3 a 9.5), tris-borato (rango de pH
7.0 a 8.5) y tris-acetato (rango de pH 7.2 a 8.5).
13
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Después de esto se pasa a la secuenciación, este proceso se ilustra en la figura 2.1.
Figura 2.1 Pasos que se siguen para realizar la secuenciación.
El resultado de la electroforesis, es pasado por un láser que detecta los nucleótidos
gracias a cuatro fluorocromos, con los que se puede combinar el resultado de las cuatro
reacciones y aplicar la mezcla a un mismo pocillo de electroforesis.
El láser no solo detecta los cuatro colores al acabar la separación, sino que también va
midiendo la presencia de las bandas.
Por último se crea un registro en una base
computacional (Colegio de Postgrados, Montecillo).
de datos por medio de un equipo
2.4 Genética y Cáncer.
En la actualidad se reconoce al cáncer como una anomalía genética en el ámbito
celular, que implica la mutación de un pequeño número de genes. Muchos de estos genes
actúan normalmente suprimiendo o estimulando la continuidad del ciclo celular, y la pérdida
o inactivación de estos genes da lugar a una división celular descontrolada y a la formación
de tumores. Los factores ambientales y los virus juegan un papel importante en las
alteraciones genéticas que son necesarias para transformar células normales en
cancerosas.
Aunque a menudo se consideró como una sola enfermedad, el cáncer es realmente una
serie compleja de enfermedades que afecta a un amplio rango de células y tejidos. Las
mutaciones que alteran el genoma o la expresión génica se consideran como un rasgo
común de todos los cánceres. En algunos casos, tales mutaciones inciden en la línea
germinal y se heredan. Muy a menudo las mutaciones aparecen en las células somáticas y
no pasan a la generación siguiente a través de las células germinales. A veces, una
14
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
mutación hereditaria tiene que venir acompañada por una mutación somática en el locus
homólogo, dando lugar a homocigosis (Klug, 1999).
Las alteraciones genómicas a gran escala son un rasgo común de cáncer; la mayoría de
los tumores en la especie humana se caracterizan por cambios cromosómicos visibles.
Algunos de estos cambios son tan característicos que pueden utilizarse para diagnosticar y
clasificar la enfermedad y para realizar una predicción precisa acerca de la gravedad y del
curso de la enfermedad.
Las formas de cáncer familiar se han conocido hace unos doscientos años. En muchos
de estos casos, se pueden establecer patrones de herencia no muy bien definidos. Sin
embargo, en un pequeño número de casos se puede establecer un patrón de herencia
mendeliano, dominante o recesivo, lo que indica la naturaleza hereditaria del cáncer. Es
necesario considerar qué propiedades de las células cancerosas las distinguen de las
células normales y qué genes controlan estas propiedades. Las células cancerosas tienen
dos propiedades en común: a) una multiplicación incontrolada y; b) la capacidad para
extenderse o producir metástasis desde su localización original a otras localizaciones
corporales.
La metástasis de las células cancerosas está controlada por productos génicos que se
localizan en la superficie celular y la genética de la metástasis está relacionada con la
compresión de cómo las células interactúan con la matriz extracelular y con otras células
mediante las moléculas de la superficie celular (Klug, 1999).
2.4.1 El ciclo celular.
El ciclo celular progresa desde un periodo de replicación del ADN cromosómico (fase
S), hasta la segregación de los cromosomas en dos núcleos en la mitosis (fase M).
Intercalados entre estos dos estadios hay dos estados de reposo, el G1 y G2. Juntos, G1,
S, G2, constituyen la interfase del ciclo celular (figura 2.2).
La fase G1 comienza después de la mitosis; en este momento se produce la síntesis de
muchos elementos citoplásmicos, como ribosomas, enzimas y orgánulos derivados de
membranas. En la fase S tiene lugar la replicación del ADN, produciéndose una copia
duplicada de cada cromosoma. Luego, hay un segundo periodo de crecimiento y síntesis,
denominado G2, como preludio de la mitosis.
Debido a que la mitosis se produce rápidamente, normalmente en menos de una hora,
la célula se encuentra la mayor parte del ciclo celular en interfase. Sin embargo, la duración
del ciclo celular (el periodo entre dos divisiones mitóticas) puede variar ampliamente entre
células en el ciclo biológico de un organismo y entre tipos celulares diferentes del mismo
organismo.
UPIITA - INGENIERÍA BIÓNICA
15
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Figura 2.2 El ciclo celular está controlado en dos y posiblemente en más puntos de control, uno es la
transición G2/M y otro al final de la fase G1, antes de entrar en la fase S. Estos puntos de control implican
interacciones entre proteínas transitorias, llamadas ciclinas y quinasas, que añaden grupos fosfatos a las
proteínas. La fosforilación de las proteínas diana disparan una cascada de sucesos que permiten el progreso a
través del ciclo celular.
2.4.2 El gen p53 y el ciclo celular.
La mutación p53 se encuentra en una amplia variedad de cánceres, como los cánceres
de mama, pulmón, vejiga y colon.
Las células normales tienen bajos niveles de la proteína p53, pero el nivel se eleva
mucho después de irradiar a las células con luz ultravioleta (UV). Las células irradiadas se
detienen temporalmente en G1 para permitir la reparación de los daños en el ADN
provocadas por la luz UV. Las células que carecen de la proteína funcional p53 son
incapaces de detenerse en G1 después de la irradiación y pasan inmediatamente de G1 a
S. Estas células no reparan los daños en el ADN ocasionados por UV; por ello, sufren una
elevada tasa de mutación. Se ha llegado a la conclusión de que p53 controla el paso a
través del ciclo celular para asegurar que el ADN dañado sea reparado antes de que la
célula entre en la fase S debido a esto, al p53 se le denomina a menudo como el guardián
del genoma (Klug, 1999).
Recientemente se ha demostrado que p53 tiene un papel en la muerte celular después
de la irradiación UV. Después de la exposición de la luz UV, algunas células entran en una
serie programada de pasos que conducen a la muerte celular o apoptosis. Este programa
se efectúa bajo la dirección del gen p53, que mata a la célula irradiada en lugar de reparar
su genoma dañado.
En células que carecen del gen funcional p53, la irradiación UV no se ve seguida de la
apoptosis (Klug, 1999).
2.4.3 La propagación de las células cancerosas.
Una célula cancerosa metastásica puede propagarse a partir de un tumor primario
entrando en el sistema circulatorio sanguíneo o linfático. Estas células son transportadas
por la circulación hasta que se fijan en una red capilar. Normalmente, más del 99 por ciento
de las células mueren; las células que sobreviven invaden los tejidos adyacentes de la red
16
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
capilar y comienzan a dividirse para formar un tumor secundario. Para alcanzar una nueva
localización, las células tumorales pasan a través de la capa de células epiteliales que
revisten el interior de la pared del capilar (o vaso linfático) y penetran en la matriz
extracelular adyacente.
La matriz extracelular es una red de moléculas proteicas y carbohidratos que separan a
los tejidos; actúa como soporte para el crecimiento de los tejidos e inhibe la migración
celular. Para establecer un tumor secundario, las células metastásicas segregan enzimas
que dirigen las proteínas de los cimientos membranosos, creando agujeros a través de los
cuales pueden desplazarse. Las células hacen un túnel a través de la matriz, entran en un
nuevo tejido y establecen un tumor secundario (Klug, 1999).
2.4.4 Modelo genético para cáncer de colon.
No obstante el pequeño número de casos en donde se ha estudiado en detalle, está
claro que el cáncer es un proceso con múltiples pasos que dan lugar a una serie de
alteraciones genéticas específicas. Ahora bien, en el estudio de tumores para el cáncer de
colon, se conocen dos formas de contraerlo: a) es heredada de un modo autonómico
dominante (conocida como poliposis adenomatosa familiar o FAP); b) que sea
completamente espontánea, haciendo posible el estudio de la interacción entre factores
genéticos y ambientales en la génesis del tumor.
Mediante el análisis de mutaciones en tumores en varios estadios, desde pequeños
crecimientos benignos o adenomas, a través de estadios intermedios, hasta tumores
malignos y metástasis tumorales, ha sido posible definir el número y la naturaleza de los
pasos genéticos y moleculares implicados en la transformación de las células epiteliales
intestinales normales en las células tumorales y desarrollar un modelo genético para el
cáncer de colon. Este modelo se presenta en la figura 2.3, el primer rasgo de este modelo
es que se requiere múltiples mutaciones. Se necesitan al menos cuatro mutaciones en
genes concretos para que se produzcan crecimiento maligno. Si hay menos cambios, se
produce crecimiento benigno o estadios intermedios en la forma del tumor. Segundo,
basándose en el análisis de muchos tumores, el orden de las mutaciones sigue
normalmente una secuencia predefinida (figura 2.3). Sin embargo, en último término, es la
acumulación de un número crítico de mutaciones específicas lo que es más importante que
el orden en el que se den (Klug, 1999).
Figura 2.3 Modelo para la producción del cáncer de colon en pasos sucesivos. El primer paso es la pérdida
o inactivación del gen APC del cromosoma 5. En los casos familiares, se hereda un gen mutante APC. La
pérdida de ambos alelos da lugar a la formación de adenomas benignos. Mutaciones posteriores, que implican
a genes en los cromosomas 12, 17 y 18 de las células de los adenomas benignos, pueden conducir a una
transformación maligna que dé lugar al cáncer de colon. Aunque las mutaciones en los cromosomas 12, 17 y
UPIITA - INGENIERÍA BIÓNICA
17
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
18 ocurren normalmente en estadios más tardíos que las mutaciones del cromosoma 5, la suma de los cambios
es más importante que el orden en el que se dan.
2.4.5 Desarrollo de estadios de cáncer de colon.
La primera mutación en la secuencia ocurre en una célula epitelial normal y da lugar a
la formación de uno o más tumores benignos. En los casos de FAP, una primera mutación
es heredada y da lugar al desarrollo de docenas o cientos de adenomas benignos en el
colon y en el recto. En los casos esporádicos, el suceso mutacional inicial tiene lugar en
una sola célula y el adenoma resultante está formado por un clon de células, todas las
células llevan la mutación. Esta primera mutación tiene lugar en el gen llamado APC,
localizado en el brazo largo o “q” del cromosoma 5. No es necesario la pérdida del alelo
correspondiente en la copia homologa del cromosoma 5 para la proliferación y formación
del adenoma. El orden relativo de las mutaciones siguientes se muestra en la figura 2.3.
Mutaciones en el oncogén ras pueden preceder o seguir a la pérdida de un segmento del
cromosoma 18 en el brazo corto o “p”. En cualquier caso, la acumulación de estas dos
mutaciones en las células del adenoma con la mutación preexistente en el cromosoma 5 da
lugar a que el adenoma crezca más y desarrolle un cierto número de excrecencias vellosas
digitiformes. Finalmente una mutación en 17p, que implica la pérdida o inactivación de p53,
da lugar a la transición hacia célula cancerosa. La metástasis ocurre después de la
formación del cáncer de colon e implica a un número desconocido de pasos mutacionales
(Klug, 1999).
2.4.6 Factores genéticos y ambientales en el cáncer de colon.
El modelo genético del cáncer de colon implica mutaciones secuenciales en oncogenes,
en genes supresores de tumores y desorganización del ciclo celular en un punto de tránsito
específico, aunque la naturaleza y función de los productos génicos normal y mutante del
gen p53 no se han identificado todavía con certeza. En casos de predisposición hereditaria
para el cáncer de colon, la primera mutación se transmite genéticamente; las restantes se
producen por la acción de agentes ambientales, indicando el papel del ambiente en el
desarrollo del cáncer (Klug, 1999).
El papel preciso del ambiente en la génesis del cáncer puede ser difícil de demostrar.
Obviamente, la introducción del cáncer puede implicar una interacción entre el genotipo y
los agentes ambientales. Los agentes ambientales responsables del cáncer incluyen los
niveles de radiación de fondo, la exposición de los trabajadores a agentes físicos y
químicos, la exposición a la luz solar y el comportamiento personal tanto en la dieta como
en el uso del tabaco. Los análisis detallados de la ingestión ajustada para la composición
de la dieta, indica que el riesgo de cáncer de colon está positivamente asociado con la
ingestión de grasa animal.
Finalmente, si la grasa se identifica como un factor de riesgo importante, sería prudente
reducir la ingestión de grasa animal a fin de reducir el riesgo de cáncer de colon. La
educación y una elección más juiciosa por parte de los individuos pueden dar lugar a la
prevención de un alto porcentaje de todos los cánceres humanos.
2.4.7 Inestabilidad genómica y cáncer.
El término de inestabilidad genómica se utiliza para describir las consecuencias que dan
lugar a las características alteraciones genómicas de las células cancerosas. Al menos tres
clases de defectos genéticos pueden dar lugar a la inestabilidad genómica: defectos de la
UPIITA - INGENIERÍA BIÓNICA
18
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
reparación y replicación del ADN, segregación anormal de cromosomas y defectos en el
control del ciclo celular.
El modelo para el desarrollo del cáncer de colon en la poliposis adenomatosa familiar
(FAP) es un ejemplo del papel de la inestabilidad genética en el cáncer, como lo prueba el
número de mutaciones distribuidas a lo largo del genoma. Una relación más directa entre
inestabilidad genómica y cáncer de colon se ha descubierto recientemente en otra forma de
cáncer de colon no asociada con la formación de pólipos. A esta forma se le denomina
cáncer de colon sin poliposis, y explica por encima del 15 por ciento de todos los casos de
cáncer de colon. El gen responsable para la susceptibilidad de este tipo de cáncer de
colon, llamado FCC, se ha localizado en el cromosoma 2.
De manera sorprendente, las células malignas de los individuos afectados no presentan
alteraciones en el cromosoma 2, sino que muestran cambios en cortas secuencias de ADN
repetitivo (llamadas ADN microsatélite o repeticiones variables de nucleótidos en tándem),
dispersas a lo largo del genoma. Estas alteraciones genómicas a gran escala, que quizá
representan miles de alteraciones, indican que el gen FCC puede afectar a la exactitud de
la replicación del ADN; cuando el gen FCC es mutante da lugar a una amplia inestabilidad
genómica. Recientemente se ha identificado y clonado el gen, y se estima que el gen
mutante puede encontrarse en 1 de cada 200 individuos en el mundo occidental,
convirtiéndolo en una de las anomalías genéticas más corrientes.
Además, los estudios preliminares en el gen FCC indican que la inestabilidad de los
microsatélites preceden a la formación de los tumores de colon y pueden ser un suceso
temprano en el desarrollo del cáncer (Klug, 1999).
2.4.8 El cáncer como enfermedad genética.
Si consideramos al cáncer como una enfermedad genética, se establece que esta es
producida por la mutación de determinados genes de una célula determinada y que
adquiere así las características propias de dicha enfermedad (figura 2.4).
Los genes que son afectados que pueden causar deformaciones tales que producen
cáncer pueden ser de tres tipos:
1.- Oncogenes: son genes mutados que proceden de otros llamados protooncogenes y
son encargados de la regulación del crecimiento celular.
2.- Genes supresores tumorales. Son los encargados de detener la división celular y de
provocar la apoptosis: cuando se mutan estos genes, la célula se divide sin control.
3.- Genes de reparación del ADN. Cuando el sistema de reparación es defectuoso como
resultado de una mutación adquirida o heredada, la tasa de acumulación de mutaciones en
el genoma se eleva a medida que se producen divisiones celulares. Según el grado en que
estas mutaciones afecten a oncogenes y genes supresores tumorales, aumentara la
probabilidad de padecer neoplasias malignas.
La carcinogénesis es la formación del cáncer por medio de los carcinógenos o de
enfermedades genéticas.
UPIITA - INGENIERÍA BIÓNICA
19
Figura 2.4 El cáncer es producido por la mutación de determinados genes de una célula determinada y que
adquiere así las características propias de dicha enfermedad.
2.5 Alineación de cadenas de ADN.
El alineamiento de dos secuencias de ADN permite conocer la relación que existe entre
ambas secuencias. En este caso, un alineamiento óptimo, es aquel que hace máxima la
suma de las puntuaciones de los residuos alineados. Esto se realiza primero alineado las
secuencias de al menos dos cadenas (o parte de estas) y después decidiendo si el
alineamiento es mayor debido a que las secuencias están más relacionadas o no lo están.
Lo que se discute es: (1) que tipos de alineamientos podrían ser considerados; (2) el
sistema de puntaje utilizado para el rango de los alineamientos; (3) el algoritmo utilizado
para encontrar el puntaje de alineamiento óptimo; (4) los métodos estadísticos utilizados
para evaluar el significado de un puntaje de alineamiento.
2.5.1 Métodos de alineamientos
Existen dos tipos de alineamientos: alineamiento global (Needleman-Wunsch) figura 2.5
y alineamiento local (Smith-Waterman) figura 2.6. Estos métodos se basan en el tipo de
alineaciones utilizadas por algoritmos de programación dinámica. Lo que tratan de hacer
estos algoritmos es mantener alineados secciones de secuencias que son iguales o en su
defecto se realiza un mínimo de sustituciones. Sin embargo, cuando se tienen secciones
que no empatan es necesario realizar inserciones o el borrado de estas secciones, con el
propósito de que una sección que se encuentra más adelante vuelva a empatar. La manera
más fácil de realizar alineaciones es por medio de pares de secuencias. Las secuencias
pueden ser cadenas de ADN o cadenas de ARN. Para realizar los alineamientos con
cadenas de ARN se utilizan matrices de sustitución tipo Blosum, que se utilizan para
mantener la calificación individual entre dos moléculas de ARN (Durbin, 1998). A manera
de ejemplo se muestran los dos tipos de alineamiento. En el alineamiento global (figura 2.5)
se muestran dos cadenas de ADN que fueron alineadas. Del resultado obtenido, se
UPIITA - INGENIERÍA BIÓNICA
20
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
observa que en aquellas bases en donde hay coincidencias existe una línea vertical,
además en donde hubo necesidad de añadir inserciones las dos cadenas no coinciden. Se
observa que en el alineamiento local (figura 2.6) el número de coincidencias es mayor que
en el alineamiento global.
Alineamiento global
Como podemos observar el alineamiento global nos da como resultado las secciones
del ADN en donde las bases coinciden, esta coincidencia se representa con una línea
vertical, el número de empates se representa por las identidades que en este caso se
obtuvo 129 identidades sobre 256 bases de ADN o 50%. Además, el número de bases
donde hay una sustitución se representa por el símbolo de dos puntos (:), el número de
empates y de sustituciones nos representa la cantidad de positivos, se representa con 175
valores positivos sobre 256 bases o 68%. Los guiones o “gaps” representan espacios que
fueron necesarios colocar para hacer un mejor alineamiento. La representación de los
colores en la alineación es la siguiente: el color rojo representa los empates; el color rosa
las sustituciones; el color negro representa donde no hubo coincidencia de las bases y no
es posible realizar una sustitución.
Alineamiento local
21
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
El alineamiento local busca en las dos cadenas la mejor alineación. En el ejemplo se
muestra una alineación en donde todas las bases coincidieron, por lo tanto, el número de
identidades es del cien porciento, este alineamiento es mas preciso que el global, pero
generalmente el número de bases que se utiliza en el local es menor que el alineamiento
global.
2.6 Blast
Existe una amplia tradición en la biología de análisis comparativo encaminado a la
investigación. Por ejemplo, las comparaciones que realizó Darwin sobre las características
morfológicas del Pinzón de los Galapagos y otras especies lo llevarón a postular la Teoría
de la Selección Natural. En escencia, actualmente se realiza el mismo tpo de análisis
cuando se hacen comparaciones de secuencias de genes y proteínas pero en un mayor
detalle. En esta actividad la similaridades y diferencias - al nivel de bases individuales o
aminoácidos – son analizados, con el propósito de inferir la relación estructural, funcional, y
evolutiva entre las secuencuias bajo estudio. El método comparativo más común es la
alineación de secuencias, que provee un mapeo explícito entre los residuos de dos o más
secuencias.
En la actualidad existe disponible en internet una serie de herramientas computacionales
que ayudan a realizar análisis comparativo de secuencias, una de las más importantes se
le conoce como Blast. Los programas Blast introducen un número de refinamientos a la
búsqueda de bases de datos que mejora sobre todo la velocidad de búsqueda y coloca la
búsqueda de base de dotos sobre un fundamento estadísticamente firme. Una innovación
introducida en Blast es la idea de las palabras vecinas. En vez de requerir palabras para un
empate exactamente, una palabra encontrada se logra si la palabra tomada de la
secuencia sujeto tiene una puntuación de al menos T cuando una comparación se hace
utilizando una matriz de sustitución de la palabra a partir de la pregunta (query). Esta
estrategia permite que el tamaño de la palabra (W) se mantenga alta (para velocidad) sin
sacrificar sensitividad. Así, T se combierte en un parámetro crítico que determina la
velocidad y sensitividad y W raramente varia. Si el valor de T se incrementa el número de
palabras encontradas de respaldo bajará y el programa correrá rápidamente. Reduciendo T
permite una mayor relación de distancia para ser encontrada.
Existen diferentes variantes de blast, cada una se distingue por el tipo de secuencia
(ADN o proteína) del query y secuencias de bases de datos. El programa BLASTP
compara un query de proteína para una base de datos para proteína. El programa
correspondiente para secuencias de nucleótidos es BLASTN. El tipo de secuencia difiere,
la secuencia de ADN puede ser trasladada por el programa y ser comparada a una
secuencia de proteína. BLASTX compara un query de secuencia de ADN con una base de
datos de proteína que es útil para analizar nuevas secuencias de datos. Para un query de
proteína contra una base de datos de nucleótidos se utiliza el programa TBLASTN. Este es
útil para encontrar regiones de códigos no anotadas en secuencias de bases de datos, una
variante final es utilizadas solamente en situaciones especiales pero se menciona aquí
para completar los programas: TBLASTX toma un query de ADN y secuencias de bases de
datos, ambas trasladas, y las compara entonces como secuencias de proteínas. Este
programa es principalmente útil para comparación de etiquetas de secuencias expresadas,
donde se sospecha que las secuencias podrían tener un potencial de codificación a pesar
de que la región de código no ha sido determinada (Baxevanis, 2001).
UPIITA - INGENIERÍA BIÓNICA
22
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
En este trabajo no se utilizará ninguno de los programas de BLAST sin embargo se hará
una comparación de las capacidades que tiene el programa que se implementó utilizando
los algoritmos de gramáticas difusas, con respecto a los programas de BLAST.
2.7 Introducción a la Gramática.
En la siguiente sección se presenta las definiciones de gramáticas, y posteriormente la
definición de gramáticas difusas libres de contexto.
2.7.1 Definición de Gramática.
Formalmente una gramática (G) se define por su alfabeto, sus variables, su símbolo raíz
de inicio y sus reglas de reescritura: G = (N, T, S, P), donde N es el alfabeto de la
gramática, T sus variables, S símbolos de inicio y P son las reglas de reescritura. El
lenguaje generado por la gramática denotado por L (G), es el conjunto de todas las
cadenas (posiblemente un número infinito) que pueden ser generadas por G.
2.7.2 Tipos de Gramática.
Existen cuatro tipos principales de gramáticas, que surgen de los diferentes tipos de
estructuras en las reglas de producción o simplemente producción.
Una regla de reescritura es de la forma a->p, donde a y p son cadenas de caracteres
hechas de símbolos intermedios y finales, en las cuales se indica un intercambio de a por/?
(Hopcropft, 1979; Johnsonbaugh, 1999; Duda, 2001).
Gramática tipo 0: Es libres y sin restricciones. Una gramática libre no tiene restricciones
sobre las reglas de reescritura, de esta manera estas no tienen restricciones o una
estructura sobre las cadenas que pueden producir. Mientras que, en principio, éstas
pueden expresar un conjunto arbitrario de conjunto de reglas, esto generalmente genera un
enorme gasto de tiempo de aprendizaje sin fin. Sabiendo que una cadena se deriva de una
gramática de tipo 0, no se provee ninguna información y como tal, las gramáticas de tipo 0
han encontrado un uso muy restringido en el reconocimiento de patrones.
Una gramática de tipo 0, es aquella en la que no se tiene restricción alguna sobre las
reglas de reescritura, por lo cual, esta gramática no se emplea en el reconocimiento de
patrones, por que no se obtiene ningún tipo de información.
Por ejemplo: El autómata que puede implementar la gramática 0 es una máquina de
Turing.
3
Gramática tipo 1: Es sensible al contexto. Es llamada sensible al contexto si cada regla
de reescritura tiene la forma:
Donde a y p son cualquier tipo de cadena hecha de símbolos intermedios y finales, I es
un símbolo intermedio, y x es un símbolo intermedio o terminal (diferente a s -símbolo de
vacío-). Se dice que I puede ser rescrita a x, en el contexto de que a represente el inicio de
la cadena y p el final de la misma, sí existe un cambio sólo en la parte central de la
3
La máquina de Turing es un modelo matemático computacional abstracto que formaliza el
concepto de un algoritmo.
UPIITA - INGENIERÍA BIÓNICA
23
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
cadena entonces se respeta el contexto de dicha cadena, lo que puede proporcionar datos
importantes referentes al reconocimiento de patrones.Por ejemplo, el autómata que puede
implementar las gramáticas sensibles al contexto es el que esta acotado linealmente.
Gramática tipo 2: Es libre del contexto. Es llamada libre de contexto si cada producción
es de la forma:
donde I es un símbolo intermedio y x es una secuencia de símbolos intermedios o
terminales (diferente a ε). Claramente, a diferencia de la gramática tipo 1, no hay necesidad
de un “contexto” para la reescritura de I por x. En otras palabras, este tipo de gramática no
respeta la posición de los elementos de una cadena, haciendo el cambio de estos de
manera arbitraria, respetando únicamente el tamaño de la cadena.
Por ejemplo, las gramáticas libres de contexto pueden ser reconocidas por medio de los
autómatas de pila.
Gramática tipo 3: Estado finito o regular. Una gramática es llamada regular si cada regla
de reescritura es de la forma:
(3)
Donde a y ¡3 son símbolos intermedios y z es un símbolo terminal (diferente a s). Este
tipo de gramática también es llamada estado finito debido a que estas pueden ser
generadas por una máquina de estado finito. Una máquina de estado finito es aquella en la
que existe un número finito de estados que la máquina puede adoptar. Cada vez que la
máquina lee el siguiente carácter, ocurre en ella un cambio de estado. Algunos de los
estados que el aceptor puede adoptar se llaman estados finales, y si el aceptor intenta leer
más allá del final de la cinta mientras se encuentra en un estado final, la cadena que está
en la cinta se dice que fue aceptada por el autómata finito.
Agregando, un lenguaje generado por una gramática de tipo i es llamada lenguaje i. Se
puede demostrar que cualquier gramática de tipo i puede incluir todas las gramáticas de
tipo i + 1; de esta forma existe una gramática estricta que soporta a otras gramáticas.
Cualquier gramática de libre contexto puede ser convertida a una forma normal de
Chomsky (FNC). Tal tipo de gramática tiene todas sus reglas de la forma:
(4)
Donde A, B y C son símbolos intermedios (es decir del tipo I), y z es un símbolo
terminal. Por cada gramática libre de contexto G, existe otra G’ en la formal normal de
Chomsky tal que L(G) = L(G’) (Duda, 2001).
Duboi y Prade (1980) mencionan que en muchas aplicaciones la información
estructurada, como lo puede ser una cadena de ADN, es inherentemente vaga. Es decir se
puede obtener una gramática que describa a una determinada secuencia de bases de
UPIITA - INGENIERÍA BIÓNICA
24
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
ADN, sin embargo, puede existir la posibilidad de que exista una segunda cadena parecida
a la primera, sin embargo, no puede ser reconocida por la gramática de la primera cadena.
El hecho de que existan dos cadenas diferentes se debe al hecho de que de manera
espontánea una determinada base puede ser sustituida por otra base de manera aleatoria.
Para este tipo de sucesos, es recomendable ampliar el grado de fusificación de las
primeras muestras, para obtener así un nivel de pertenencia con características más
detalladas que brinden mayor información. Cada cadena es un elemento de un universo de
discurso formada por una cadena general que contiene a todo un grupo de cadenas: por
cada una de estos elementos se le asigna un grado de membresía o pertenencia, que se
encuentra entre cero y uno, con respecto al universo de discurso (cadena universo de
discurso), debido a que el universo de discurso siempre tiene un grado de pertenencia igual
a uno.
La precisión de un lenguaje formal (algoritmos computacionales) contrasta con la
imprecisión de los lenguajes naturales o biológicos. Para reducir la brecha que existe entre
estos dos, es natural introducir aleatoriedad en las estructuras de los lenguajes formales,
llevando esto al concepto de lenguajes determinísticos y estocásticos (Gusfiield, 1997;
Mordeson, 2002). Otra posibilidad radica en la utilización de conjuntos difusos, sobre esta
segunda posibilidad es que se apoya el análisis gramatical que se realizará en esta tesis.
Se define, al igual que se hizo con las gramáticas certeras, el equivalente a los
diferentes tipos de gramáticas difusas, pero antes se hace una definición de gramáticas
difusas.
2.7.3 Definición de gramáticas difusas.
Una gramática difusa, informalmente, puede ser definida por medio de un conjunto de
reglas para generar los elementos de un conjunto difuso. Una gramática difusa (GD)
formalmente está definida por la séxtupla:
(5)
UPIITA INGENIERIA BIONICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
2.8 Lógica Difusa o Borrosa y Probabilidad.
Es importante evitar confundir la función de pertenencia de un conjunto difuso con una
función de densidad de probabilidad. Debe tenerse siempre presente que la función de
pertenencia de un conjunto difuso indica hasta qué punto cierto valor de una magnitud
puede ser incluido en un conjunto difuso, mientras que la probabilidad, por su parte, indica
la frecuencia con la que diversos valores de una magnitud se presentan.
Una manera de entender la diferencia entre función de pertenencia y probabilidad de un
evento es explicando el siguiente caso. Suponiendo que tuviéramos dos botellas cuyo
contenido no podemos ver pero que tiene cada una de ellas una etiqueta. La primera
botella indica µ = 0.9, es decir tiene un grado de pertenencia de 0.9 de ser agua, y la
segunda botella indica ρ = 0.9, es decir tiene una probabilidad de 0.9 de ser agua. La
pregunta es, ¿qué botella escogeríamos?, analizando la información que se proporciona
podemos seleccionar adecuadamente la botella. En la primera botella el grado de
pertenencia de 0.9 nos dice que no es agua, pero que es un líquido cercano a ser agua, en
cambio, en la segunda botella el hecho de que tenga una probabilidad de 0.9 de ser agua
nos indica al mismo tiempo que existe una probabilidad de 0.1 de no ser agua. Por lo tanto,
lo más apropiado será seleccionar aquella botella con el grado de membresía de 0.9 de ser
agua. Al momento de verificar el contenido de las botellas observamos que la primera
botella tiene cerveza, y la segunda botella contiene lodo, es decir la cerveza no es agua,
pero está próxima a ser agua, en cambio en la segunda botella existió la mala fortuna del
10% de no ser agua. Concluyendo, la información que nos ofrece el grado de pertenencia
se refiere a que un elemento tiene una pertenencia a ser otro elemento u objeto, en cambio
la probabilidad es información de un evento que puede llegar a suceder, pero que no se
sabe hasta el momento en que ocurre el evento.
Aunque muchas de las expresiones matemáticas de la lógica difusa son similares a
otras del campo de la probabilidad, su sentido es bien distinto. Las funciones de
pertenencia a un conjunto son fijadas arbitrariamente por el observador, indicando el
significado que éste asigna a cada uno de las variables lingüísticas que definen los
conjuntos. Por el contrario, la probabilidad se determina por la observación de la ocurrencia
de los valores de una magnitud, en algunos casos se realiza la medida de esta
probabilidad, y en otros se supone un modelo y se comprueba su validez (Martín, 2001).
NOTA: Si se quisiera emplear una cadena que contenga cáncer para analizar un
segmento cancerígeno en el buscador de excel, la información que se obtiene es de forma
certera y solamente nos proporciona el número de veces que se repite ese tipo de cadena
a lo largo del segmento.
Por lo contrario, el programa Análisis del ADN para Detectar Cáncer de Colon, está
diseñado para dar al usuario una interfaz gráfica y visualizar de una mejor forma los
resultados analizados, así como el número de incidencias que tiene la cadena cancerígena
(con el valor de 1), que se utiliza para detectar el cáncer de colon en el ADN del paciente.
UPIITA - INGENIERÍA BIÓNICA
26
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
CAPÍTULO 3
DESARROLLO.
27
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
3.1 Metodología
Desde el punto de vista genético un segmento de ADN es el mismo durante toda la
cadena, inclusive aún cuando cambian algunas de sus bases. Por ejemplo, los segmentos
actctctggcatat, actctccctcatat, actctctgggcttaa y ctctctggcatat, por ello es necesario emplear
algoritmos que identifiquen esos cambios (Jones, 2004).
En este capítulo se plantea la metodología y los algoritmos que se usaron para el
estudio y análisis de la cadena de ADN con cáncer, así como también se da la justificación
de la plataforma Java que es específicamente en donde trabaja el programa final, El
algoritmo que se utiliza es el de Cocke Younger Kasami (CYK) adaptado para el lenguaje
libre de contexto difuso, nos permite analizar cadenas de ADN a partir de un segmento de
ADN con cáncer. Este algoritmo presenta la ventaja de que nos da el grado de pertenencia
de el segmento de ADN que se está analizando, a diferencia del mismo algoritmo en el
caso certero (apéndice A anexo en el C.D.), únicamente se reconocerían segmentos que
empaten exactamente con el segmento de ADN con cáncer. Para entender el uso del
algoritmo CYK se presenta un ejemplo.
Otro algoritmo que se incluye en este capítulo es el método que nos permite cambiar
una gramática no necesariamente libre de contexto a la forma normal de Chomsky, la cual
es efectivamente una gramática libre de contexto, también se incluye un ejemplo para
ilustrar el procedimiento de esta forma de reescritura entre gramáticas.
A continuación se muestran los pasos que se siguieron para el desarrollo del trabajo.
1) Se obtuvieron las secuencias de ADN con y sin cáncer de la base de datos del Centro
Nacional para la Información Biotecnológica (CNIB) (www.ncbi.nih.gov/), dicha información
aparece de la siguiente forma:
El archivo de cáncer está dado en un formato GenBank. Este tipo de archivos contiene
siempre un encabezado en donde se especifican las características de la cadena de ADN.
Dentro de las características que se muestran podemos encontrar, que tipo de organismo
es al que pertenece la cadena de ADN, las personas que extrajeron la información, el
correo electrónico para contactarlas, la fecha de registro, entre otras características. Para
tener una visión mas clara de los archivos utilizados, se muestra un segmento de un
archivo de ADN. Los datos que se presentan son de un paciente de cáncer de colon,
localizado en el cromosoma 18p, esta secuencia se encuentra acotada por ser de 184440
pares de bases (pb), y solo se expresa la parte más afectada. Para el análisis de este
trabajo no es necesario considerar el encabezado por lo que se elimina y solamente se
utiliza la información relacionada con el ADN, es decir las bases nitrogenadas.
UPIITA - INGENIERÍA BIÓNICA
28
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
AUTHORS
Hattori,M., Toyoda,A., Taylor,T.D., Fujiyama,A., Yada,T.,
Totoki,Y., Watanabe,H. and Sakaki,Y.
TITLE
Homo sapiens genomic DNA JOURNAL
Published Only in Database (1999) REFERENCE 2
(bases 1 to 184440)
AUTHORS Hattori,M., Ishii,K., Toyoda,A., Taylor,T.D., Hong-Seog,P.,
Fujiyama,A., Yada,T., Totoki,Y., Watanabe,H. and Sakaki,Y.
TITLE
Direct Submission
JOURNAL Submitted (17-DEC-1999) Masahira Hattori, The Institute of Physical
and Chemical Research (RIKEN), Genomic Sciences Center (GSC);
1-7-22 Suehiro-chou,Tsurumi-ku, Yokohama, Kanagawa 230-0045, Japan
(E-mail:[email protected], URL:http://hgp.gsc.riken.go.jp/,
Tel:81-45-503-9111, Fax:81-45-503-9170)
COMMENT
On Mar 25, 2003 this sequence version replaced gi:22202651.
FEATURES
Location/Qualifiers
source
1..184440
/organism="Homo sapiens"
/mol_type="genomic DNA"
/db_xref="taxon:9606"
/chromosome="18"
/map="18p"
/clone="RP11-737O24"
También se muestran las secuencias en formato GenBank sin cáncer el cromosoma
18p, de igual manera se encuentra acotada por ser de 35420 pb.
4
www.ncbi.nih.gov/
UPIITA - INGENIERÍA BIÓNICA
29
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
DEFINITION Homo sapiens genomic DNA, chromosome 18 clone:CMF18-87P17,
Complete sequence.
ACCESSION AP005530 VERSION
AP005530.3 GI:28872840 KEYWORDS
HTG. SOURCE
Homo sapiens (human)
ORGANISM
Homo sapiens
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;
Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; Homo.
REFERENCE 1
AUTHORS Hattori,M., Ishii,K., Toyoda,A., Taylor,T.D., Hong-Seog,P.,
Fujiyama,A., Yada,T., Totoki,Y., Watanabe,H. and Sakaki,Y.
TITLE
Homo sapiens genomic DNA JOURNAL Published Only in Database
(2002) REFERENCE 2 (bases 1 to 35420)
AUTHORS Hattori,M., Ishii,K., Toyoda,A., Taylor,T.D., Hong-Seog,P.,
Fujiyama,A., Yada,T., Totoki,Y., Watanabe,H. and Sakaki,Y.
TITLE
Direct Submission
JOURNAL Submitted (17-JUL-2002) Masahira Hattori, The Institute of Physical
and Chemical Research (RIKEN), Genomic Sciences Center (GSC);
1-7-22 Suehiro-chou,Tsurumi-ku, Yokohama, Kanagawa 230-0045, Japan
(E-mail:[email protected], URL:http://hgp.gsc.riken.go.jp/,
Tel:81-45-503-9111, Fax:81-45-503-9170)
COMMENT
On Mar 6, 2003 this sequence version replaced gi:25137545.
FEATURES
Location/Qualifiers
source
1..35420
/organism="Homo sapiens"
/mol_type="genomic DNA"
/db_xref="taxon:9606"
/chromosome="18"
/map="18p"
/clone="CMF18-87P17"
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Como se puede observar en las numeraciones de ambos archivos, las muestras que
sirvieron para las pruebas, los alineamientos y el programa final, se fueron tomando de
2000 en 2000 pb, ya que el procesador de la computadora que se utilizó se veía afectado,
por que los recursos que tenía que utilizar para poder procesar la información excedían la
capacidad de la máquina, esto hacia mas lenta la obtención de los resultados.
2) Se hizo el estudio de diferentes segmentos con y sin cáncer para establecer cual de
ellas se emplearían, con el propósito de obtener la cadena cancerígena ideal, para la
programación libre de contexto difuso del programa final.
3) Una vez que se han identificado los segmentos, son copiadas a una hoja del
WordPad y guardadas como texto con la extensión .txt, para después ser utilizadas en un
programa realizado en la plataforma de Java (apéndice B), que nos permite eliminar todo
aquello que no sean bases nitrogenadas, es decir, los espacios, nombres y números del
encabezado. Posteriormente, las secuencias depuradas son copiadas al lenguaje de
Matlab, ya que con la ayuda de un Toolbox de Bioinformática que contiene la versión 7 de
Matlab, nos permite hacer los alineamientos y a obtener resultados confiables.
A continuación en la figura 3.1 se muestra sólo el primer alineamiento que va del 1 hasta
1981, debido a que las secuencias son muy extensas, únicamente se presenta la primera
parte:
La siguiente figura 3.2 presenta el alineamiento de las secuencias, de una forma más
ordenada:
UPIITA - INGENIERÍA BIÓNICA
31
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Donde la primera linea muestra el porcentaje de empalmes identicos, en este caso es
de 37%, esto es que únicamente el 37% de toda la secuencia es parecida, los positivos
toma en cuenta tanto los empates como las sustituciones de bases, en la segunda linea se
presenta la secuencia con cáncer, en la tercera fila se encuentran los símbolos “:” , “|” y “-”
los dos puntos representan los lugares donde pueden haber sustituciones de bases, las
lineas verticales es en donde existen empalmes entre las dos secuencias y “-” llamadas
gaps sirven para que posteriormente una secuencia pueda ser empatada, finalmente la
cuarta fila es la secuencia sin cáncer, este formato se repite a lo largo de toda la secuencia.
Las letras en rojo representan los alineamientos en las que las dos secuencias son
identicas, las rosas; pueden ser sustitidas por cualquier otra base y finalmente las letras en
negro así como las gaps; son introducidas por la propia función de Matlab para hacer un
mejor alineamiento.
4) Como siguiente paso después de la alineación se realiza una selección de la
cadena con cáncer con mayor número de empates.
5) Una vez que se tiene la cadena con cáncer se realiza la programación en Java de la
gramática libre de contexto difusa, en donde el criterio para seleccionar el grado de
membresía es en base al tamaño de ésta. El programa se divide en dos partes, en la
primera parte se establece el nombre de los archivos de ADN que leerá para poder
compararlos, los contadores, y crea el archivo de texto donde se guardan los grados de
membresía, posteriormente llama al segundo programa utilizándolo como una función. En
la segunda parte es en donde se programa, tanto la gramática como los grados de
membresía, (apéndice B, programa 2.B).
6) Y finalmente, el programa en Java donde se emplea la gramática libre de contexto
difusa, devuelve el resultado del análisis en un archivo de texto, donde éste es abierto en
Matlab, para la obtención de la gráfica y así poder verificar los resultados obtenidos de
cada análisis.
UPIITA - INGENIERÍA BIÓNICA
32
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
3.2 Java.
Actualmente, Java es uno de los mejores lenguajes de programación que existen y
algunas de las razones son las siguientes:
Los diseñadores de Java han omitido, deliberadamente, todas las características
superficiales de los lenguajes de programación: han reducido el diseño a lo más esencial.
El resultado es un lenguaje que reúne todas las características necesarias combinadas de
una manera elegante y lógica. El diseño es ligero, poderoso y fácil de aprender (Bell,
2003).
Java esta basado en C y C++ e incorpora caracteristicas de otros lenguajes orientados
a objetos. Incluye extensas bibliotecas de clases con componentes para multimedia,
conectividad a red, subprocesos multiples, gráficos, acceso a base de datos, computación
distribuida y más.
Uno de sus atributos es su portabilidad; es posible escribir programas Java en una
computadora y ejecutarlos sin necesidad de modificarlos (Deitel, 1999).
Java es robusto; si un programa de Java falla, no provoca destrozos, daños ni
incertidumbre. Como los programas en Java se ejecutan dentro de una “jaula” de
protección, los efectos de cualquier error están confinados y controlados; incluso están
protegidos contra la filtración de virus (Bell, 2003).
3.3 Algoritmo CYK adaptado para el Lenguaje Libre de Contexto Difuso.
Un algoritmo es una secuencia de instrucciones que uno debe de seguir a fin de
solucionar un problema bien formulado. Se puede especificar un problema en términos de
sus entradas y sus salidas, y el algoritmo será el método de trasladar esas entras hacia sus
salidas. Un problema bien formulado no tiene ambigüedades y es preciso, no dejando lugar
a malas interpretaciones.
A fin de resolver un problema es necesario llevar a cabo los pasos especificados por el
algoritmo. Una persona con pluma y papel debería de ser capaz de hacer esto, pero los
humanos son generalmente lentos, cometen errores y prefieren no realizar trabajo
repetitivo. En cambio, una computadora es menos inteligente pero puede realizar pasos de
manera más rápida y con mayor exactitud. Una computadora no puede entender español,
de manera que los algoritmos deben de ser reescritos en un lenguaje de programación tal
como C o Java a fin de dar las instrucciones precisas al procesador. En este trabajo se
utilizó el lenguaje Java para implementar los algoritmos.
El algoritmo CYK es un algoritmo clásico que permite a partir de una gramática libre de
contexto reconocer segmentos de texto en una cadena de texto con la posibilidad de que a
un determinado segmento se le asocie el grado de pertenencia que va desde 0 (nula
pertenencia) hasta 1 (total pertenencia), considerando toda la gama de grados de partencia
que se encuentren entre cero y uno. Sin embargo, este algoritmo no es capaz de reconocer
segmentos en donde haya una pequeña modificación del texto que se esta buscando. Por
lo tanto, en este trabajo de tesis se utilizó el algoritmo CYK para lenguajes libres de
contexto con la variante difusa. Esto trae como ventaja que se pueden reconocer
segmentos de texto con pequeñas o grandes variantes a partir de una gramática dada.
Para el análisis de cadenas de ADN esto lleva una ventaja debido a que, como se había
UPIITA - INGENIERÍA BIÓNICA
33
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
comentado, segmentos de ADN pueden cambiar de manera normal en algunas de sus
bases y sin embargo se pueden considerar como el mismo segmento.
De este algoritmo se derivan otros dos métodos; la gramática libre de contexto difuso-I,
donde I hace la operación min, es decir, toma únicamente el valor mínimo del grado de
membresía de cada conjunto (apéndice A) y la gramática libre de contexto difuso-M, donde
M hace un producto algebraico de los grados de membresía de cada conjunto, este
segundo método se desarrolla a continuación con el Algoritmo 3.1.
Algoritmo 3.1. Dada la gramática libre de contexto difuso-L libre de X G = (V, I, P, S)
en forma normal de Chomsky y una cadena a1a2 …an con (n> 1) se construye
estrictamente la matriz triangular (n + 1 ) x ( n +1) reconociendo la matriz T por el programa
de la figura 3.3, donde cada
elemento ti,j es un subconjunto finito de N
x L con N = V - Z. Usualmente cada ti,j esta inicialmente vacío.
Donde para cada m >0 (m∈L ),µ(a1a2…an ∈L(G)) = m si y solo si (S,m)∈t0n
Las gramáticas libres de λ (símbolo vació) o libres de contexto incluyen como símbolos
terminales únicamente los que están definidos por símbolos terminales, y no incluyen
ningún otro símbolo. Esto no permite ambigüedades.
Ejemplo 1. Considerar la gramática libre de contexto difuso-Μ G8=(V8,Σ ,P8,S),y la
cadena [, [, ?, ?, terminal Σ8 , con Σ8=Σ5={¿, ?, [, ]}, V8=Σ8∪{S, A, B, C, D, E, F}, y P8,
considerando las siguientes reglas:
y µ tiene valor de 1 en otro casos. La gramática G8 esta en forma normal de Chomsky libre de λ.
Para resolver este ejemplo se utiliza el algoritmo 3.1.
UPIITA - INGENIERÍA BIÓNICA
34
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Solución:
UPIITA - INGENIERÍA BIÓNICA
35
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
El ejemplo 1 también se puede resolver de la forma tabular, que se explica a
continuación:
Solución Paso 1: Tabular en forma diagonal la cadena, basándose en las reglas de producción.
Paso 2: Para obtener el t0,2 , se toman los valores de t0,1 y t1,2 y se realiza la multiplicación uno
a uno, utilizando las reglas. Por lo tanto la tabla quedará de la siguiente manera:
Paso 3: Para obtener el t1,3 , se toman los valores de t1,2 y t2,3 y se realiza la multiplicación uno
a uno, utilizando las reglas. Por lo tanto la tabla quedará de la siguiente manera:
Paso 4: Para obtener el t0,3 , se toman los valores de (t0,1 y t1,3) y (t0,2 y t2,3) se realiza la
multiplicación uno a uno, tomando en cuenta los valores que no se repite. Por lo tanto la
tabla quedará de la siguiente manera
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Paso 5: Para obtener el t2,4 , se toman los valores de t2,3 y t3,4 se realiza la multiplicación uno
a uno, Por lo tanto la tabla quedará de la siguiente manera:
Paso 6: Para obtener el t1,4 , se toman los valores de (t1,2 y t2,4) y (t1,3 y t3,4) se realiza la
multiplicación uno a uno, tomando en cuenta los valores que no se repite. Por lo tanto la
tabla quedará de la siguiente manera:
Paso 7: Para obtener el t0,4 , se toman los valores de (t0,1 y t1,4) y (t0,2 y t2,4) y (t0,3 y t3,4) se realiza
la multiplicación uno a uno, tomando en cuenta los valores que no se repite. Y finalmente la
tabla queda de la siguiente manera:
Concluimos que la cadena [ [ ? ?, pertenece a la gramática anterior y teniendo µ([ [ ?
?;L(G8))=0.81. Para poder transformar cualquier tipo de gramática a una en la forma normal
de Chomsky se realiza una simplificación de la gramática como se muestra en el siguiente
subtema.
3.4 Simplificación de las Gramáticas Libres de Contexto.
3.4.1 Forma Normal de Chomsky o FNC.
Existen dos tipos de reescritura la forma normal de Chosmky y la forma normal de
Greibach (apéndice A), en este trabajo se utiliza la forma normal de Chomsky o FNC,
debido a que un segmento de ADN es fácil obtenerlo de una gramática en FNC.
El método para convertir a FNC se muestra por medio del teorema y demostración del
mismo. Es decir, el teorema muestra la FNC y la demostración describe el método para
obtener este formato
Ahora comprobaremos los dos primeros teoremas de la forma normal. Cada uno
declara que todas las gramáticas libres de contexto son equivalentes a gramáticas con
restricciones en las formas de producción.
UPIITA - INGENIERÍA BIÓNICA
37
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
TEOREMA 1: (forma normal de Chomsky o FNC). Cualquier lenguaje libre de contexto
sin G , es generado por una gramática en los cuales todas las producciones donde la forma
A^BC ó A^a. Donde A,B y C son variables y a es un terminal.
Demostración: Sea G una gramática libre de contexto generando un lenguaje que no
contenga e. Podemos encontrar una gramática equivalente, G1 = (V, T, P, S), tal que P no
contiene unidades de producción o producciones e. Por lo tanto si una producción tiene un
solo símbolo, este símbolo es un terminal y la producción es en realidad de forma
aceptable.
Ahora consideraremos una producción en P, de la forma A^X1X2..Xm donde m > 2.Si Xi
es un terminal, a, introduce una nueva variable Ca y una producción Ca^a, los cuales están
de una forma admisible.
Si a=>/?, entonces ak(5. Entonces reemplazamos Xi por Ca. Sea un nuevo conjunto de
variables que están en V y el nuevo conjunto de producciones que están en P. Considerar la
gramática G2 = (V, T, P’, S ) 5.
EntoncesL(G1) c L(G2). Ahora mostramos para la introducción, el número de pasos en
una derivación si A^>w, para A en V y w en T*, entonces A±>w. El resultado es trivial
G2
G1
para un paso de derivación. Suponiendo que esto es verdad para las derivaciones de arriba a
k pasos. Sea A^>w, esta en (k + 1) pasos de derivación. El primer paso debe
G2
estar
en
la
forma
A^B1B2..Bm, m > 2 .
Podemos
escribirlo
w = w1w2...wm donde B G2 wi, 1< i<m . Si BiesCai para alguna terminal ai ,entonces wi
debe ser ai. Para la construcción de P’, esta es una producción A^X1X2..Xm de P, donde X^Bi
siBi estaenV y Xi=Bi siBi esta enV'-V . Para que Bien Vsabemos
que la derivación Bi^>wi tomamos no mas de k pasos, así para la hipótesis
G1
inductiva,Xi^wi y A^w. Ahora tenemos que probar el resultado intermedio que algún
G1
G1
lenguaje libre de contexto pueda estar generando para una gramática para los cuales cada
producción esta de una u otra de las formas: A^a o A^B1B2...Bm para m>2.
Aquí A y B1B2...Bm son variables y a es un terminal.
Considerar una gramática G2 = (V, T, P’, S ). Modificaremos G2 para sumar algún
símbolo adicional a V y reemplazar alguna producción de P’. Para cada producción
A^B1B2...Bm de P'donde m>3, crearemos nuevas variables D1, D2,…, Dm-2 y
reemplazaremos A^B1B2...Bm para el conjunto de producciones:
5
Note que G2 no está todavía en forma normal de Chomsky.
38
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Sea V’’ el nuevo vocabulario no terminal y P’’ el nuevo conjunto de
producciones. Sea G3
= (V’’, T, P’’, S ), G3 esta en FNC. Es claro que
entonces
pero esto también es cierto para
así como
y podemos demostrarlo
esencialmente de
(Hopcropft, 1979)
la misma manera
que se demostró
Ejercicio
2:
que
Dada la gramática G =({S, A, C , T, G, W 1, W 2, W3, W 4}, {a, c, g, t}, P, S) y la cadena de 3
pares de bases de ADN: actgcg y P con las siguientes reglas de producción:
Obtener la gramática correspondiente a la cadena actgcg
Solución
Nota: La sustitución puede ser en cualquiera de las reglas, hasta en las 5 reglas de la
izquierda, en un mismo caso, como se muestra en la figura 3.4. Para este ejercicio
solamente se tomó para la segunda regla.
UPIITA - INGENIERÍA BIÓNICA
39
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Para poder emplear este ejercicio en un programa, se tendrían que acotar las cadenas
de ADN o especificar en dicho programa cuantos pares de bases reconocería (Hopcropft,
1979).
UPIITA - INGENIERÍA BIÓNICA
40
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
CAPÍTULO 4
PRUEBAS PRELIMINARES Y
RESULTADOS
UPIITA - INGENIERÍA BIÓNICA
41
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
4.1 Pruebas preliminares.
El programa que se empleo para efectuar las primeras pruebas, realizó el
reconociemiento de patrones para una cadena de 28 pb. Los códigos se muestran en el
apéndice B, programas 2.B-4.B.
Una vez compilado y ejecutado el programa, éste crea un archivo con formato de texto
(GradosMembresia.txt), para poder abrirlo en Matlab y obtener la grafica de los grados de
pertenencia. La figura 4.1 muestra las dos posiciones donde encuentra la misma cadena
indicandolo con valor de 1, en el sitio donde llega a cambiar solamente un carácter nos
arroja un valor de 0.5 grados de pertenencia. Los grados de membresía son elegidos de
acuerdo al criterio de la persona que esta programando o a la longitud de la cadena, en
este caso se tomaron de acuerdo al criterio del programador..
La figura. 4.2 muestra la gráfica del reconocimiento de patrones. Los dos picos más
altos indican las posiciones en donde los valores son iguales a 1, es decir, en estos sitios
se encontró la cadena (accgt) en la secuencia que se esta analizando , el siguiente pico
denota la posición donde el valor es de 0.5, esto es donde la cadena cambia un carácter
solamente, los picos de menor valor a 0.5 expresan la posición en la que la cadena
presenta tres cambios en adelante.
UPIITA - INGENIERÍA BIÓNICA
42
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Se realizaron otras pruebas, como la comparación entre una cadena sin cáncer contra
una secuencia con cancer, una cadena sin cancer contra una secuencia sin cancer, una
cadena con cancer contra una secuencia sin cáncer y una cadena con cáncer contra una
secuencia con cáncer, esto con el objetivo de verificar si la cadena cancerígena que se
eligio tiene cáncer (apendice B, programas 5.B, 6.B).
4.2 Pruebas adicionales.
Se crearon diferentes secuencias artificiales en donde a cada secuencia se le insertó
cinco veces la cadena atctat en posiciones conocidas, ésta cadena servirá de patrón, la
cual cambiará en cada una de las diferentes secuencias una a una de sus bases hasta ser
completamente diferente al patrón original con el propósito de identificar el lugar y el grado
de membresía de acuerdo a los cambios que se han efectuando, con este procedimiento
se pretende comprobar que el programa final funciona de manera correcta haciendo el
reconocimiento de la cadena cancerígena en la secuencia que se está analizando.
La cadena que se utiliza para realizar la gramática libre de contexto difuso, es una
cadena cancerígena (atctat) y se obtuvo de alineamientos de diferentes secuencias con
cáncer.
A continuación se muestran las gráficas y las secuencias artificiales:
UPIITA - INGENIERÍA BIÓNICA
43
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
44
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
45
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
UPIITA - INGENIERÍA BIÓNICA
46
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
UPIITA - INGENIERÍA BIÓNICA
47
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Finalmente, todas las comparaciones controladas que se realizaron sirvieron para
comprobar que el algoritmo funciona correctamente, haciendo el reconocimiento de
patrones a lo largo de la secuencia que se está analizando y los grados de pertenencia
obtenidos son los correctos.
4.3 Análisis de la Cadena.
Se realizó un inspección visual de las cadenas de ADN con cáncer y se encontró que la
cadena (atctat) fue seleccionada por ser la que se repite con mayor frecuencia en una parte
en específico de la secuencia con cáncer que se muestra en el capítulo 3 y se asume que
dicha cadena debe de tener alguna importancia desde el punto de vista genético, sin
embrago en este trabajo no se investiga dicha importancia. La cadena (atctat) sirve para la
programación en Java de la gramática libre de contexto difusa, en donde el criterio para
seleccionar el grado de membresía fue en base al tamaño de ésta, es decir se toman las
seis bases nitrogenadas y se divide conforme los cambios que pueda tener cada una de las
bases. El programa se divide en dos partes, en la primera se establece de donde leer el
archivo de ADN que se compara, los contadores, y crea el archivo de texto donde se
guardan los grados de membresía y llama al segundo programa utilizándolo como una
función. En la segunda parte se programa, tanto la gramática como los grados de
membresía, (apéndice B).
Finalmente, el programa en Java donde se emplea la gramática libre de contexto difusa,
devuelve el resultado del análisis en un archivo de texto, donde éste es abierto en Matlab,
para la obtención de la gráfica de los grados de membresía.
La figura 4.12 muestra los respectivos grados de pertenencia del segmento de ADN sin
cáncer comparado contra una cadena con cáncer (ambas secuencias se muestran en el
capítulo 3), la figura 4.13 presenta a detalle el segmento de mayor relevancia.
48
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
También se hizo la comparación entre una cadena con cáncer contra una secuencia
con cáncer, con el objetivo de corroborar si ambas secuencias son cancerigenas, la figura
4.14 muestra los grados de pertenencia del segmento de ADN, la figura 4.15 presenta a
detalle la parte de mayor relevancia.
49
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
4.4 Análisis con Proteínas
Existe otra hipótesis acerca de que el cáncer se pueda localizar cuando se convierte en
proteína, por lo cual también se hicieron alineamientos con la secuencia con cáncer de
colon, utilizando todas las proteínas del brazo corto del cromosoma 18, esto con el fin de
encontrar alguna referencia que nos indique si puede existir una mutación.
Las proteínas se enlistan a continuación en la siguiente tabla 1:
Los resultados más significativos que se obtuvieron, fueron con la proteína CIDEA en la
parte 18001 - 19981 con una puntuación de 1835.7, es decir que el 65% de la secuencia de
la proteína es similar a la secuencia cancerígena. La tabla 2 muestra los datos del nombre
del archivo que se compara con la secuencia con cáncer de colon, el nombre con el que es
guardado cada pedazo de secuencia, el nombre con el que se guarda el archivo .mat para
poder abrirlo desde Matlab, la puntuación, es decir, el número de empates que se tuvieron
en esa parte y finalmente el número de la secuencia como aparece en el archivo original.
Las secuencias se tomaron de 2000 en 2000 pb para todos los alineamientos, el resto de
los alineamientos se encuentran en el apéndice C anexo en el C.D.
UPIITA - INGENIERÍA BIÓNICA
51
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
4.5 Análisis de Resultados.
Una vez que se realizaron las comparaciones entres las diferentes secuencias de ADN,
se obtuvieron los siguientes resultados. Se llevaron a cabo comparaciones entre una
cadena cancerígena y un segmento obtenido a partir de otra secuencia con cáncer, la
figura 4.16 muestra la gráfica donde se puede observar que se encuentran picos con
valores de 0.833 como máximo, siendo que se esperaban valores de 1.
En la figura 4.17 se observa que la cadena cancerígena (atctat) es encontrada en su
forma original dentro de la secuencia con cáncer, se encuentra representado en la gráfica
con dieciséis picos con un grado de pertenencia de 1.
52
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
La figura 4.18 muestra la amplificación de la gráfica anterior de la primera sección
La figura 4.19 muestra la amplificación de la gráfica anterior de la segunda sección
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
UPIITA - INGENIERÍA BIÓNICA
54
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
UPIITA - INGENIERÍA BIÓNICA
55
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
CAPÍTULO 5
CONCLUSIONES
Y
TRABAJO A FUTURO
UPIITA - INGENIERÍA BIÓNICA
56
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
5.1 Conclusiones.
Debido a los resultados obtenidos de las figuras anteriores, se puede concluir que existe
una cadena base que se repite a lo largo de una secuencia, sin embargo, este segmento
no tiene la misma repetición al compararlo en otra secuencia, incluso si esta última tiene
cáncer. Lo que si se observa es que en la última secuencia existe otro segmento que
también se repite, el cual es distinto al primero, por lo tanto se puede decir que todas las
cadenas con cáncer presentan una repetición de bases nitrogenadas que forman diversos
patrones.
Después de obtener la cadena cancerigena, se realizaron comprobaciones, haciendo la
comparación con diferentes secuencias con cáncer, utilizando el programa que tiene
implementada la gramática libre de contexto difusa. De éstas pruebas se alcanzó la mayor
incidencia en al menos cuatro de seis comparaciones, devolviendo un valor entre uno a
dieciséis picos con un grado de membresía con valor de 1 en algunas de las secuencias y
0.833 en las otras, por otra parte, también se realizaron pruebas con otra cadena
cancerigena (gtgctc), encontrada en los alineamientos; sin embargo, el resultado que se
alcanzó fue menor, entre uno y dos picos de un grado de pertenencia para solo tres
secuencias de seis, por este motivo se implementó la cadena atctat para obtener los
resultados y el programa final.
Por otra parte, si observamos la gráfica (figura 4.14), podemos notar que la cadena
cancerígena (atctat) que se seleccionó contiene cáncer con un grado de pertenencia de 1,
por el contrario la gráfica de la figura 4.12 indica que existe la posibilidad de que en algún
momento desarrolle el cáncer.
De las pruebas realizadas con proteínas, se puede concluir que puede existir la
posibilidad de que en algún momento después de que ocurre la transcripción a proteína,
esta ya pueda llevar la mutación del cáncer y por lo tanto desarrollarse por completo más
adelante.
Debido a que el área que se encarga del estudio del ADN se encuentra en su etapa
inicial, se deben obtener más secuencias, para realizar más pruebas y así poder otorgar un
diagnóstico confiable.
5.1.2 Comparación del Programa Análisis del ADN para Detectar Cáncer de Colon con el
Programa Blast.
Este programa es principalmente útil para comparación de etiquetas de secuencias
expresadas.
Programa BLAST.
UPIITA - INGENIERÍA BIÓNICA
57
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Este programa nos permite visualizar el resultado en una gráfica dándonos como
referencia el grado de pertenencia a 1 ó 0 según sea el caso, con esta información el
medico puede dar un diagnóstico paciente.
Programa Análisis del ADN para Detectar Cáncer de Colon.
Cave destacar que este trabajo es de investigación por lo cual es recomendable realizar
más pruebas con otras cadenas de ADN con cáncer de Colon para tener un resultado más
confiable, por este motivo éste trabajo no tiene una validación.
5.2 Trabajo a Futuro.
Las características de este trabajo, crean las bases para poder llevar este proyecto a un
nivel superior, es decir, que no termina con los resultados obtenidos hasta el momento, por
ello es necesario establecer las metas a futuro para concluir éste trabajo son las siguientes:
1. Realizar la interfaz gráfica del programa de forma directa, evitando así el uso de otra
plataforma como Matlab.
2. Llevar este proyecto para la World Wide Web, donde los especialistas puedan hacer
uso de esta herramienta y contribuir así con los diagnósticos preventivos
3. Extender la aplicación del análisis en secuencias de este proyecto a diferentes tipos
de cáncer al que se estudió actualmente.
4. Este programa, con las modificaciones correspondientes, puede llegar a ser
empleado en el análisis del ADN de vegetales y de animales, estudiándolos a nivel
genético, podemos obtener mejores semillas en el caso de los vegetales o genes
predominantes en los animales y así tener un vegetal o un animal más resistente,
para aumentar y/o mejorar la producción.
Si analizamos el ADN, se logra extraer la cadena con mayor número de incidencia,
la cual sirva de guía para hacer comparaciones con diversas cadenas de la misma
especie, con el propósito de elegir las mejores.
5. Diseño y construcción de un dispositivo que permita hacer la extracción de ADN y
posteriormente efectúe el desglose del ADN en sus cuatro bases nitrogenadas.
UPIITA - INGENIERÍA BIÓNICA
58
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Fuentes consultadas
Bibliografía
*
Asveld, P., R.J., Fuzzy Context-Free Languages, part 2: Recognition and Parsing
Algorithms, Department of Computer Science, Twente University of Technology.
>
Barahona, A., Piñero, D., 2000, Genética: La Continuidad de la Vida, en La Ciencia
para Todos, no. 125, Fondo de Cultura Económica, 2ª. ed.
^ Baxevanis, D., A., Francis, O,. F., B., 2001, Bioinformatics, Ed. Wiley-Interscience.
*
Bell, D., Parr, M., 2003, JAVA para estudiantes. 3ra. ed. Ed. Pearson Educación.
*
Brown, T. A., 1999, Genomes, Ed. Wiley-Liss.
>
Colegio de Postgraduados. Montecillo, Texcoco, México, 2006.
>
Corzo, Y., La Lógica Difusa, Porlamar, Venezuela, 1996.
>
Deitel, H. M., Deitel, P. J., 1999, C++ cómo programar, 2ª. ed. Ed. Prentice Hall.
^ Diccionario Mosby de la Medicina y Ciencias de la Salud, 1997, Ed. Mosby/Doyma
Libros. ^ Duda, R. O., Hart, P. E, Stork, D. G., 2000, Pattern Classification. 2nd.
ed.
Ed. Wiley-Interscience, pp 424,425.
*
Durbin, R., Eddy, S., Mrogh, A., 1998, Biological Sequence analysis Probalistic
Wodels of Proteins and Nucleic Acids, Ed. G. Mitchison. pp. 12, 238-239.
>
Fundamentos de Lógica Difusa Universidad De Las Americas-Puebla
^ Gardner, E. J., Simmons, M. J., Snustad, D. P., 2003, Principios de Genética,
Ed.
Limusa Wiley, 4ª. ed. V> Gusfield, D., 1997, Algorithms on Strings, Trees, and,
Sequences: Computer
Science and Computational Biology, Ed. Cambridge.
>
Hopcropft, J. E., Ullman, J. D., 1979, Introduction to Automata Theory, Languages
and Computation, Ed. Addison Wesley. p.p.79, 83, 94, 104.
^ Johnsonbaugh, R., 1999, Matemáticas Discretas, Ed Pearson Prentice-Hall, 4ª. ed.
>
Jones, N., C, Pevzner, A., D, 2004, An Introdution to Bioinformatics Algorithms
Ed. Mit Press books.
+ Junbai, W., Hellem, T., Jonassen, I., Myklebost O., and Hovig, E. 2003. Clasificación
de tumor y el pronóstico del gen señalador por selección característica y c - medios
difusos que se agrupan usando datos de pequeñas matrices. BMC Bioinformatics.
No. 6, Vol. 76, p.p. 1471-2105.
UPIITA - INGENIERÍA BIÓNICA
59
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
>
Klug, S., W., Cummings, R., M., Madrid 1999. Conceptos de Genética, Ed. Pretice
Hall, 5ª, ed. p.p. 625- 627, 629-631, 633-634, 636- 643.
>
Lozano, M. A., Velasco-Medina, J., Diseño de un procesador para el alineamiento
global de secuencias de ADN, Grupo de Bio-nanoelectrónica, EIEE, Universidad del
Valle, A.A. 25360, Cali, Colombia.
>
Martín, del B., B., Sanz, M., A., 2001, Redes Neuronales y Sistemas Difusos, Ed.
Alfaomega Ra-Ma, 2da. ed. p.p. 268.
>
Mordeson, J. N., Malik, D. S., 2002, Fuzzy Automata and Languages: Theory and
Applications, Ed. Chapman and Hall/CRC.
-* Pérez, C, I., J., Transcriptoma del Carcinoma Hepatocelular (hcc) Experimental:
Identificación de los Genescon Expresión Diferencial Durante el Desarrollo de las
Lesiones Preneoplásicas Hacia el Cáncer, Para obtener el grado de Doctor en
Ciencias, Centro de Investigación y de Estudios Avanzados del I.P.N. Departamento
de Biología Celular.
^ Searls, D. B., 2002, “The Languages of Genes”, in Nature, vol. 420, pp. 211-217.
>
Soberón-Mainero, F. X., 2002, La Ingeniería Genética: La Nueva Biotecnología y la
Era Genómica, en La Ciencia para Todos, 145, Fondo de Cultura Económica, 3ª.
ed.
^ Tamarin, R., H., 1996, Principios de Genética, Ed. Reverte, S.A.
* Tisdall J., Beginning Perl For Bioinformatics, Octubre 2001,Ed. O’reilly, p.p. 36-37, vii.
Cibergrafías
> http://www.ncbi.nih.gov/
*
http://www.cancer.org/
>
http://www.farmaceuticonline.com/
>
http://www.el-mundo.es/cancer/colon.html
UPIITA - INGENIERÍA BIÓNICA
60
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Glosario
Aberración cromosómica: Cualquier cambio que dé lugar a una duplicación, deleción o
reordenación de material cromosómico.
ADN polimerasa: Enzima que cataliza la síntesis
desoxirribonucleótidos y de una molécula de ADN molde.
de
ADN
a
partir
de
Ambiente: Conjunto de factores geográficos, climáticos y bióticos en el que viven los
organismos.
Aminoácidos: Cualquiera de las subunidades que se unen covalentemente para formar
las proteínas.
Anticodón: Triplete nucleotídico de una molécula de tRNA que es complementario al
triplete codón de una molécula de mRNA y al que se une.
Alelo: Es una de las distintas formas de un gen o locus. Diferentes alelos de un gen
producen variaciones en las características hereditarias tales como el color del cabello o el
tipo de sangre.
Apoptosis: Programa controlado genéticamente de muerte celular, que se activa como
parte de desarrollo normal o como consecuencia de un daño celular.
Autómata: Equipo electrónico programable en lenguaje no informático y diseñado para
controlar, en tiempo real y en ambiente industrial, procesos secuenciales.
Autómata de pila: Son máquinas abstractas que reconocen exactamente la clase de los
lenguajes independientes de contexto.
ATP: Trifosfato de adenosina.
Autosoma: Todo cromosoma que no es un cromosoma sexual y que aparece en las
células cómicas como par homólogo. Los seres humanos poseen 22 pares de autosomas,
que participan en la transmisión de todos los rasgos y circunstancias genéticas, excepto las
ligas al sexo.
Autosómico: 1. relativo a o característico de un autosoma. 2. relativo a toda
circunstancia que se transmite a través de un autosoma.
Biopsia: Procedimiento diagnóstico que consiste en la extracción de una muestra de
tejido obtenida por medio de métodos cruentos para examinarla al microscopio. Esta
muestra se envía al laboratorio, donde se corta en secciones y se trata con un tinte para
que las células se puedan reconocer más fácilmente. Un patólogo, examina la muestra en
el microscopio. Un diagnóstico obtenido por biopsia, es un diagnóstico histológico o
anatomopatológico y suele ser un diagnóstico de certeza, sobre todo para el cáncer.
Cadena líder: Durante la replicación del ADN, la cadena se sintetiza de manera continua
de 5’ a 3’ hacia la horquilla de replicación.
UPIITA - INGENIERÍA BIÓNICA
61
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Cadena retrasada: En la replicación del ADN la cadena se sintetiza de manera
discontinua, de 5’ a 3’ desde la horquilla de replicación. Cada pequeño fragmento de ADN
sintetizado de esta manera se denomina fragmento Okazaki.
Carcinógeno: Agente físico o químico que da lugar al cáncer.
Cebador: En lo ácidos nucleicos, corto fragmento de ARN o de ADN de cadena sencilla
que es necesario para el funcionamiento de las polimerasas.
Células neoplásicas: Las células neoplásicas se dice que están transformadas y
continúan replicándose sin obedecer las señales reguladoras que controlan el crecimiento
celular normal.
Células somáticas: Todas aquellas células distintas de las células germinales o gametos
de un organismo.
Cepa: Grupo de individuos con antecesores comunes que tienen características
fisiológicas y morfológicas de interés para el estudio genético o para la mejora.
Ciclinas: Clase de proteínas que se encuentran en las células eucariotas, que se
sintetizan y degradan en sincronía con el ciclo celular y regulan el paso a través de las
fases del ciclo.
Ciclo celular: Suma de las fases de crecimiento de un tipo celular concreto. Se divide en
G1, S (síntesis del ADN), G2 y M (mitosis).
Citoesqueleto: Conjunto interno de microtúbulos, microfilamentos y filamentos
intermedios que confieren la forma y la capacidad de movimiento a la célula eucariota.
Citoplasma: Todo la sustancia constitutiva de una célula distinta del núcleo.
Código genético: Tripletes de nucleótidos que codifican los 20 aminoácidos o la
iniciación o la terminación de la cadena.
Codón: La información genética se escribe con cuatro letras, pero que van agrupadas de
tres en tres. Cada grupo de tres se llama codón y lo que hace es codificar un aminoácido o
un símbolo de puntuación (Comenzar, Stop).
Concordancia: Pares o grupos de individuos idénticos en sus fenotipos. En estudios de
gemelos, una situación en la que ambos gemelos presentan o dejan de presentar el
carácter que se investiga.
Cromatina: Término utilizado para describir el complejo de ADN, ARN, histonas y
proteínas no histonicas que forman los cromosomas.
Cromatografía: Técnica de separación de una mezcla de moléculas solubilizadas por su
migración diferencial en un sustrato.
Cromosoma: En procariotas, molécula de ADN intacta que constituye el genoma; en
eucariotas molécula de ADN acomplejada con ARN y proteínas para formar una estructura
filamentosa en donde se encuentra la información genética dispuesta en secuencia lineal.
62
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Endógeno: Que se origina en el interior del organismo o que se produce por causas
internas, como la enfermedad producida por la alteración estructural o funcional de un
órgano o sistema.
Deficiencia (deleción): Mutación cromosómica que implica la pérdida de material
cromosómico.
Detención intersticial: Tipo de deleción cromosómica con pérdida de material en
regiones internas del cromosoma. Las deleciones que implican a los extremos de los
cromosomas se llaman terminales.
Doble hélice: Modelo de estructura de ADN propuesto por James Watson y Francis
Crack, que implica dos cadenas polinucleotídicas antiparalelas, unidas por puentes de
hidrógeno, enrolladas en una configuración helicoidal dextrógira, con 10 pares de bases
p’or vuelta de la doble hélice. A menudo se denomina ADN-B.
Duplicación: Aberración cromosómica que consiste en la repetición de un segmento
cromosómico.
Duplicación génica: Suceso en la replicación que da lugar a la producción de una
repetición en tándem de una secuencia génica.
Endonucleasa: Enzima que hidroliza los enlaces fosfodiéster internos de una cadena
polinucleotídica o de una molécula de ácido nucleico.
Endonucleasas de restricción: Enzima que desdobla el ADN en un lugar específico.
Cada una de las numerosas y numerosas endonucleasas actúa en un punto de
desdoblamiento específico de la especie.
Enlace fosfodiéster: En los ácidos nucleicos, enlace covalente entre un grupo fosfato y el
nucleótido adyacente, desde el carbono 5’ de una pentosa (ribosa o desoxirribosa) al
carbono 3’ de la pentosa del nucleótido vecino. Los enlaces fosfodiéster forman la columna
vertebral de las moléculas de ácido nucleico.
Enlace peptídico: Enlace covalente entre el grupo amino de un aminoácido y el grupo
carboxilo de otro aminoácido.
Enzima: Proteína o complejo proteico que cataliza una reacción bioquímica específica.
Espora: Célula o cuerpo unicelular envuelto por una cubierta protectora producido por
alguna bacteria, vegetal o invertebrado; es capaz de sobrevivir en condiciones ambientales
desfavorables; puede dar lugar a un nuevo individuo por germinación. En vegetales, las
esporas son los productos haploides de la meiosis.
Estadios: Fase o periodo.
Estroma: Trama o armazón, generalmente de tejido conjuntivo, de un órgano o una
glándula que sirve para sostener entre sus mallas los diferentes elementos celulares. Debe
diferenciarse del parénquima, que es la parte funcional.
Eucariotas: Organismos que tienen núcleo y orgánulos membranosos y cuyas células
presentan mitosis y meiosis.
UPIITA - INGENIERÍA BIÓNICA
63
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Exón: Bloques (fragmentos) de secuencias de ADN que constituyen a los genes y que
codifican para dominios discretos de las proteínas; se intercalan con regiones que no
codifican (intrones) en numerosos genes de células de organismos superiores (los
eucariontes).
Fenotipo: Propiedades observables de un organismo controladas genéticamente.
Fragmento de Okazaki: Cadenas pequeñas y discontinuas de ADN producidas durante
la síntesis de ADN.
Fluctuaciones: Rango de variación de un determinado valor. Diferencias en el precio de
un título respecto a un promedio de un precio base.
Fluorocromos: Sustancias que emiten fluorescencia al ser excitadas por rayos láser.
Fusificación: Operación que mapea los datos duros a conjuntos difusos.
Ganglios linfáticos: Los ganglios linfáticos son unos nódulos pequeños, suaves y en
forma de fríjol que no suelen ser visibles ni son fáciles de sentir al tacto. Están ubicados en
racimos en varias partes del cuerpo como el cuello, las axilas y la ingle. Dichos ganglios
producen las células inmunes (como los linfocitos, monocitos y células plasmáticas);
además, filtran el líquido linfático y eliminan el material extraño, como bacterias y células
cancerosas. Cuando las bacterias son reconocidas en el líquido linfático, los ganglios se
agrandan a medida que producen y suministran una cantidad adicional de glóbulos blancos
para ayudar a combatir la infección.
Gen: Es una secuencia lineal de nucleótidos de ADN o ARN que es esencial para una
función específica, bien sea en el desarrollo o en el mantenimiento de una función
fisiológica normal. Es considerado como la unidad de almacenamiento de información y
unidad de herencia al transmitir esa información a la descendencia. La realización de esta
función no requiere de la traducción del gen ni tan siquiera su trascripción. Los genes están
localizados en los cromosomas en el núcleo celular y se disponen en línea a lo largo de
cada uno de los cromosomas. Cada gen ocupa en el cromosoma una posición determinada
llamada locus. El conjunto de genes de una especie se denomina genoma.
Gen estructural: Gen que codifica la secuencia de aminoácidos de una cadena
polipeptídica.
Gen supresor de tumores: Gen que codifica un producto que normalmente funciona
suprimiendo la división celular. Las mutaciones en los genes supresores de tumores dan
lugar a la activación de la división celular y a la formación del tumor.
Genética: Rama de la biología que trata de la herencia y de la expresión de los
caracteres hereditarios.
Genoma: Conjunto de genes que lleva un individuo.
Genotipo: Alelo concreto o constitución genética de un organismo; a menudo, la
composición alélica de un número limitado de genes sujetos a investigación.
Herencia: Transmisión de caracteres de una generación a la siguiente.
64
UPIITA - INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Heurística: En computación, dos objetivos fundamentales son encontrar algoritmos para
la mayoría de casos buenos tiempos de ejecución y buenas soluciones, usualmente las
óptimas. Una heurística es un algoritmo que ofrece uno o ambos objetivos; por ejemplo,
normalmente encuentran buenas soluciones, aunque en ocasiones no hay pruebas de que
la solución no pueda ser arbitrariamente errónea; o se ejecuta razonablemente rápido,
aunque no existe tampoco prueba de que deba ser así.
Hibridación: Alude a la capacidad de las moléculas complementarias de ADN o ARN
monocatenario para formar un dúplex.
Hibridación in situ fluorescente (FISH): Método de hibridación in situ que utiliza sondas
marcadas con una etiqueta fluorescente con el microscopio.
Hibridación in situ: Técnica de localización citológica de secuencias de ADN
complementarias a un ácido nucleico o a un polinucleótido determinado.
Histonas: Proteínas acomplejadas al ADN en el núcleo. Son ricas en los aminoácidos
básicos arginina y lisina y actúan en el enrollamiento del ADN para formar nucleosomas.
Homocigoto: Individuo con alelos idénticos.
Homocigosis: Formación de un cigoto por la unión de dos gametos que tienen uno o
más pares de genes idénticos.
Intrón: Es cada uno de los fragmentos de ADN en la codificación de un gen, que no son
capaces de expresarse bajo la forma de una proteína.
Es una secuencia no codificadora de ADN que separa a dos exones. El intrón
inicialmente se transcribe en la molécula de ARN mensajero pero después es eliminado
durante el proceso de maduración del ARN. Alrededor del 98.5% de nuestro genoma
(restando el 1.5% que corresponde a secuencias codificadoras de genes humanos) es
ADN basura.
In vitro: Literalmente, en vidrio; fuera del organismo vivo; que ocurre en un ambiente
artificial.
In vivo: Literalmente en vivo; que ocurre dentro del cuerpo vivo del organismo.
Locus: Lugar de un cromosoma en donde se localiza un gen dado. El plural es "loci".
Locus homólogo: Fragmento de ADN que es clonado dentro de un organismo de la
misma especie del organismo origen.
Mapa cromosómico: Esquema en el que se representa la localización de los genes en
los cromosomas.
Melanoma: Neoplasia maligna derivada de las células productoras de melanina. Es de
carácter muy agresivo. Todo "lunar" sospechoso y sobretodo las lesiones obscuras de
aparición reciente deben ser evaluadas por el dermatólogo pues podría tratarse de un
melanoma.
Metástasis: Proceso en las que las células se separan del tumor primario y se sitúan en
cualquier otra parte del cuerpo, dando lugar a tumores secundarios. Estas células entran al
UPIITA - INGENIERÍA BIÓNICA
65
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
sistema circulatorio o linfático por donde son transportados hasta fijarse a una red capilar,
el 99% de las células mueren y las que sobreviven invaden los tejidos formando un tumor
secundario.
Mitocondria: Orgánulo citoplásmico, autorreproducible, que se encuentra en la s células
eucariotas y que es el lugar de la síntesis de ATP.
Mitosis: Tipo de división celular que da lugar a la producción de células, cada una de los
cuales con los mismos cromosomas y complementos genético que la célula materna.
mARN: Molécula de ARN transcrita a partir de ADN y traducida a la secuencia
aminoacídica de un polipéptido.
Mutación: Proceso que da lugar a la alteración del ADN o de la estructura del
cromosoma; el origen de la mayoría de los alelos.
Mutación somática: Mutación que se produce en una célula somática. En otras palabras,
tales mutaciones no son heredables.
Nucleasa: Enzima que rompe los enlaces de las moléculas de los ácidos nucleicos.
Núcleo: Orgánulo citoplásmico de las células eucariotas rodeado por una membrana que
contiene los cromosomas y el nucleolo.
Nucleolo: Orgánulo nuclear en donde se produce la síntesis de los ribosomas;
normalmente asociado o formado en asociación al NOR.
Nucleótido: Son las piezas de construcción básicas de los ácidos nucleicos. Los
nucleótidos que normalmente se encuentran en el ADN son el ácido desoxiadenílico, el
ácido desoxicitidílico, el ácido desoxiguanílico y el ácido desoxitimidílico.
Oligonucleótido: Secuencia lineal de nucleótidos (hasta 20) conectados por enlaces
fosfodiéster 5’– 3’.
Oncogén: Gen cuya actividad promueve la proliferación de células eucariotas.
Orgánulos: Son las diferentes estructuras suspendidas en el citoplasma de una célula
eucariota, que tienen una forma y unas funciones especializadas bien definidas y
diferenciadas.
Parénquima: Elemento esencial específico o funcional de un órgano, generalmente
glandular, en distinción de la estroma o tejido intersticial.
Polimerasa: Enzima que cataliza la formación de ADN y ARN a partir de
desoxirribonucleótidos y de ribonucleótidos, respectivamente.
Polimerasa Taq: Enzima llamada Thermus aquaticus.
Polimorfismo genético: Son los múltiples alelos de un gen entre una población,
normalmente expresados como diferentes fenotipos (p.e. el color de la piel es un
polimorfismo).
UPIITA - INGENIERÍA BIÓNICA
66
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Polímeros: Los polímeros son macromoléculas (generalmente orgánicas) formadas por
la unión de moléculas más pequeñas llamadas monómeros.
Polinucleótidos: Secuencia lineal de más de 20 nucleótidos unidos por enlaces
fosfodiéster 5’-3’. Vease oligonucleótido.
Polipéptido: Molécula formada por aminoácidos unidos mediante enlaces peptídicos
covalentes. Este término se utiliza para determinar la cadena aminoácido antes de que
asuma su configuración tridimensional funcional.
Pólipos: Pequeño crecimiento de aspecto tumoral que sobresale de una mocosa
superficial.
Poliposis: Trastorno caracterizado por la presencia de numerosos pólipos en una región.
Proteína: Molécula formada por uno o más polipéptidos formados por aminoácidos
unidos covalentemente entre sí.
Protooncogén: Gen celular que normalmente funciona controlando la proliferación
celular. Los protooncogenes se pueden convertir en oncogenes por alteraciones en su
estructura o en su expresión.
Provirus: Descubiertos en 1951 por Barbara McClintock en el maíz, son fragmentos de
ADN móviles, que constituyen genes y pueden pasar de una célula a otra; no producen
enfermedades, sino solamente inducen pequeñas mutaciones en la célula. Podrían
considerarse como formas más autónomas de transposones.
Puentes de hidrógeno: Atracción electrostática entre un átomo de hidrógeno unido a un
átomo muy electronegativo, como un átomo de oxígeno o de nitrógeno, y uno átomo que
sea electronegativo o que contenga un par de electrones no compartidos.
Punto isoeléctrico: Es el pH al que una sustancia anfótera tiene carga neta cero. El
concepto es particularmente interesante en los aminoácidos y también en las proteínas. A
este valor de pH la solubilidad de la sustancia es casi nula. Para calcularlo se deben utilizar
los pKa.
Quelante: Sustancia que produce quelación. Los quelantes se usan en el tratamiento de
las intoxicaciones por metales.
Quelación: Relación química en la que se produce una combinación con un metal para
formar un complejo molecular en forma de anillo en el que el metal esta firmemente unido y
atrapado.
Quinasas: Son enzimas que activan proteínas, en vías de señalización celulares,
agregando grupos fosfato a esas proteínas.
Replicación: Proceso de síntesis de ADN.
Represor: Proteína que se une a una secuencia reguladora adyacente a un gen y que
bloquea la trascripción del gen.
UPIITA - INGENIERÍA BIÓNICA
67
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Ribosoma: Orgánulo ribonucleoprotéico formado por dos subunidades que contiene,
cada una, ARN y proteínas. Los ribosomas son los sitios donde los codones de mARN se
traducen en la secuencia aminoacídica de una cadena polipeptídica.
Robustez: El grado de capacidad que presenta un sistema o un componente para
funcionar correctamente frente a entradas de información erróneas, o carga de trabajo
elevada.
Tejido intersticial: Tejido que tiene la función de sostén y por el cual habitualmente
circulan las estructuras vasculares, linfáticas y neurales.
Tejido pleural: La pleura es la capa delgada de tejido que cubre la superficie externa de
cada pulmón y recubre la pared interior de la cavidad torácica, con lo cual crea un saco que
encierra la cavidad pleural. El tejido pleural normalmente produce una cantidad pequeña de
líquido que ayuda a los pulmones a moverse suavemente en el tórax mientras la persona
respira.
Transcripción: Transferencia de información genética del ADN mediante la síntesis de
una molécula de ARN copiada de un molde de ADN.
Transposones: Son secuencias repetitivas que se han descubierto en bacterias y en
células eucarióticas, tienen la particularidad de que son capaces de saltar de un lado a otro
del genoma durante la recombinación genética que tiene lugar durante la división celular.
Se ha demostrado que una de cada diez veces que esto ocurre, el transposón modifica el
ADN de sus inmediaciones, ya sea arrastrando un gen codificador de un cromosoma a
otro, rompiéndolo por la mitad o haciendo que desaparezca del todo. La mayor parte del
ADN basura (hasta un 50% del total del genoma) corresponde a transposones.
A diferencia de los provirus, los transposones integran en el ADN celular en lugares bien
determinados.
Vaso linfático: Vasos finos y transparentes distribuidos por casi todos los tejidos. Se
distinguen por su aspecto arrosariado, debido a su luz irregular.
Vhdl: Lenguaje para la síntesis y el modelado de circuitos.
UPIITA - INGENIERÍA BIÓNICA
68
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
APÉNDICE A
1
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
A. TIPOS DE ALGORITMOS
1.A Algoritmos De Reconocimiento Y Analizador Sintáctico.
Versión Funcional del Algoritmo de Cocke-Younger-Kasami (algoritmo-CYK).
Para reconocimiento (ordinario, no difuso) lenguajes libres de contexto. Esta versión
funcional es un buen comienzo en el desarrollo de un algoritmo robusto para
reconocimiento de un lenguaje libre de contexto difuso.
Usualmente el algoritmo CYK es presentado en términos de instrucciones for anidadas
para llenar la matriz triangular superior.
Algoritmo 1.A: tomando una gramática libre de contexto libre de X (vacío) para G = (V, X
P, S) en forma normal Chomsky y una cadena a1a2…an (n> 1) con ak e 2(1 <k<n).
Llenando estrictamente el reconocimiento de la matriz triangular (n + 1)x(n + 1) superior T
por el programa de la figura 1.A, donde cada elemento ti,j es un subconjunto de N = V-Z y
esta inicialmente vacío.
Entonces a1a2… an e L(G) si y solo si Se t0,n.
Ejemplo 1.A Considere la gramática libre de contexto G1 en la forma normal
Chomsky y la cadena abba sobre X Dado S={a,b}, N={S,A,B}, V=NVJ X G1=(V,Z,P1,S)
con P1, vista como un a sustitución anidada libre de X, donde sus reglas son:
Solución: Se desea construir la siguiente tabla por medio del algoritmo 1.A
2
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
El método anterior se utiliza para reconocer cadenas a partir de una gramática libre
de contexto, utilizando la tabulación de Chomsky para un caso certero.
Una característica de esta formulación es la omisión de detalles de implementación
como estructura de datos los índices i, j y k y la longitud n de la cadena de entrada.
En esta formulación necesitamos dos funciones f y g que corresponden a la fase de
inicialización e iteración respectivamente. Estas funciones f:I+^P(N+) y g: P(N+) -►
P(N) están definidos por:
UPIITA-INGENIERÍA BIÓNICA
3
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
1. Por cada palabra no vacía w en Σ la función f esta definida como la sustitución finita de
longitud preservada generada por:
y extendida a palabras no vacías sobreΣ por:
esta definida
2. La función g está definida en dos pasos. Primero g:
por:
y
para X y Y en P(N) la operación binaria
esta definida por:
En el segundo paso extendemos g a g:
M sobre N, g(M) esta definido por:
si por cada (finito) lenguaje
La versión funcional del algoritmo CYK se lee como sigue:
Algoritmo 2.A: Dado
está en una gramática libre de contexto libre
de X en la forma normal
de Chomsky (Lineal 1- bottom-up) y dado w esta en una cadena no vacía sobre S. Calcule
g(f(w)) y determine si S pertenece al conjunto g(f(w)).
Claramente, tenemos
si y solo si S
Note que la iteración en el Algoritmo 1.A ha sido reemplazado por la recursión en el
algoritmo 2.A desde que g es recursiva Ejemplo 2.A: Aplicando el algoritmo 2.A a la
gramática G1=(V,Σ,P1,S) Dado Σ={a,b}, N={S,A,B}, V=N∪Σ, con P1, donde sus reglas
son las siguientes y las palabras de entrada abba y bbba
UPIITA-INGENIERÍA BIÓNICA
4
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Concluimos de nuevo que abbae L(G1) y bbba í L(G1), ya que S e g(f(abba))={S} y S
¿g(f(bbba))=0, respectivamente.
2.A Reconocimiento Descendente Recursivo.
Dado G = (V, Z, P, S) esta en una gramática libre de contexto y N = V - E. El conjunto T
(S,N) de términos sobre (S,N) satisface el conjunto mas pequeño
1. X es un término en T (S,N) y cada a (ae Ves un término en T (S,N).
2 Por cada A en N y cada término t en T (S,N), A(t) es un término en T (S,N).
3. Si t1 y t2 están T (S,N), entonces su concatenación t1 t2 es también un término en
T (S,N).
Algoritmo 3.A: Dado G = (V, Z, P, S) esta en un gramática libre de contexto libre de X
en la forma normal de Chomsky y dado w que es una cadena en r. Para cada
5
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
símbolo
no
terminal
definido como sigue. (El símbolo 1
A en N
“indefinido”).
asocia
mos
unaPrimero,
función
entonces:
esta
será usado para denotar
por cada A en N. si el argumento x de A% es una
palabra de longitud 1 (esto es x esta en Z),
y en el caso de que la longitud |x| de la palabra x es 2 ó mas, entonces:
Finalmente calculamos S(w) y determinamos si X pertenece a S(w). Esto
directamente muestra que w e L(G) si y solo si ^pertenece a S(w).
Ejemplo 3.A: Aplicando el algoritmo 3.A a la gramática
sustitución anidada libre de
esta
vista como una
,es
definido por
Claramente G10 esta en la forma normal de Chomsky y tenemos L(G10)= L(G5).
Aplicamos el algoritmo 3.A a G10 satisface las entradas [ ] ¿? y [ ¿ ]:
Concluimos que
donde
respectivamente (Asveld, 2000).
3.A Algoritmo CYK adaptado para el Lenguaje Libre de Contexto Difuso.
6
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
De este algoritmo se derivan otros dos métodos; la gramática libre de contexto difuso-I,
donde I hace la operación min, es decir, toma únicamente el valor mínimo del grado de
membresía de cada conjunto y la gramática libre de contexto difuso-M, donde M hace un
producto algebraico de los grados de membresía de cada conjunto, estos métodos se
desarrollan a continuación con el Algoritmo 4.A.
Algoritmo 4.A.: Sea G = (V, X, P, S) esta en una gramática libre de contexto libre de X
en forma normal de Chomsky y sea oa esta en una cadena sobre X
Finalmente calculando
Por lo tanto tenemos
donde P3,esta definido por la
Ejemplo 4.A: Aplicando el algoritmo
4.A, considere la gramática libre de
contexto
difuso-I,
siguiente sustitución difusa anidada libre de X con terminales de V.
Donde
los
grados
P3(S))=0.1, M(BB, P3(S))=0.9.
de
membresía
o
pertenencia
son: M(AA,
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Aplicando a los ejemplos anteriores, la gramática libre de contexto difuso-Ι, el grado de
pertenencia de la cadena abba es de 1, para abbb es de 0.9 y finalmente para aaab es de
0.1, estos valores nos sirven para saber que tan cerca se esta del valor 1, donde cada
grado de membresía que se obtuvo sirve para saber cual de estos ejemplos pertenece a
las reglas de producción de la gramática dada.
8
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
4.A Otros ejemplos del algoritmo 3.1
Ejemplo 5.A: Aplicando el algoritmo 3.1, considere la gramática libre de contexto
difuso-M, G4=(V,ZP4,S), N = V -U Z={S,A,B}, Z={a,b}, donde P4,esta definido por la
siguiente sustitución difusa anidada libre de X con terminales de V.
Donde los grados de membresía o pertenencia son: M(AA,P4(S))=0.1, M(BB,P4(S))=0.9.
UPIITA-INGENIERÍA BIÓNICA
9
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
En los ejemplos anteriores, se aplica la gramática libre de contexto difuso-Μ, el grado de
pertenencia de la cadena bbbb es de 0.81, para la segunda es de 0.01 y finalmente para la
tercera es de 0, como podemos observar el ejemplo mas cercano a 1 es la primero y el
que se encuentra mas lejano a ese mismo valor es el tercero, es decir, que la cadena
bbbb, si se puede obtener de la gramática anterior y por el contrario aab no, de igual
manera los grados que se obtuvieron nos sirven para saber si pertenecen o no a las reglas
de producción de la gramática dada, (Asveld, 2000).
5.A Reconocedor Descendente Recursivo para Lenguajes Libres de Contexto Difuso.
Se obtienen los algoritmos para reconocer lenguajes libres de contexto difuso- L libre
de λ, para gramáticas en la forma normal de Chomsky.
10
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUS
Ejemplo 6.A. Aplicando el algoritmo 5.A a la gramática libre de contexto difuso-M
G4=(V,Z,P4,S), N = V -Z Z={S,A,B}, Z={a,b}, donde P4, esta definido por la siguiente
sustitución difusa anidada libre de X con terminales de V.
Donde los grados de membresía o pertenencia son:
6.A Lenguaje libre de contexto difuso de análisis sintáctico (Parsing).
Este se define de la siguiente forma:
Definición: Sea G = (V, E, P, S) que esta en una gramática libre de contexto difuso-L
con N = V -X Los conjuntos difusos ®a (a e V) de árboles de derivación con su inicial a
están definidos como sigue:
UPIITA-INGENIERÍA BIÓNICA
11
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
1
entonces la expresión
3
esta en
con
entonces la
.4.SiSi
con
expresi
ón
Finalmente, sea
pertene
ce a
con:
está definida por
La función
esta definida recursivamente por:
a) Por cada t en
b) Para cada
en
Para cada t en
es llamado el producto de los árboles de derivación t.
Ejemplo 7.A. Obtener el árbol de derivación con su inicial S de la siguiente cadena
bbbb. Considere la gramática libre de contexto difuso-Μ, G9=(V,Σ ,P9,S), N = V -Σ , Σ
={S,A,B}, Σ={a,b}, donde P9, esta definido por la siguiente sustitución difusa anidada libre
de λ con terminales de V.
Donde los grados de membresía o pertenencia son:
Soluciones:
Para construir el árbol de derivación se toma S como la raíz (figura 2.A) y
posteriormente la convertimos en BB (por las reglas de producción), mantenemos fija la
segunda B y se convierte a SB la primera, entonces tenemos SBB, tomamos otra vez la S
y la transformamos en BB, y queda BBBB, por último sólo hay que pasarlos a
12
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
terminales, es decir a letras minúsculas, bbbb. Para las otras soluciones se hacen los
mismos pasos, sólo que se van variando que B queda fija.
Se hacen todas las posibles combinaciones, para este ejemplo sólo existen cuatro
diferentes formas de resolver esta cadena por el método de Parser, que se muestran a
continuación, de igual manera se explicará paso a paso, como se han resuelto:
Una vez que construimos el árbol, se comienza de abajo hacia arriba, esto es desde los
terminales, para la primera solución: después de bbbb, tenemos BBBB, esto se denota así,
B(b), B(b), B(b), B(b), por que las b’s se convierten en B’s, ahora como S la convertimos en
BB, su notación queda, S(B(b), B(b)), con un grado de membresía de 0.9 (por las reglas),
por lo tanto la notación completa es: <S(B(b), B(b)))0.9 ,B(b), B(b) en el siguiente paso,
como se mantuvo fija la segunda B y la que se convirtió fue la primera a SB, entonces
dentro de esa B se encuentra SB y la notación es: B ((S ( B ( b ) , B ( b ) ))0.9 , B(b), B(b)),
finalmente llegamos a la raíz que es S, que fue convertida en BB, con un grado de 0.9
también, por lo que dentro de esta S está el resto de la cadena, para unificar los grados se
hace el producto y se tiene: para <S(B(S(B(b), B(b)),B(b)), B(b)))081 , las demás
soluciones se realizan el mismo procedimiento.
UPIITA-INGENIERÍA BIÓNICA
13
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Con este método podemos comprobar que se puede usar cualquiera de los algoritmos
anteriores y seguir teniendo el mismo resultado, (Asveld, 2000).
S)
Algoritmo 6.A. Dada la gramática libre de contexto difuso-L libre de
en forma normal de Chomsky y dado
en la
Define las funciones
Donde para
para
la operación binaria
de D. Entonces tenemos:
Usando
las
cadena
esta definida por:
y
calculamos el
subconjunto difuso-L
funciones
es el
conforme subconj
a G,
unto
difusoL de
todos
a)
los
árboles
b)
de
derivaci
de x
Ejemplo 7.A: ón
Aplicando
el algoritmo 5.1 a la gramática libre de contexto difuso-M,
G4=(V,i:,P4,S), N = V -Z, Z={S,A,B}, Z={a,b}, donde P4, esta definido por la siguiente
4
sustitución difusa anidada libre de X con terminales de V y la entrada b .
NOTA: para el desarrollo del ejercicio se tomará el
signo
UPIITA-INGENIERÍA BIÓNICA
en lugar
14
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Calculando
el producto es:
Con este método podemos corroborar los resultados que se obtuvieron empleando el
método de parser, ya que las últimas dos líneas, son los mismos cuatro resultados, para
poderlos ver por separado se muestran a continuación, cada uno con un grado de
membresía de 0.81.
Como consecuencia
(Asveld, 2000).
7.A Algoritmo CYK para un lenguaje libre de contexto difuso- L
sintáctico).
parsing (analizador
Algorit
mo 7.A:
en
forma
conDada la
gramáti
normal
ca libre
de
de
Choms
context
ky
y
o
una
difusocadena
L libre
de
UPIITA-INGENIERÍA BIÓNICA
15
Construyendo estrictamente la matriz triangular M de análisis sintáctico
con el programa de la figura 3.A, donde cada elemento m i,j es un
subconjunto finito de N x L con
Usualmente cada mi,j esta inicialmente
vacío.
Entonces
todos consisten de pares (t,s) por su puesto que t es un
árbol de derivación de G con
Ejemplo 8.A: Obtener el análisis sintáctico (parsing) en la forma ta tabular, basándose
en el algoritmo 7.A,
considerar la gramática libre de contexto
difuso-Μ
con
la cadena [, [, ?, terminal
considerando las siguientes reglas:
y atiene valor de 1 en otro casos. La gramática G8 esta en forma normal de Chomsky libre
de X. Solución: Paso 1: Tabular en forma diagonal la cadena, poniendo también su
símbolo, basándose en las reglas de producción.
UPIITA-INGENIERÍA BIÓNICA
16
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUS
Paso 2: Para obtener el t0,2 , se toman los valores de t0,1 y t1,2 y se realiza la multiplicación
uno a uno, utilizando las reglas. Por lo tanto la tabla quedará de la siguiente manera:
Paso 3: Para obtener t1,3 , se toman los valores de t1,2 y t2,3 y se realiza la multiplicación uno
a uno, utilizando las reglas. Por lo tanto la tabla quedará de la siguiente manera:
Paso 4: Para obtener el t0,3 , se toman los valores de (t0,1 y t1,3) y(t0,2 y t2,3) se realiza la
multiplicación uno a uno, tomando en cuenta los valores que no se repite. Por lo tanto la
tabla quedará de la siguiente manera
Ahora concluimos que
árbol de derivación que se
y aquí el
muestra en la parte de a bajo, para la cadena [ [ ? es
por que sabemos que A no es una raíz de la cadena, es
con
el siguiente,(Asveld, 2000).
Algoritmo 8.A. Dada la gramática libre de contexto difuso-L libre de
en la cadena
Para cada símbolo no
17
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
y en caso que la longitud de x de la palabra x sea 2
o más, entonces
Finalmente calculando el conjunto difuso
Esto es fácil al mostrar que
Ejemplo 9.A: Obtener la forma recursiva, aplicando el algoritmo 8.A a la gramática
libre de contexto difuso-Μ,
donde P4, est
definido por la siguiente
con terminales de V y la
sustitución difusa anidada libre de
4
Donde los grados de membresía o pertenencia son:
Solución: Se hacen todas las combinaciones de acuerdo a las reglas, es decir, para la primera
regla es AB, BA, AA/0.1, y BB/0.9
El segundo paso es anular la combinación que no viene en las reglas como es,
UPIITA-INGENIERÍA BIÓNICA
18
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
De igual forma se desarrolla haciendo las combinaciones para A en la segundo regla:
pero necesitamos saber antes el valor
de
para obtener su resultado.
Si seguimos el orden tocaría el turno a
Sólo falta calcular
UPIITA-INGENIERÍA BIÓNICA
19
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Como se puede notar el resultado que se obtuvo en este ejercicio es, nuevamente el
árbol de derivación con el grado de membresía del ejercicio 9, (Asveld, 2000).
8.A Ejercicios Forma Normal De Chomsky o FNC.
Ejercicio 9.A: Dada la gramática G = ({S, A}, {a, b}, P, S) y P se define con las siguientes
reglas de producción:
Encontrar una gramática equivalente a la forma normal de Chomsky (FNC).
Solución:
Como ya sabemos la FNC es de la siguiente manera: A→ BC ó A→a . Donde A,B y C
son variables yaes un terminal, entonces, el paso 1 es desglosar cada una de las reglas
de producción, para visualizar cuales son las que se tienen que cambiar.
Paso 2: Sustituir los terminales por C’s, cada una con su subíndice de la letra que se esta
reemplazando, esto solo se hace en las reglas que estén combinadas con mayúsculas o
haya dos terminales juntas.
Paso 3: Sustituir las dos primeras letras de cada regla por D’s donde cada D lleva un
subíndice con el número de D que se van utilizando.
UPIITA-INGENIERÍA BIÓNICA
20
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Paso 4: Una vez realizado todas las sustituciones, ya se tienen las nuevas reglas de
producción en la forma normal de Chomsky.
9.A
Forma
normal
de
Greibach o FNG.
Ahora desarrollaremos un teorema en forma normal, que usa producciones cuyo lado
es el derecho, cada inicio con tal vez un símbolo terminal seguido de una variable.
Lema 1: Se define una producción A siendo una producción con variable A en la
izquierda. Sea
una gramática libre de contexto. Sea
siendo el conjunto
de todas las
se obtiene desde G para borrar la producción
Sea
producciones B.
entonces
adicionar la producción
una
producción en P y
Demostración: Obviamente
derivación de G1, esto es
Demostramos que
entonces sí
usarla
donde la notación
en P y
es usada en una
y podemos
también en G.
es solamente la
es usada en una derivación para
producción de G no en G1. Cada vez que
G, la variable B debe ser reescrita en el
siguiente paso usando la producción
de la
es decir, dos pasos pueden ser reemplazados por un simple
forma
paso
Lema 2: Sea G=(V, T, P, S) una gramática libre de contexto. Sea
siendo el conjunto de producciones A para los cuales es el
símbolo más a la izquierda del lado derecho. Sea
producciones A restantes. Sea
contexto para adicionar la
producciones A por las
siguientes producciones:
para las
formando una gramática libre de
variable B a V y reemplazar todas las
21
UPIITA-INGENIERÍA BIÓNICA
producciones de la forma
deben terminar eventualmente con una
producción
La secuencia es reemplazada por:
Demostración: En una derivación más a la izquierda, de una secuencia de
en G puede ser reemplazado en G1 por:
La transformación inversa también se puede hacer, así
La figura 5.A
muestra la transformación de el árbol de derivación, donde
podemos
observar que en G, hay una cadena de A’s extendida hacia la izquierda y es reemplazada
en G1 por una cadena de B’s extendida hacia la derecha.
sin
forma
Teorema 2: (forma normal de Greibach o FNG), cada lenguaje libre de contexto L
puede estar generado por una gramática con una producción de la
donde A es una variable y a es un terminal y
es una cadenas de
variables (posiblemente vacíos).
Demostración: Sea G=(V, T, P, S) es una gramática en la forma normal de Chomsky
el
generando el lenguaje libre de contexto L. Asuma que
primer paso en la construcción es la modificación de
las
producciones,
esto es, sí
es una
Inicializan
producció
do con
aciendo lo siguiente:
asumimos que las producciones
sonA1 modificada para
n,
hasta
Am,
y es una producción solamente si
Ahora modificamos
las producciones
entonces
con generamos un nuevo conjunto de
es una
producc
Si
ión
producciones sustituyendo por el lado derecho a Aj de cada producción Aj de acuerdo
22
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
al lema 1. para repetir
el proceso k -1,
son reemplazadas de
obtenemos las
acuerdo al lema 2,
producciones de laLas producciones con
forma
introduciendo una nueva variable Bk . El algoritmo esta dado en la figura 6.A.
Para repetir el proceso sobre cada variable original, tenemos sólo la producción de la
forma:
Note que el símbolo más a la derecha de el lado izquierdo de alguna producción para
Am debe ser un terminal, es la variable de número mas alto. El símbolo más a la
derecha de el lado izquierdo de alguna producción para Am-1 debe ser cualquier Am o un
símbolo terminal. Cuando este es Am, podemos generar nuevas producciones para
reemplazar Am para el lado derecho de las producciones para Am de acuerdo al Lema 1.
Estas producciones deben tener al lado izquierdo como inicial a un símbolo terminal.
Con el último paso examinamos las producciones de las nuevas variables B1, B2,...,
Bm . Dado que iniciamos con una gramática en forma normal de Chomsky es
23
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
fácil probar para el número de aplicaciones del Lema 1 y 2 que el lado izquierdo cada
producción Ai , 1≤i ≤ n, inicializando con un terminal o Aj Ak , para alguna j y k. Por
tanto α en la línea (7) de la figura 4.A nunca puede ser vacío o inicializar con algún Bj ,
así como una producción Bi no puede iniciar con otra Bj . Por lo tanto todas las
producciones Bi , tienen en el lado izquierdo inicializando con terminales o Ai 's y más de
una aplicación del lema 1 para cada producción Bi completando la construcción,
(Hopcropft, 1979).
Ejercicio 10.A: Dada la gramática G =({ A1, A2, A3}, {a, b}, P, A), convertirla a la forma
normal de Greibach: donde P tiene las siguientes reglas de producción:
Solución
Sustituimos A1en A3
Ahora reemplazamos la primera A2 en A3
Recordemos que la forma normal de Greibach debe tener la siguiente estructura:
Aplicando el lema 2, nos dice que las producciones A deben ser reemplazadas por:
Entonces
estas producciones las aplicamos a A3
24
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
por lo tanto,
unificando
esta
cadena
queda:
Y como
y
tenemos que
Ahora sustituimos el resto de la cadena de
es decir,
en
donde A3 queda de la siguiente forma:
Por lo tanto el conjunto resultante es:
Tomando en cuenta el conjunto anterior sustituimos A3 en A2
vez hecho esto, sustituimos A2 en
Una A1
Finalmente sustituimos A1en B3
Por lo tanto las nuevas reglas de producción son:
Los dos métodos anteriores de la simplificación de las gramáticas libres de contexto,
nos sirven para convertir cualquier gramática que se encuentre en una forma diferente a la
forma normal de Chomsky o de Greibach. Una vez teniendo estas formas podemos aplicar
cualquiera de los algoritmos que se han estudiado anteriormente, (Hopcroft, 1979).
UPIITA-INGENIERÍA BIONICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
APÉNDICE B
27
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
B.
PROGRAMAS USADOS EN LA PLATAFORMA JAVA.
Programa 1.B: programa utilizado para eliminar los espacios y números de los archivos
de ADN extrayendo de ellos únicamente las secuencias que sirvieron para realizar los
alineamientos. Este programa fue realizado por el Dr. Herón.
28
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
cuenta++ ; } }
for (int i=0;i<cuenta;i++) w4
+= c2[i];
System.out.println(w4);
char buffer2[] = new char [w4.length()];
w4.getChars(0, w4.length(), buffer2, 0);
FileWriter f1 = new FileWriter("ADNlibre2.txt");
for (int i=0; i < buffer2.length; i++) {
f1.write(buffer2[i]);
}
fr1.close();
f0.close();
fr2.close();
f1.close();
PROGRAMA 2.B: programa utilizado para realizar las primeras pruebas preliminares y
hacer el reconocimiento de patrones para una cadena aleatoria de 28 pb. El programa se
divide en dos partes, en la primera parte se establece el nombre de los archivos de ADN
que leerá para poder compararlos, los contadores y crea el archivo de texto donde se
guardan los grados de membresía, posteriormente llama al segundo programa utilizándolo
como una función. En la segunda parte se programa, tanto la gramática como los grados
de membresía. Para este caso los grados de membresía son aleatorios. Este programa fue
realizado por el Dr. Herón
PRIMERA PARTE:
UPIITA-INGENIERÍA BIÓNICA
29
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
SENGUNDA PARTE:
UPIITA-INGENIERÍA BIÓNICA
30
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
UPIITA-INGENIERÍA BIÓNICA
31
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
32
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
UPIITA-INGENIERÍA BIÓNICA
33
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
34
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Programa 3.B: programa utilizado para realizar otra prueba. En este programa se
hicieron los cambios de la gramática pertinentes de acuerdo a la cadena empleada (tcgat),
los grados de membresía siguen siendo aleatorios. Para ejecutar este programa, se tomó
el realizado por el Dr. Herón, haciendo sólo las modificaciones necesarias para la cadena
cancerígena.
Primera parte:
UPIITA-INGENIERÍA BIÓNICA
35
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Segunda parte:
36
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
37
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
38
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
39
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Programa 4.B: programa utilizado para realizar otra prueba. A
hicieron los cambios de la gramática pertinentes de acuerdo a la
(tcgtcactag), los grados de membresía son aleatorios. Para ejecutar
tomó el realizado por el Dr. Herón, haciendo sólo las modificaciones
cadena cancerígena.
UPIITA-INGENIERÍA BIÓNICA
este programa se
cadena empleada
este programa, se
necesarias para la
40
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
41
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Segunda parte:
42
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
UPIITA-INGENIERÍA BIÓNICA
43
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
UPIITA-INGENIERÍA BIÓNICA
44
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
UPIITA-INGENIERÍA BIÓNICA
45
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
46
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
UPIITA-INGENIERÍA BIÓNICA
47
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
UPIITA-INGENIERÍA BIÓNICA
48
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Programa 5.B: Este programa compara una cadena con cáncer con una secuencia
cancerígena, usando la gramática libre de contexto difusa de la cadena con cáncer (atctat).
Los grados de pertenencia se tomaron con respecto a lo largo de la cadena. De igual
manera se divide en dos partes como los anteriores. Para ejecutar este programa, se tomó
el realizado por el Dr. Herón, haciendo sólo las modificaciones necesarias para la cadena
cancerígena.
Primera Parte:
49
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Segunda Parte:
50
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
UPIITA-INGENIERÍA BIÓNICA
51
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
52
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
53
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
54
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Programa 6.B: Este programa hace la comparación de una cadena sin cáncer contra
una secuencia con cáncer se emplea la gramática libre de contexto difusa de la cadena sin
cáncer (acccccatttac). Los grados de pertenencia se tomaron con respecto a lo largo de la
cadena. De igual manera se divide en dos partes como los anteriores. Para ejecutar este
programa, se tomó el realizado por el Dr. Herón, haciendo sólo las modificaciones
necesarias para la cadena sin cáncer.
Primera parte:
55
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
Segunda parte:
56
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
57
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
58
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
59
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
61
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
62
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
UPIITA-INGENIERÍA BIÓNICA
63
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
64
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
APÉNDICE C
UPIITA-INGENIERÍA BIÓNICA
65
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
C.1 ALINEAMIENTOS CON SECUENCIAS CON CÁNCER CONTRA CÁNCER
UPIITA-INGENIERÍA BIÓNICA
66
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
UPIITA-INGENIERÍA BIÓNICA
67
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
UPIITA-INGENIERÍA BIÓNICA
68
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
C.2 ALINEAMIENTOS CON SECUENCIAS CON CÁNCER CONTRA SIN CÁNCER
69
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
C. ALINEAMIENTOS CON SECUENCIAS CON CÁNCER Y PROTEÍNAS DEL CROMOSOMA 18P
70
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
UPIITA-INGENIERÍA BIÓNICA
71
72
UPIITA-INGENIERÍA BIÓNICA
ANÁLISIS DEL ADN POR MEDIO DEL USO DE LÓGICA DIFUSA
73
UPIITA-INGENIERÍA BIÓNICA
Descargar