automatización en labores de clasificación

Anuncio
UNIVERSIDAD POLITÉCNICA DE MADRID
ESCUELA TÉCNICA SUPERIOR DE INGENIERÍA Y DISEÑO INDUSTRIAL
DEPARTAMENTO DE ELECTRÓNICA, AUTOMÁTICA E INFORMÁTICA
INDUSTRIAL
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL
DIAGNÓSTICO EN EL AMBIENTE SANITARIO
TRABAJO FIN DE MÁSTER
MÁSTER UNIVERSITARIO EN INGENIERÍA ELECTROMECÁNICA
Itinerario Profesional: Mecatrónica
Autor: Marcelo Vicente Toapanta Defaz
Tutor: Dr. Roberto González Herránz
Madrid, Junio 2014
DEDICATORIA
A mis padres….
A mis hermanas….
A mi país…
A los que han creído en mí….
“Nadie nunca logró nada espléndido fuera de quienes se atrevieron a creer
que algo dentro de ellos era superior a las circunstancias.”
Bruce Barton
i
AGRADECIMIENTOS
Gracias Dios por enseñarme el camino de la vida, la sabiduría y la felicidad, sin ti no
podría llegar a ningún lado.
Quiero agradecer profundamente a mi tutor D. Roberto González Herránz por su acertada
dirección, por compartir sus conocimientos, alentarme en cada fase de la investigación y hacer
posible este sueño.
Hacer extensivo este agradecimiento a todos los profesores y compañeros de la
Universidad que de una u otra manera me facilitaron sus conocimientos, apoyo y amistad.
Agradecer al SENESCYT, al IECE y al Gobierno actual de mi país, por poner la esperanza
en la juventud y por tener la convicción que la riqueza de una sociedad se basa en la fuente
inagotable del conocimiento, la creatividad y la innovación del ser humano.
Si luchas por algo increíble, no será fácil.
Si luchas por algo fácil, nunca será increíble.
Anónimo
ii
ÍNDICE GENERAL
DEDICATORIA
i
AGRADECIMIENTOS
ii
ABREVIATURAS
vii
RESUMEN
1
INTRODUCCIÓN
3
OBJETIVOS
9
CAPÍTULO 1
1. ESTADO DEL ARTE
1.1. Trastornos del movimiento
1.2. El Temblor Humano
1.3. Clasificación del Temblor
1.3.1. Temblor Fisiológico
1.3.2. Temblor Esencial TE
1.3.3. Enfermedad de Parkinson EP
1.3.4. Otros Tipos de Temblor
1.4. Diagnóstico del Temblor
1.4.1. Estudios Epidemiológico, Prevalencia e Incidencia, de TE y EP
1.4.2. Estudios Genéticos
1.4.3. Estudios Clínicos
1.4.4. Estudios de Neuroimagen
1.5. Líneas de Investigación de Patología del Temblor
1.5.1.Métodos para Medir y Registrar el Temblor
1.5.1.1. Acelerómetros y Giroscopios
1.5.1.2. Electromiografía (EMG)
1.5.1.3. Tabletas Digitalizadoras - Espirografía
1.5.2. Métodos para el Análisis del Temblor
1.6. Anteriores Investigaciones para la Ayuda al Diagnóstico de Pacientes con Trastorno
del Movimiento
1.6.1. Primer Estudio
iii
11
12
14
17
20
21
22
23
25
26
28
29
30
31
32
33
35
36
38
42
42
1.6.2. Segundo Estudio
1.6.3. Tercer Estudio
1.6.4. Cuarto Estudio
43
45
46
CAPÍTULO 2
2. MÁQUINA DE SOPORTE VECTORIAL - CLASIFICACIÓN
2.1. Generalidades de las Máquinas de Soporte Vectorial SVM
2.2. El Aprendizaje Automático
2.3. Modelo de una Máquina de Aprendizaje
2.4. Problema de Minimización del Riesgo
2.5. Principio Inductivo de Minimización del Riesgo Empírico ERM
2.6. La Dimensión de Vapnik-Chervonenkis CV
2.7. Principio Inductivo de minimización del Riesgo Estructural SRM
2.8. Generalidades de la Clasificación de Patrones
2.9. Clasificación de Patrones con Máquinas de Soporte Vectorial
2.9.1. Hiperplanos como Superficie de Decisión
2.9.2. Distancia de un Hiperplano al Origen
2.9.3. Margen Máximo de un Hiperplano
2.10. SVMs Lineales
2.10.1. SVM Lineal de Margen Rígido para Datos Linealmente Separables
2.10.1.1. Formulación Primal
2.10.1.2. Formulación Dual
2.10.1.3. Vectores Soporte
2.10.1.4. Hiperplano de Separación Óptimo
2.10.1.5. Clasificación de Nuevos Datos
2.10.2. SVM Lineal de Margen Flexible para Datos Linealmente No Separables
2.10.2.1. Parámetro C
2.10.2.2. Formulación Primal
2.10.2.3. Formación Dual
2.11. SVMs No Lineales
2.11.1. Mapeo de los Datos de Entrada al Espacio de Características
2.11.2. Funciones Kernel para SVM
2.11.3. SVM No Lineales de Margen Rígido
2.11.4. SVM No Lineales de Margen Flexible
2.12. Algoritmo de la SVM
2.13. Ejemplo de Aplicación de las SVMs
49
49
51
53
59
60
64
68
72
75
77
81
82
84
85
85
86
89
90
91
92
96
97
98
101
103
106
108
109
110
111
CAPÍTULO 3
3. TÉCNICAS Y HERRAMIENTAS UTILIZADAS
3.1. Librería LIBSVM
3.2. Funciones de Matlab
117
117
122
iv
INTRODUCCIÓN
3.2.1.
3.2.2.
3.2.3.
3.2.4.
3.2.5.
Toolbox de Estadística de Orden Superior HOSA
Toolbox de Procesamiento de Señales PSD
Toolbox de Estadística ACP
Coeficiente de Curtosis
Distancia de Mahalanobis
122
125
125
127
128
4. FUENTE DE LOS DATOS. PREPARACIÓN DE LAS MUESTRAS
4.1. Pruebas para Evaluar el Temblor
4.2. Obtención de Patrones
4.2.1. Patrones Estáticos
4.2.2. Patrones Cinéticos
4.2.3. Patrones dinámicos
4.3. Filtrado y Caracterización del Temblor
4.3.1. Filtrado del temblor
4.3.2. Caracterización del temblor
4.4. Normalizado y Estandarizado de los Datos
4.5. Selección del Modelo de SVM
4.5.1. Selección de la Función Kernel
4.5.2. Selección de Parámetros. Validación Cruzada-Malla de Búsqueda
129
129
132
132
133
136
136
138
139
141
142
142
143
CAPÍTULO 4
CAPÍTULO 5
5. ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS
5.1. Metodología de los Ensayos
5.1.1. Entrenamiento de la SVM con LIBSVM
5.1.1.1. Formato de la Base de Datos
5.1.1.2. Fase de Aprendizaje de la SVM
5.1.1.3. Fase de Prueba del Modelo Clasificador
5.1.1.4. Registro de los Resultados
5.2. Hipótesis 1. Análisis del Temblor Mediante Curvas de Ajuste
5.2.1. Procedimiento
5.2.2. Análisis de los Modelos del Clasificador
5.3. Hipótesis 2. Análisis de la Amplitud y Frecuencia del Temblor
5.3.1. Procedimiento
5.3.2. Análisis de los Modelos del Clasificador
5.4. Hipótesis 3. Análisis del Temblor con Técnicas de Estadística de Segundo Orden PSD
y Espectros de Orden Superior HOSA
5.4.1. Procedimiento
5.4.2. Análisis de los Modelos del Clasificador
5.5. Hipótesis 4. Análisis del Temblor con el Método de Componentes Principales ACP
5.5.1. Procedimiento
v
149
149
150
151
151
152
153
153
153
159
160
161
163
164
166
172
173
174
5.5.2. Análisis de los Modelos del Clasificador
177
CAPÍTULO 6
6. RESULTADOS DE LA INVESTIGACIÓN
6.1. Resultados. Análisis del Temblor Mediante Curvas de Ajuste
6.2. Resultados. Análisis de la Amplitud y Frecuencia del Temblor
6.3. Resultados. Análisis del Temblor con Técnicas de Estadística de Segundo Orden PSD
y Espectros de Orden Superior HOSA
6.4. Análisis del Temblor con el Método de Componentes Principales
179
181
183
CONCLUSIONES
191
FUTUROS DESARROLLOS
195
ANEXOS
197
BIBLIOGRAFÍA
199
vi
185
188
ABREVIATURAS
Análisis de Componentes Principales
Enfermedad de Parkinson
Minimización del Riesgo Empírico
Transformada Rápida de Fourier
Análisis Estadístico de Orden Superior
Hiperplano de Separación Óptimo
Inteligencia Artificial
Máquina de Aprendizaje
Perceptrón Multicapa
Programación Cuadrática
Densidad Espectral de Potencia
Teoría de Aprendizaje Estadístico
Optimización Mínima Secuencial
Minimización del Riesgo Estructural
Máquinas de Soporte Vectorial
Temblor Esencial
Temblor Fisiológico
Vectores Soporte
Dimensión de Vapnik-Chervonenkis
eest
Error de Estimación
n
h
Espacio de Entrada de n-Dimensión
H
Espacio de Hipótesis
T
yi
Espacio Objetivo
Etiqueta
LP
Formulación Primal de Lagrange
WD

 (x )
Formulación Dual de Wolfe
Función Característica
fa
Función de Aproximación
Espacio de Características
Función Kernel, Función Núcleo
f0 (x) Función Objetivo
f (x ) Función Subyacente

H ( x ) Hiperplano de separación
, 
N
N SV
C

Remp
Matriz Hessiana
Multiplicadores de Lagrange
Número de muestras
Número de Vectores Soporte
Parámetro de Regularización
Parámetros del vector pesos
Riesgo Empírico
R ( f ) Riesgo Esperado
h
Dimensión VC
P(x, y) Distribución de Probabilidad
Error de Aproximación
Error de Generalización
K
SIMBOLOGÍA
b
Bias, Umbral
k
Coeficiente de Curtosis

( x , y ) Dato de Entrenamiento
eapr
e gen
H
ACP
EP
ERM
FFT
HOSA
HOS
IA
MA
MLP
QP
PSD
SLT
SMO
SRM
SVM
TE
TF
VS
VC
R ( ) Riesgo Funcional
i
Variable de Holgura

w, w
Vector, muestra, ejemplo
Vector pesos

xi , x
vii
RESUMEN
INTRODUCCIÓN
El Temblor Esencial y la Enfermedad de Parkinson
son considerados dos trastornos de movimiento
diferentes, el primero asociado a un temblor
cinético/postural y el segundo a un temblor de
reposo. Sin embargo, en la literatura médica hacen
notoria la potencial relación que puede existir entre
ambas enfermedades. El hecho de que pacientes con
la EP presenten un temblor postural igual al TE, que
una enfermedad sea un factor de riesgo para el
desarrollo de la otra, que ambas enfermedades
compartan características neurodegenerativas y el
solapamiento semiológico del temblor provoca que
el diagnóstico clínico no sea fiable y surge la
necesidad de implementar métodos de Inteligencia
Artificial para analizar y cuantificar el temblor y en
base a su medida, clasificarlo. Brindando a los
médicos una herramienta práctica y eficaz, para
asegurar un tratamiento adecuada del paciente, y así
mejorar su calidad de vida.
OBJETIVO
Desarrollar una metodología que permita
automatizar la clasificación del temblor esencial y
temblor parkinsoniano, utilizando las Máquinas de
Soporte Vectorial, para el apoyo al diagnóstico
clínico garantizando al paciente una atención y
tratamientos adecuados.
METODOLOGÍA
Se parte de una base de datos conformada por las
series temporales de un conjunto de pruebas, donde
cada prueba está constituida por una serie de
patrones (formas geométricas) ejecutadas en forma
estática (manteniendo una postura), cinética
(siguiendo la trayectoria del patrón) y dinámica
(fuerzas generadas artificialmente) sobre la mano
del paciente. Los datos generados en estas pruebas
fueron registrados y almacenados por el sistema
DIMETER, que utiliza un dispositivo háptico llamado
PHAMToN para la adquisición de los datos. Para la
caracterización del temblor se utilizó el PSD y los
Poliespectros; el Análisis de Componentes
Principales disminuyó la dimensionalidad de los
vectores; la distancia de Mahalanobis y el coeficiente
de Curtosis proporcionaron el medio para la
separación de los valores atípicos. La Máquina de
Soporte Vectorial proporcionó el modelo de
clasificador utilizando los vectores característicos
previamente analizados.
RESULTADOS
Del análisis de los resultados obtenidos en las
diferentes hipótesis y ensayos, dan cuenta que las
pruebas estáticas y cinéticas son suficientes para
caracterizar el temblor y crear un clasificador SVM
con una buena capacidad de generalización,
obteniendo en la fase de clasificación un error del
0%.
PALABRAS CLAVES: Temblor Esencial, Enfermedad
de Parkinson, Temblor Fisiológico, Máquinas de
Soporte Vectorial, PSD, Poliespectro, Análisis de
Componentes Principales, Distancia de Mahalanobis,
Coeficiente de Curtosis.
1
ABSTRACT
INTRODUCTION
patterns (shapes) executed statically (maintaining a
Essential Tremor and Parkinson's disease are
considered two different movement disorders, the
first associated with a kinetic / postural tremor and
the second to a resting tremor. However, in the
medical literature makes evident the potential
relationship that may exist between the two
diseases. The fact that PD patients present a
postural tremor equal to TE, a disease is a risk factor
for the development of the other, both diseases
share
neurodegenerative
characteristics,
and
semiological overlapping of tremor causes the
clinical diagnosis is unreliable and there is a need to
implement Artificial Intelligence methods to analyze
and quantify tremor and based on its measures,
classify. Providing physicians with a practical and
effective tool to ensure appropriate patient care,
and improve their quality of life.
OBJECTIVE
To develop a methodology to automate the
stance), kinetic (following the trajectory pattern) and
dynamic (generated artificially forces) on the
patient's hand. The data generated in these tests
were recorded and stored by the DIMETER system
that uses a haptic device called PHAMToN for data
acquisition. For the characterization of the tremor
was used the PSD and higher order spectra; Principal
Component Analysis reduced the dimensionality of
the
vectors;
Mahalanobis
distance
and
the
coefficient of kurtosis provided the means for
removal of outliers. The Support Vector Machine
classifier provided the model using the feature
vector previously discussed.
RESULTS
Analysis of the results obtained in the different
hypothesis show that the static and kinetic tests are
sufficient to characterize the tremor and create a
SVM classifier with good generalization ability,
getting in qualifying an error of 0%.
classification of essential tremor and parkinsonian
KEYWORDS: Essential Tremor, Parkinson's disease,
tremor, using Support Vector Machines, to support
Physiological Tremor, Support Vector Machines, PSD,
the clinical diagnosis ensuring patient care and
Higher Order Spectra, Principal Component Analysis,
treatments.
Mahalanobis distance, Coefficient of Kurtosis.
METHODOLOGY
We assume a database consists of time series of a
set of tests, where each test consists of a series of
2
INTRODUCCIÓN
Mi motivación personal…
¿Por qué tiembla? Fue la pregunta que hice 15 años atrás a mi tía abuela Francisca, algo raro le ocurría.
No era usual ver como su mano empezó a temblar sin que hubiese voluntad de hacerlo. Las condiciones
sociales de un país como el mío nos mantenía al margen del servicio de la salud, intentamos apaciguar
aquel movimiento incontrolable con medicina ancestral, no buscamos ayuda profesional, la escasez de
los recursos económicos familiares lo impedían, pasó el tiempo y como por contagio empezó a temblar
su otra mano y luego sus piernas, pero era solo el principio. Con dificultad podía coger un cubierto, su
autoestima estaba muy afectada, ya la enfermedad no solo afectaba la parte motora sino que su parte
cognitiva también se volvió en su contra. Nuestra preocupación y amor familiar nos llevó a buscar ayuda
de un especialista, Parkinson y no hay cura, ese fue el diagnóstico. A poco tiempo el Papa Juan Pablo II
falleció y supimos que él también padeció esta enfermedad. La falta de especialización de los médicos y
la evolución singular de esta enfermedad en cada persona que la padece, hizo que cada medicamento
que ingería sea rechazado por su organismo y fue muy difícil atinar con el tratamiento adecuado. Son 2
años desde que vine a España en la búsqueda de conocimiento y fue una oportunidad coincidir con un
tema que afectaba a mí ser querido, acepté el reto y hoy soy consciente que pude haber hecho mucho y
que puedo seguir haciendo más por ella. Hoy la enfermedad está muy avanzada me dice que ha dejado
de caminar porque se cae, que le cuesta mucho extender sus piernas y sus brazos, la escucho con voz
titubeante y temblorosa y sé que le cuesta mucho coger el teléfono. Su cuerpo ha cambiado pero sus
sentimientos siguen siendo los mismos de siempre, lo último que me dijo fue "hijo, cuando vuelves,
tengo muchas ganas de verte". Solo tengo que agradecer a la vida por tenerla entre nosotros y
compartir con ella algo que no enferma, no tiembla, no daña, ni duele, el amor.
3
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
Existe un gran número de enfermedades de origen neuronal que provocan Trastornos del Movimiento y
pueden desencadenar en una importante pérdida de calidad de vida de las personas. El movimiento más
efímero y simple es el resultado de complejas interacciones entre múltiples circuitos neuronales dentro
del cerebro y la médula espinal, si alguna parte del sistema nervioso se ve afectado aparecen una
variedad de trastornos del movimiento.
Según el Instituto Nacional de Trastorno Neurológicos y Accidentes Cerebrovasculares, indica que el
Temblor es el más común de los trastornos del movimiento y lo define como un movimiento
involuntario y rítmico, que implica la oscilación de una o más partes del cuerpo.
No siempre el temblor es un movimiento anormal. El potencial eléctrico generado en el cerebro por
miles de neuronas, forman ondas cerebrales con diferentes frecuencias. Las neuronas encargadas del
movimiento corporal oscilan a 10 ciclos por segundo, que es el temblor mínimo casi imperceptible que
todas las personas presentan, llamado Temblor Fisiológico. Cuando existen factores como el cansancio,
el nerviosismo, el miedo, etc., el cuerpo segrega adrenalina haciendo que el temblor incremente, pero
continua siendo un temblor normal.
Cuando existen alteraciones en el sistema nervioso y el patrón de activación muscular continuo es
reemplazado por descargas bruscas, rítmicas y breves, el temblor se vuelve anormal, es decir en un
Temblor Patológico. Existen algunos tipos de temblor considerados dentro del temblor patológico, el
Temblor Esencial y el temblor provocado por la Enfermedad de Parkinson son los más comunes dentro
de la población que comprende a las personas de mediana edad y ancianas, afectando a hombres y
mujeres en forma similar.
El incremento de la esperanza de vida experimentada especialmente por los países desarrollados, se
traduce en un problema llamado envejecimiento poblacional, la franja de población mayor a 60 años se
ve aumentada. Según la División de Población del Departamento de Asuntos Económicos y Sociales de la
Secretaría de las Naciones Unidas (2013), la población mundial mayor a 60 años en el 2013 se calculó en
841 millones, se estima que durante 2013-2050 se incremente a 2020 millones, aumentando del 12 a
21% a nivel mundial, del 23 a 34% en Europa, del 20 al 27% en Norteamérica, del 11 a 24% en Asia, del
11 al 25% en América Latina y el Caribe, del 16 al 23% en Oceanía y del 5.4 al 8.9% en África.
Al envejecer la población, trae consigo una serie de cambios en la sociedad, especialmente en la salud,
con un incremento en enfermedades crónicas y neurodegenerativas que afectan a la edad senil, como el
Alzheimer, el Parkinson y el temblor. Estas enfermedades aumentarán su prevalencia y junto a otras
4
INTRODUCCIÓN
enfermedades propias de la tercera edad sobrecargarán los sistemas de salud del mundo y el costo de
salud per cápita también se verá incrementado.
La prevalencia e incidencia de la enfermedad de Parkinson y de temblor esencial son difíciles de estimar
y varían en los diferentes estudios realizados debido a la heterogeneidad y variabilidad en la
metodología utilizada, a las muestras, a los factores genéticos y ambientales de las poblaciones
estudiadas.
Según la European Parkinson's Disease Association (EPDA), basado en un estudio de prevalencia en los 5
países más poblados de Europa Occidental y 10 países más poblados del mundo, estimó que en el 2005
el número de personas con más de 50 años de edad que padecían Parkinson fue de 4.1 a 4.6 millones y
para el 2030 se proyecta que este valor se incrementará a más del doble, entre 8.7 y 9.3 millones. La
EPDA indica también que 1,2 millones de personas en Europa padecen Parkinson, se prevé que su
incidencia se duplique para 2030
y que el coste anual por el sistema de salud europeo sea de 13.900
millones de euros.
Por otro lado, según el portal norteamericano MEDSCAPE, se estima que el temblor esencial puede ser
de 10 a 20 veces más prevalente que la enfermedad de Parkinson, entre 50-70% de los casos el temblor
esencial se estima que es de origen genético y las mutaciones genéticas en estos casos se prevé que se
transmite de forma autosómica dominante y tiene penetrancia variable. Aunque la edad de inicio de
esta enfermedad es variable la mayoría empieza en la segunda o sexta década de la vida y junto con el
envejecimiento de la población también aumentará el número de casos. En Norteamérica cerca de 5
millones de personas han sido diagnosticadas con temblor esencial, pero se estima que la cifra puede
llegar a 10 millones debido a que muchas personas no buscan atención médica si el temblor es leve o
atribuyen el temblor a la edad avanzada, o al temor de que el impacto del temblor en su calidad de vida
no va a ser tomado en serio. Circunstancias que se repiten alrededor del mundo.
Desde otro punto de vista, el espectro clínico del temblor varía ampliamente entre un fenómeno normal
hasta una forma discapacitante de enfermedades graves. La etiología es múltiple y para el diagnóstico es
necesario la exploración visual y la descripción de las características semiológicas del temblor en virtud
de múltiples criterios como: la condición que activa el temblor (en reposo, postura o movimiento), la
amplitud, la frecuencia (baja, media o alta), la topografía (extremidades, tronco, cabeza), exámenes
neurológicos e historial clínico (inicio del temblor, secuencia de inicio, comorbilidades, historia familiar,
factores que lo exacerban o lo inhiben y consumo de alcohol, medicamentos o drogas).
5
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
El diagnóstico clínico del temblor basado en escalas de calificación requiere de la subjetividad y
experiencia del especialista. Puede ser suficiente, pero en muchas de las veces no es aplicable en la
práctica, debido a que existe un solapamiento en la semiología clínica entre los pacientes de temblor
esencial y el temblor parkinsoniano. Además, en algunas publicaciones dan cuenta que ambas
enfermedades podrían estar relacionadas o coexistir en un fenotipo de temblor o que una sea factor de
riesgo para el desarrollo de la otra. Es decir, un subgrupo de pacientes con Parkinson desarrollan un
temblor postural en las manos (propio del temblor esencial) por un largo tiempo antes que aparezcan
los síntomas parkinsonianos, y de la misma manera se encuentra cuerpos de Lewy en algunos pacientes
con temblor esencial cuando éstos son propios de la enfermedad de Parkinson.
Bajo estas circunstancias se requiere que el temblor no sea analizado únicamente de forma cualitativa
como lo hace un diagnóstico clínico, sino que deba ser analizado de forma cuantitativa con el fin de
comparar datos y apoyar al diagnóstico clínico. Es en este punto, donde biomecánica juega un papel
muy importante, mediante dispositivos electrónicos, herramientas y algoritmos matemáticos se
adquiere, procesa y analiza cuantitativamente el temblor.
El avance tecnológico, la gran capacidad de procesamiento y almacenamiento de la información de las
computadoras de hoy en día, junto a técnicas de Inteligencia Artificial y la teoría de toma de decisiones,
tienen la capacidad de generar y extraer el conocimientos sobre distintos problemas del entorno real a
partir del estudio exhaustivo de ciertas bases de datos, dando lugar al diagnóstico automatizado.
Luego de este preámbulo, haciendo referencia al título de esta obra "AUTOMATIZACIÓN EN LABORES DE
CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE
SANITARIO." Se inició el estudio seleccionando a las Máquinas de Soporte Vectorial (SVM) como la
estructura de aprendizaje automático para la tarea de clasificación de dos clases. Las SVMs fueron
desarrolladas por el Vladimir Vapnik y sus colaboradores en el marco de la Teoría de Aprendizaje
Estadístico (SLT) y bajo el principio de Minimización del Riesgo Estructural (SRM) y no fue hasta 1998 que
empezó a tener auge en varias aplicaciones. Las SVMs pertenecen a la familia de clasificadores lineales,
tienen un fundamento teórico-matemático muy sólido. Tienen una gran capacidad para aprender a
partir de un conjunto de datos experimentales que generalmente son tomados del entorno real y con
una distribución dispersa en un espacio de entrada de alta dimensión. Basan su aprendizaje en la
construcción de un hiperplano en un espacio de características de alta dimensión, los datos de entrada
que generalmente son no separables linealmente son mapeados mediante una función de
características llamado kernel o núcleo a un espacio de características en donde pueden ser separados
6
INTRODUCCIÓN
linealmente. La función kernel es la esencia de las SVMs, la función objetivo a optimizar es convexa lo
cual garantiza la convergencia y existencia de una única solución. La estructura del hiperplano óptimo se
construye en base a un subconjunto de datos llamados Vectores Soporte (VS); el hiperplano es la función
de separación que clasifica a los datos a sus correspondientes clases dependiendo de la etiqueta.
Posteriormente, con la base de datos de las pruebas realizadas a los pacientes con temblor esencial,
enfermedad de Parkinson y temblor fisiológico que fueron registradas y almacenada por el sistema
DIMETER, se analizaron y caracterizaron con atributos numéricos a cada una de las muestras mediante
herramientas estadísticas. Consecutivamente, se plantearon cuatro hipótesis para la clasificación, las
muestras fueron preparadas y subdivididas en los conjuntos de entrenamiento y prueba. Luego, el
conjunto de entrenamiento fue sometido a una fase de aprendizaje con el algoritmo LIBSVM y
finalmente las muestras del conjunto de prueba a la fase de clasificación.
Este trabajo está dividido en 5 capítulos, procurando abordar cada uno de los temas relevantes,
técnicas, herramientas y procedimientos utilizados durante la investigación.
El Capítulo 1 presenta una descripción de los trastornos del movimiento y trastornos del temblor. Una
revisión de las características, clasificación, etiología, semiología y efecto de los temblores más
frecuentes y motivo de este trabajo como son: el temblor fisiológico, temblor esencial y el temblor
producido por la enfermedad de Parkinson. Se aborda algunos estudios relacionados con el diagnóstico
del temblor, así como los métodos y las técnicas que hoy por hoy utilizan los investigadores para la
medición y análisis del temblor. Finalmente, se hace mención de los trabajos y los resultados obtenidos
por anteriores compañeros que me precedieron en la misma línea de investigación.
En el Capítulo 2 contiene el fundamento de las máquinas de aprendizaje automático, una explicación de
la Teoría de Aprendizaje Estadístico, el desarrollo del principio de minimización del riesgo estructural y la
dimensión VC. Un repaso a la clasificación de patrones y la tarea de clasificación. La descripción y el
fundamento teórico matemático del algoritmo de las SVMs es dado, así como la formulación de las
SVMs de margen rígido y de margen flexible para clasificadores lineales como no lineales. Por último, se
proporciona un ejemplo práctico del clasificador SVM entrenando con varias funciones kernel.
El Capítulo 3 está dedicado a recolectar todas las técnicas y las herramientas que se utilizaron para el
tratamiento de la información. Se da una explicación detallada de cada una de las funciones a utilizar
durante el entrenamiento del clasificador SVM utilizando el software proporcionado en el paquete
LIBSVM. Se describe la Toolbox de Estadística de Orden Superior HOSA y la Toolbox de Procesamiento
7
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
de Señales PSD, utilizadas en MATLAB para la caracterización del temblor. Además, se detalla las
técnicas empleadas para el estudio de los datos como son el análisis de componentes principales ACP, la
distancia de Mahalanobis y el coeficiente de Curtosis.
En el Capítulo 4 se detalla el proceso de obtención y preparación de las muestras para el entrenamiento
con la SVM. Se hace una descripción del sistema DIMETER empleado para la adquisición de los datos,
registro y almacenamiento de las pruebas realizadas a los pacientes, así como las condiciones y los
patrones utilizados en la ejecución de cada una de las pruebas. Más adelante se describe el proceso de
filtrado de las señales y la caracterización del temblor mediante atributos numéricos obtenidos a partir
de las estadísticas de segundo orden PSD y las estadísticas de orden superior HOSA. También se hace
una breve referencia sobre el proceso de normalización y estandarización de los datos. Finalmente, se
marcan las pautas para la selección y ajuste de los parámetros de las funciones kernel en base al
procedimiento de validación cruzada, así también se indica el comportamiento asintótico del clasificador
SVM con un kernel Gaussiano RBF.
El Capítulo 5 está dedicado al estudio de las hipótesis planteadas, a la clasificación de las muestras y los
resultados obtenidos en cada una de las hipótesis. Se expone la metodología utilizada en los ensayos. Se
detalla cada una de las fases para el entrenamiento de la SVM. En cada una de las hipótesis se describe
su fundamento teórico, las herramientas y las técnicas matemáticas empleadas para el análisis de las
señales, el procedimiento a seguir, así como el número de muestras y atributos numéricos de cada
vector. Con el propósito de reducir al máximo el error en la clasificación se optó por probar con
diferentes configuraciones entre las pruebas estáticas, cinéticas, dinámicas o en combinación a la
entrada de la SVM. Luego se presentan en tablas los resultados obtenidos para cada modelo clasificador,
los parámetros de ajuste para cada tipo de kernel y la tasa de error cometido tanto en la fase de
entrenamiento como en la fase de clasificación. Al terminar cada hipótesis se hace un análisis de los
resultados en referencia al mejor modelo de clasificador obtenido.
Dentro del Capítulo 6 se presentan un análisis de los resultados globales y se hace una comparación
entre los resultados de las hipótesis planteadas y sobre las configuraciones realizadas con el fin de
mejorar los resultados.
Finalmente, se enuncia las conclusiones del trabajo en cada una de las hipótesis planteadas en relación a
los resultados obtenidos.
8
OBJETIVOS
Los objetivos del presente trabajo de investigación son:
OBJETIVO GENERAL
-
Automatizar la clasificación de enfermedades provenientes de trastornos del movimiento,
aplicando las Máquinas de Soporte Vectorial como técnica de Inteligencia Artificial y algoritmo
de aprendizaje supervisado, para el análisis de datos y el reconocimiento de patrones, con el fin
de apoyar la estimación cualitativa del diagnóstico clínico de los pacientes, garantizando
atención y tratamientos adecuados.
OBJETIVOS ESPECÍFICOS
-
Identificar las características clínicas, etiológicas y semiológicas que presentan los pacientes con
Temblor Fisiológico, Temblor Esencial y Temblor Parkinsoniano, así como la correlación que
puede existir entre ellos, especialmente en los dos últimos debido a que una enfermedad puede
ser factor de riesgo para el desarrollo de la otra.
-
Analizar y procesar las series temporales de la base de datos obtenidas a partir de una serie de
pruebas estáticas, cinéticas y dinámicas con diferentes patrones, realizadas por pacientes con
temblor; series temporales que fueron registradas y almacenadas por el sistema DIMETER
mediante el dispositivo háptico PHAMToN.
-
Caracterizar el temblor con atributos numéricos utilizando las series temporales, aplicando
herramientas de Estadística de segundo orden como la Densidad Espectral de Potencia,
9
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
Estadística de orden superior como el Biespectro y Triespectro, y herramientas de Análisis de
Señales para el ajuste de curvas.
-
Procesar los atributos numéricos mediante el Análisis de Componentes Principales para reducir
la dimensionalidad de las variables de los vectores característicos, extrayendo la información
relevante evitando trabajar con datos redundantes, así como disminuir el gasto computacional.
-
Entrenar las Máquinas de Soporte Vectorial con la ayuda de la librería LIBSVM para obtener los
parámetros de ajuste que garanticen una tasa de mínimo error durante la fase de aprendizaje y
la fase de clasificación.
-
Obtener un modelo óptimo del clasificador de la Máquina de Soporte Vectorial de margen
flexible que proporcione la mayor exactitud en la clasificación entre las muestras del temblor
fisiológico y temblor patológico, así como en la clasificación entre las muestras del temblor
esencial y enfermedad de Parkinson. El modelo seleccionado debe cumplir el principio de
Minimización del Riesgo Estructural y dimensión VC, creando una cota superior sobre el riesgo
esperado de manera que garantice una buena capacidad de generalización.
-
Evaluar la capacidad, las ventajas e inconvenientes de las Máquinas de Soporte Vectorial para
discriminar y clasificar los diferentes tipos de temblor.
-
Por último, determinar el procedimiento, el conjunto de atributos numéricos, las pruebas o los
patrones que mejor caracterizan y diferencian a los distintos tipos de temblor, y que pueden ser
utilizados para afianzar el diagnóstico clínico para un adecuado tratamiento y correcta
medicación a los pacientes por parte de los médicos, especialmente en pacientes en una etapa
inicial de la enfermedad cuyos síntomas pueden ser confusos y acarrear a evaluaciones
erróneas.
10
CAPÍTULO 1
ESTADO DEL ARTE
El presente trabajo de investigación, se desarrolla enfocado en la ayuda al diagnóstico de patologías
provenientes de una disfunción neurológica, que altera la forma y la velocidad de los movimientos
corporales. Si un área del sistema nervioso que controla el movimiento se lesiona o tiene un
funcionamiento anormal, puede aparecer una variedad de trastornos del movimiento. El temblor, es el
trastorno de movimiento más común, entre los temblores más frecuentes y razón de este estudio está
el Temblor Fisiológico, el Temblor Esencial (TE) y el provocado por la Enfermedad de Parkinson (EP). No
existe cura para la mayoría de estos temblores y sus variantes, pero con un diagnóstico clínico adecuado
permite que un paciente reciba un tratamiento correcto, y así, mejorar su calidad y estilo de vida.
La alteración motora es la típica manifestación para el diagnóstico clínico del temblor, debido a las
numerosas causas que lo producen y a la similitud entre sus variantes, una clasificación etiológica o
fisiológica práctica del temblor no es posible. Actualmente, la clasificación del temblor se hace mediante
el diagnóstico clínico, estimación cualitativa, que consiste en datos provenientes del historial del
paciente, de los exámenes neurológicos y físicos, y de una revisión de signos y síntomas, lo cual es
suficiente pero en ocasiones es necesario el apoyo de sistemas de cuantificación que transformen la
percepción visual en datos objetivos aumentando la capacidad y precisión para clasificar un temblor
específico entre una serie de síndromes con características similares. Incluso los médicos hacen notoria
la necesidad de herramientas informáticas para apoyar y confirmar su diagnóstico.
Con el presente trabajo de investigación, se busca caracterizar a los diferentes tipos de temblor,
partiendo de una base de datos conformada por series temporales de un conjunto de pruebas, donde
cada prueba está constituida por una serie de patrones (formas geométricas) ejecutadas en forma
11
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
estática (manteniendo una postura), cinética (siguiendo la trayectoria del patrón) y dinámica (fuerzas
generadas artificialmente) sobre la mano del paciente. Los datos generados en estas pruebas fueron
registrados y almacenados por el sistema DIMETER (Capítulo 4.), que utiliza un dispositivo háptico
llamado PHAMToN para la adquisición de los datos. Las series temporales serán analizadas matemática y
estadísticamente para obtener atributos numéricos capaces de caracterizar a los diferentes tipos de
temblor. Una vez conseguidos los atributos numéricos se implementan métodos discriminantes que
consiga clasificar a los distintos temblores de forma automática, con técnicas de inteligencia artificial
basadas en el aprendizaje automático y la toma de decisiones. La Máquina de Soporte Vectorial SVM, es
una herramienta robusta, eficaz y de aprendizaje supervisado con buenos resultados en la aplicación de
tareas de clasificación en problemas de la vida real y forman parte del presente proceso investigativo.
El avance tecnológico, la incorporación de sistemas informáticos junto con la gran capacidad de
procesamiento, han hecho que las máquinas hoy en día, simulen en cierta manera la inteligencia
humana y puedan amoldarse a problemas, desarrollar la capacidad de aprender y extraer información
útil de toda una masa desestructurada de datos, para finalmente ayudar en la toma de decisiones y en el
reconocimiento de casos nuevos; proceso que fortalece a la consecución de los objetivos de la presente
investigación en el área de la salud, en ayudar al diagnóstico de patologías provenientes de trastornos
del movimiento y que presentan cierta dificultad de diferenciación .
1.1 TRASTORNOS DEL MOVIMIENTO
Un movimiento tan sencillo como cerrar la mano, realmente es un proceso muy complejo que requiere
la actividad de todo el sistema nervioso, en el que intervienen el cerebro, los músculos y los nervios. En
el cerebro, el área del pensamiento estimula el área motor enviando señales a los músculos que
terminan ejecutando la acción. A través de la acción hay una constante información entre el cerebro y
los músculos a través de los nervios de la médula espinal, regulando la coordinación, potencia, velocidad
y equilibrio necesario para una acción suave.
Las neuronas que controlan el movimiento voluntario del cuerpo humano se encuentran en la corteza
cerebral, son de gran longitud y se conectan con las neuronas de la médula espinal para enviar sus
órdenes. El conjunto de neuronas que se prolongan desde la corteza cerebral hasta la médula espinal
constituyen la Vía Piramidal y es quien controla la actividad motora. Para que el resultado de un
movimiento voluntario se ejecute perfectamente, un sistema complejo llamado Sistema Extrapiramidal,
12
ESTADO DEL ARTE
es el encargado de controlar y coordinar en forma coherente las acciones a realizar en cada momento. El
sistema extrapiramidal es parte del sistema nervioso y del sistema motor, lo constituyen algunas zonas
de la corteza cerebral, los ganglios basales (núcleo caudado, putamen, globo pálido y sustancia negra) y
los ganglios subcorticales que a su vez están interconectados con el tálamo y el cerebelo. Los ganglios
basales son numerosos núcleos de neuronas interrelacionadas formando cadenas y circuitos que se
retroalimentan, unos núcleos son activadores y otros inhibidores cuya función es la iniciación e
integración del movimiento, reciben la información de la corteza cerebral y del tronco del encéfalo, la
procesan y proyectan de nuevo a la corteza, al tronco y a la médula espinal con la finalidad de coordinar
y armonizar los movimientos voluntarios realizados de forma principalmente inconsciente.
La coordinación motora se organiza en el sistema nervioso central. La corteza cerebral, la médula
espinal, el cerebro medio, el cerebelo y los ganglios basales cada uno cumple una función motora
característica, el mal funcionamiento de uno de ellos se manifiesta como una anormalidad que se
observa clínicamente. Como el sistema nervioso controla los movimientos musculares, cualquier
trastorno en el movimiento puede ser categorizado como un síndrome neurológico que afecta al
equilibrio normal del cuerpo, la locomoción, el caminar y el mantenimiento de una postura. Los
trastornos del movimiento se asocian con cambios patológicos en el cerebro, especialmente por una
disfunción de los ganglios basales que forman parte de la materia gris que se sitúan en una región
profunda dentro del cerebro anterior.
Las lesiones de las vías piramidales, producen una incapacidad para realizar movimientos voluntarios
que se manifiesta como debilidad muscular o parálisis completa (plejia) del movimiento y espasticidad
muscular (incremento del tono muscular y exaltación profunda de los reflejos tendinosos). La disfunción
del cerebelo, producen anomalías en la amplitud, rapidez, potencia del movimiento y apreciación
errónea de la distancia (dismetría), el paciente no tiene la capacidad de ejecutar movimientos rápidos,
exactos y coordinarlos de forma suave para mantener una postura estable. La afectación de la fuerza es
mínima. Los trastornos de los ganglios basales o trastornos extrapiramidales producidos por cualquier
causa genética, vascular, traumática, infecciona, entre otras, no producen debilidad muscular ni parálisis
de la espasticidad de los músculos, pero se desencadenan en una serie de alteraciones caracterizadas
por movimientos involuntarios (discinesias), que causan un exceso de excitación del movimiento
(hipercinesia), una mayor carga de inhibición, pobreza o lentitud del mismo (hipocinesia) y cambios del
tono muscular y la postura.
Entre los trastornos más frecuentes están: el temblor, la corea, la distonía, los tics y las mioclonías.
13
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
1.2 EL TEMBLOR HUMANO
El temblor humano es el más común de los trastornos del movimiento, es un movimiento anormal
oscilatorio, rítmico e involuntario que puede afectar a una o varias partes del cuerpo que dependen de
las contracciones alternantes de músculos opuestos, agonistas y antagonistas. Comienza lentamente y
progresa a una forma más severa si se deja sin tratar. Las partes del cuerpo que afecta el temblor son las
extremidades superiores (hombro, codo, muñeca, dedos), extremidades inferiores (cadera, rodilla,
articulaciones del tobillo, dedos de los pies) e incluso puede involucrar la cabeza (mentón, cara, lengua,
paladar) y el tronco1 En condiciones severas puede convertirse en un grave problema, provocando
malestar y vergüenza social junto con incapacidad y dificultades a la hora de realizar actividades diarias.
El temblor está presente en un amplio espectro de trastornos neurológicos y se distingue por su
apariencia rítmica, repetitiva y estereotipada de otros trastornos del movimiento involuntarios como la
corea (inquietud, nerviosismo, actividad motora irregular), los tics (repeticiones breves con movimiento
estereotipados sin control voluntario) y las mioclonías (breves sacudidas que no presentan oscilación de
vaivén). Por otro lado, no existe un diagnóstico estandarizado para distinguir entre los tipos más
comunes del temblor lo que hace de la evaluación una tarea desafiante. Sin embargo, establecer la
causa subyacente es muy importante para el diagnóstico debido a que el tratamiento específico puede
variar notablemente, por ello es importante reconocer las varias formas del temblor y los síntomas
asociados. El historial clínico y la exploración física proporcionan una amplia certeza en el diagnóstico.
Los trastornos neurológicos causantes del temblor son la esclerosis múltiple, las enfermedades
neurodegenerativas que dañan partes del tallo cerebral o el cerebelo, los daños cerebrovasculares, las
lesiones cerebrales traumáticas, el abuso del alcohol, el uso de algunos medicamentos, tiroides
hiperactiva y la insuficiencia hepática.
En ciertos casos el temblor puede desencadenarse o exagerarse durante períodos de estrés, emociones
fuertes, cansancio físicamente o durante ciertas posturas o movimientos. El temblor afecta tanto a
hombres como a mujeres, puede producirse a cualquier edad pero es más común en las personas
adultas y ancianas.
El origen del temblor no es claro pero puede ser asociado con fenómenos fisiológicos como el
envejecimiento, y con disfunciones neurológicas. El primero se refiere a un temblor fisiológico mientras
que el segundo a un temblor patológico. Los temblores patológicos más comunes son el temblor
esencial y el temblor parkinsoniano.
14
ESTADO DEL ARTE
En la Figura 1.1 se muestra la forma de una espiral de Arquímedes utilizada para evaluar el temblor a
tres pacientes mediante una prueba cinética, la representación gráfica son los datos obtenidos por el
sistema DIMETER (Capítulo 4). La gráfica a. corresponde a la realizada por un paciente con temblor
fisiológico donde la amplitud del temblor es poco perceptible, sin llegar afectar en la ejecución de la
prueba; la gráfica b. pertenece a un paciente con temblor esencial, el temblor es exacerbado y empeora
durante la ejecución de la tarea, se puede apreciar que la frecuencia de oscilación es alta; la grafica c.
corresponde a la prueba realizada por un paciente con la enfermedad de Parkinson, el temblor tiende a
disminuir mientras se realiza la tarea, a la vez que los movimientos son entrecortados debido que la
lentitud y la rigidez del movimiento es característico en esta enfermedad.
220
Temblor
Fisiológico
250
Temblor
Esencial
220
200
200
200
180
180
160
160
150
y
140
y
y
Temblor
Parkinsoniano
140
120
120
100
100
100
80
80
50
60
60
-100
-50
0
x
50
100
-100
-50
0
x
50
100
150
-100
-50
x
0
50
100
a.
b.
c.
Figura 1.1 Espiral realizada por pacientes con: a. Temblor fisiológico; b. Temblor esencial c. Enfermedad de
Parkinson
Las principales fuentes del temblor se pueden resumir en tres grupos: mecánico, reflejo y oscilaciones
centrales2, como se muestra en la Figura 1.2.
Generador central
Oscilaciones inducidas
mecánicamente
Circuitos
retroalimentados
de los reflejos
Temblor
Amplitud del
movimiento
Tiempo
Figura 1.2 Principales fuentes del temblor.
15
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
La primera fuente son las oscilaciones mecánicas, el movimiento de las articulaciones y los músculos
obedecen las leyes de la física y el conjunto complejo tendón-músculo-articulación pueden ser
comparados con masas y muelles, por tanto las oscilaciones pueden ser interpretadas como masas y
muelles. La Figura 1.3 indica la interacción entre la neurona motora superior (UMN) y la neurona motora
inferior (LMN). La piscina de interneuronas de la médula espinal está indicada por (IN). DP corresponden
a los ganglios de la raíz dorsal. El rectángulo azul, es la representación del modelo de músculo de Hill,
que comprende una serie de componentes elásticos (SE), y de un procesador de entrada neuronal (NIP)
paralelo a un componente viscoso (PE)3.
Figura 1.3 Lazos centrales y periféricos en el sistema nervioso.
La segunda fuente del temblor es la oscilación por reflejos, están relacionados a dos circuitos. Circuito
periférico que van desde los músculos hasta la espina dorsal y viceversa y el circuito central que va
desde la periferia a la médula espinal y los segmentos a nivel supraespinal incluyendo el tronco cerebral,
el cerebelo, los ganglios basales y la corteza cerebral. En la Figura 1.4 es una representación de esta
fuente de temblor, en la que se muestra las vías involucradas en el origen del temblor. Los husos
musculares son receptores localizados en el interior de los músculos, compuesto por fibras sensibles a
los cambios de longitud. En respuesta al alargamiento, las señales llegan a los centros espinales y
supraespinales donde se generan las órdenes motoras y son enviadas de vuelta a las fibras musculares
extrafusales3.
Una tercera fuente del temblor lo producen las oscilaciones centrales que pueden ser observados desde
los primeros registros de electroencefalográficos (EEG). La actividad neuronal sigue un comportamiento
rítmico. Por lo tanto la corteza cerebral, los ganglios basales, el cerebelo y el tronco cerebral están
involucrados en origen del temblor3.
16
ESTADO DEL ARTE
Figura 1.4 Vías que involucran el origen del temblor. CN: núcleos cerebelosos, BG: ganglios basales, CC: corteza
cerebral, UMN: neurona motora superiores, LMN: neurona motora inferior, Thal.: Tálamo, IO: oliva inferior, RN:
núcleo rojo, cf: fibras trepadoras, mf: fibra musgosa, MNα: neurona motora alfa, MNϒ: neurona motora beta, Ia:
fibras aferentes sensoriales.
1.3 CLASIFICACIÓN DEL TEMBLOR
Al evaluar un paciente que presenta algún temblor, en primer lugar se categoriza el temblor de acuerdo
a su fenomenología, circunstancias o condiciones de activación en las que se presenta y puede ser
clasificado en dos tipos principales ya sea de reposo o de acción como se muestra en la Tabla 1.1.
TIPO DE TEMBLOR
Reposo
CONDICIÓN DE ACTIVACIÓN
Ocurre cuando la parte afectada esta relajada y
completamente apoyada contra la gravedad.
Acción
Son iniciados por contracciones voluntarias de los
músculos. Se subclasifica en:
EJEMPLOS
La mano descansando sobre la
rodilla.
Postural
Se produce cuando la parte afectada mantiene una
posición sin apoyo y en contra de la fuerza de gravedad.
Extendiendo el brazo en frente
del pecho.
Cinético
Aparece con cualquier forma de movimiento voluntario.
Puede ocurrir en movimientos no guiados visualmente.
Durante los movimientos de
pronación-supinación.
Intención
La amplitud del temblor aumenta cuando el movimiento Tocarse la nariz con un dedo
voluntario está dirigido a un objetivo.
durante un examen médico.
Isométrico
Sucede con la contracción de los músculos contra un
objeto fijo rígido sin realizar ningún movimiento.
Empujar una pared.
Aparece o es exacerbado durante una actividad
específica.
Escribir, dibujar o hablar.
Específico de
una tarea
4
Tabla 1.1 Clasificación del temblor .
17
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
La categorización de algunos temblores dependiendo de si está presente en el reposo, durante una
acción o una postura es particularmente importante y se presenta en la Tabla 1.2.
Tipo de temblor
Reposo
Postura
Acción
Fisiológico
++
+
Esencial
+/++
+
Parkinsoniano
++
+
+/Inducido por drogas
+
++
+
Distónico
+/++
+
Holmes
++
++
++
Cerebelar
+/++
Psicogénico
+
+
+
++ Típicamente presente; + Puede estar presente; +/- Ocasionalmente presente.
5
Tabla 1.2 Características de diferentes temblores según su fenomenología .
Cada tipo de temblor tiene múltiples etiologías, más de un tipo temblor puede ocurrir en la misma
condición. Así la causa más común de temblor de reposo es la idiopática Enfermedad de Parkinson (EP),
los pacientes con EP frecuentemente tiene una componente de acción a más de su clásico temblor de
reposo.
Por otro lado la causa más común del Temblor Esencial (TE) es el temblor postural y cinético, a veces
puede persistir cuando las manos descansan en el regazo del paciente. Esta superposición a veces puede
causar dificultad para el diagnóstico clínico, un temblor que disminuye con el movimiento voluntario es
probable que sea un temblor en reposo, mientras que un temblor que está presente en reposo pero que
empeora con el movimiento es probablemente que sea un temblor de acción. El temblor fisiológico es
un temblor de acción-postural y está presente en toda persona sana bajo ciertas condiciones, es
demasiado leve para notarse en la mayoría de las personas y típicamente implica un temblor fino de las
manos.
Se puede hacer una clasificación del temblor también en término de la frecuencia. En la Figura 1.5 se
tiene los tipos de temblores más comunes, la escala inferior indica el rango de las frecuencias. Las
franjas sombreadas indican las frecuencias comunes del temblor y las franjas rayadas las frecuencias
que raramente se presenta en los pacientes, la valoración de la frecuencia es la siguiente:
18

Frecuencia baja < 4 Hz.

Frecuencia media de 4 a 7 Hz.

Frecuencia alta > 7 Hz.
ESTADO DEL ARTE
TIPO DE TEMBLOR
Frecuencia
Fisiológico
Esencial
Parkinsoniano
Inducido por drogas
Distónico
Holmes
Cerebelar
Psicogénico
0
frecuencias
común
rara
5
10
15 Hz
rango de frecuencias
baja
media
alta
1
Figura 1.5 Caracterización del temblor según su frecuencia .
En la Figura 1.6 se muestra un ejemplo de la frecuencia del temblor postural de un paciente con TE,
obtenido con un acelerómetro monoaxial. El paciente mantiene los brazos extendidos horizontalmente
frente al pecho, también se muestra en la parte inferior un análisis espectral de potencia con el que se
obtiene la frecuencia.
Figura 1.6 Frecuencia del temblor esencial en la adopción de una postura. La frecuencia de 7.5 Hz es identificado
3
en el espectro de potencia .
19
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
1.3.1 TEMBLOR FISIOLÓGICO
El temblor fisiológico, es un temblor presente en todas las personas y en todas las articulaciones o
músculos que esté libre de oscila, entre las características principales de este temblor se tiene:
-
Es un temblor acción-postural y durante el estado de reposo podría presentar algún síntoma.
-
No es provocada por ninguna enfermedad neurológica, se manifiesta a partir de la oscilación
resonante de una extremidad como resultado de la afectación de factores mecánicos.
-
Es un temblor que apenas puede ser visible en condiciones normales y no interfiere en las
actividades cotidianas.
-
La amplitud del temblor fisiológico típicamente es muy baja.
-
La frecuencia es alta de 8 a 12 Hz , siendo menor a 6 Hz en pacientes menores de 9 años,
incrementándose a 12 Hz en jóvenes adultos y disminuye ligeramente de 6 a 7 HZ en adultos
mayores de 60 años de edad6. La frecuencia del temblor disminuye cuando grandes cargas
inerciales se aplica a las extremidades. La frecuencia es alta en manos y dedos pero baja en las
articulaciones próximas.
Las causas de este tipo de temblor generalmente son reversibles. Es un temblor que se exacerba por las
siguientes causas no motoras:
-
Ansiedad.
-
Fatiga muscular o causa de sueño.
-
Estrés emocional.
-
Miedo o excitación.
Por ciertos medicamentos y condiciones metabólicas.
Otras condiciones que pueden aumentar el temblor fisiológico son la presencia de enfermedades como
feocromocitoma, tirotoxicosis, hipoglucemia, por el retiro de medicamentos como sedantes y opioides,
y por la abstinencia de alcohol. Para evitar este tipo de temblor son efectivos los beta-bloqueadores y
los antagonistas beta-2.
Por otro lado las drogas que excitan el temblor son las catecolaminas, la cafeína, las xantinas, la
fluoxetina, el litio, el haloperidol, las anfetaminas y los agonistas de receptores-beta7.
20
ESTADO DEL ARTE
1.3.2 TEMBLOR ESENCIAL TE
El temblor patológico más común es el temblor esencial, que afecta principalmente antebrazos y manos,
a menudo comienza en la mano dominante; puede o no producir discapacidad, es más perceptible
cuando se realiza tareas sencillas de acción como coger un cubierto, beber un vaso de agua o escribir.
Entre algunas de las características que se manifiestan en este tipo de temblor se tiene:
-
Es un temblor bilateral y simétrico de carácter postural o cinético. Aunque en casos puntuales,
un temblor esencial severo tiene un componente de reposo.
-
El rango de frecuencia es de 4 a 12 Hz. Con el paso del tiempo la frecuencia del temblor
disminuye. En los adultos mayores puede ser confundido como temblor parkinsoniano al
presentarse con bajas frecuencias.
-
Usualmente la amplitud es baja pero puede aumentar con los años.
-
Las extremidades superiores son afectadas en un 95% de los pacientes, seguido por un 34% de
afectación en la cabeza, un 20% en las extremidades inferiores, un 12% afecta a la voz y 5% a la
cara y el tronco7.
-
No es causado por medicamentos, hipotiroidismo o alcohol, sin embargo existe una forma
hereditaria con transmisión autosómico dominante, de penetración variable, en el que se
asocian genes en diferentes cromosomas.
-
Los síntomas pueden iniciar a cualquier edad, desde la niñez hasta la edad adulta. Sin embargo,
es más común en personas mayores de 40 años. Hombre y mujeres son afectados por igual.
Las causas no motoras que provocan un incremento del temblor son:
-
El estrés.
-
La ansiedad.
-
Trastornos emocionales.
-
Excitación e ira.
-
Temperaturas frías.
-
La fatiga
Entre los medicamentos utilizados para el tratamiento del TE ese tiene el anticonvulsivo primidona y
beta-bloqueadores como el atenolol y propranolol y otros como el topiramato y benzodiazepinas como
el alprazolam y clonazepam. El consumo de pequeñas cantidades de alcohol alivian temporalmente el
temblor pero debe evitarse el consumo excesivo.
21
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
1.3.3 ENFERMEDAD DEL PARKINSON EP
La Enfermedad de Parkinson es un trastorno crónico progresivo neurodegenerativo caracterizado por el
temblor (como manifestación inicial en el 50% de los pacientes), por la bradicinesia (lentitud en el
movimiento), rigidez muscular e inestabilidad postural (pérdida de equilibrio). Muchos pacientes
también presentan micrografía (disminución progresiva del tamaño de la letra durante la escritura), un
andar arrastrado los pies, facies enmascarados (poca expresión facial), dificultad para levantarse de una
posición sedente llegando a ser una enfermedad discapacitante. Es una enfermedad que no tiene cura.
Para provocar un movimiento, las neuronas pasan mensajes entre sí hacia el resto del cuerpo utilizando
neurotransmisores. En las personas con Parkinson, estos mensajes se interrumpen y no pueden ser
transmitidos a los músculos sin problemas dificultando el control del movimiento debido a una falta de
dopamina (neurotransmisores implicados en el control del movimiento). En las personas con Parkinson,
entre el 70 y el 80% de las células que producen dopamina se han degenerado y se han perdido. Esto
sucede en una pequeña región del cerebro llamada sustancia negra. Si hay suficiente dopamina, las
células nerviosas no funcionan correctamente y no son capaces de transmitir los mensajes del cerebro
dando lugar a los síntomas de Parkinson.
Entre las características de este tipo de temblor se tiene:
-
Es un temblor de reposo aunque también se presenta como un temblor cinético/postural; en
ambos casos la frecuencia es similar8. Frecuentemente existe una pausa del temblor durante la
transición desde el reposo a una postura. Rara vez con < 10% de los pacientes con EP el temblor
cinético/postura es más predominante que el temblor de reposo 1. Un 20-30% de los pacientes
durante la enfermedad pueden no presentar el típico temblor9.
-
El rango de frecuencia oscila entre 3 y 10 Hz como un movimiento de los dedos de "rodar
píldoras". En estados iniciales la frecuencia puede ser superior a 9 Hz.
-
La amplitud del temblor es alta, disminuye con movimientos voluntarios.
-
Frecuentemente afecta a manos, brazos, cabeza, mandíbula, lengua y tronco. Se extiende
afectando a otra parte del cuerpo del mismo lado o del otro, por ejemplo, si inicia en un pie,
continúa extendiéndose hasta la pierna y luego hasta el brazo.
-
Usualmente el temblor inicia alrededor de los 50 años de edad.
-
El sexo, afecta a más hombres que a mujeres, y existe una historial familiar en un 5-10% de los
casos.
22
ESTADO DEL ARTE
-
El temblor puede desaparecer durante el sueño.
Entre las complicaciones que puede acarrear la EP se tiene:
-
Dolor de músculos y articulaciones (calambres, entumecimientos).
-
Alteraciones del sueño.
-
Depresión, problemas cognitivos (demencia, falta de concentración).
-
Dificultad para hablar (titubeo).
-
Pérdida de motivación.
-
Estreñimiento.
-
Problemas de la vejiga.
-
Disfunción sexual.
-
Sialorrea (Producción excesiva de saliva).
-
Anosmia (Pérdida o disminución del sentido del olfato)..
Existe mucho por investigar en este campo, los médicos no están seguros de las causas de la
enfermedad ni la forma de prevenirla. Muchos cambios se presentan en el cerebro de las personas con
EP debido a la presencia de cuerpos de Lewy que son la acumulación de depósitos de proteínas
microscópicas dentro del cerebro, que están asociados con la degeneración y la muerte de las neuronas
en la parte superior del cerebro e interfieren con el funcionamiento normal del cerebro causando una
variedad de síntomas como la pérdida de la memoria y atención, compartiendo características con la
enfermedad de Alzheimer.
Entre los medicamentos utilizados para el tratamiento tratan de aumentar los niveles de dopamina e
imitar sus efectos, entre estos está la levodopa y carbidopa. Para cuando los síntomas son leves se
utiliza la amantadina. También se utiliza medicamentos como anticolinérgicos pero pueden causar
efectos secundarios como confusión y alucinaciones.
1.3.4 OTROS TIPOS DE TEMBLOR
Además de los temblores descritos anteriormente, existen otras formas de temblor que son menos
comunes, que no son parte de este estudio pero es conveniente hacer una rápida citación, entre estos
tipos de temblores se tiene:
23
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
TEMBLOR DISTÓNICO, es principalmente un temblor postural y cinético proveniente de una afectación
neurológica que afecta generalmente en una extremidad, el cuello o parte del cuerpo afectado por la
Distonía y usualmente desaparece cuando el músculo distónico está totalmente relajado. Actualmente,
se considera como una forma distinta de TE, ya que es irregular y tiene un amplio rango de frecuencias,
típicamente menor a 7 Hz. Es un temblor que tiende a ser localizado, asimétrico e irregular en amplitud
y periodicidad. Los pacientes utilizan sus propios gestos antagonistas o trucos sensoriales para tratar de
disminuir la amplitud del temblor y junto con la ausencia de intentos por suprimir el temblor por
contracción voluntaria de los músculos son un signo de diagnóstico bastante fiable 6.
TEMBLOR DE HOLMES, es un temblor producido por la lesión del tallo cerebral, el tálamo o el cerebelo.
Es un temblor sintomático y no rítmico, que afecta a las extremidades de predominio proximal. El rango
de frecuencia típico es menor a 4.5 HZ. Es un temblor de reposo e intención con presentación irregular,
el temblor postural también puede presentarse en algunos pacientes y desaparece durante el sueño. Es
el único síndrome de temblor de origen sintomático proveniente de una lesión del sistema central
nervioso6.
TEMBLOR CEREBELOSO, es un temblor de intención dominante o puro, uni o bilateral que empeora al
acercarse al objetivo, rara vez se presenta como un temblor postural. Afecta a la cabeza y a la mitad
superior del cuerpo involucrando a los músculos proximales. El rango de frecuencia de este temblor está
por debajo de 5 Hz. Su amplitud es variable y perpendicular a la dirección en la que se llevó a cabo el
movimiento.
TEMBLOR ORTOSTÁTICO, es un trastorno poco frecuente en las personas de edad mediana edad pero se
presenta con frecuencia en personas de edad avanzada, se caracteriza por inestabilidad cuando adopta
la postura de bipedestación debido a la afectación de las extremidades y el tronco, ocasionalmente
puede prolongarse a las extremidades superiores. El diagnóstico de electromiografía (EMG) confirma
una frecuencia patrón de 13 a 18 Hz y una amplitud muy pequeña apenas palpable sobre los músculos
de la pierna cuando el paciente se encuentra de pie. Es un temblor que remite al caminar y desaparece
con la sedestación o decúbito dorsal6.
TEMBLOR INDUCIDO POR DROGAS, es un temblor que se considera que es provocado por
medicamentos si luego de un plazo razonable después de su ingesta, el temblor se presenta.
Usualmente es un temblor postural y puede presentarse como una exageración de una tendencia leve
de un temblor subyacente. La forma más común es el síndrome del temblor fisiológico que ocurre luego
24
ESTADO DEL ARTE
del uso de antidepresivos, otra forma de este temblor es el temblor parkinsoniano luego del uso de la
dopamina.
TEMBLOR PSICOGÉNICO, es un temblor que frecuentemente incluye componente tanto de reposo como
posturales y cinéticos. Tiene dos formas: imitación del temblor por oscilación voluntaria y temblor de
coactivación muscular en la que se produce un clonus fisiológico exagerado por la contracción voluntaria
de los músculos extensores y flexores. Se caracteriza por presentar fluctuaciones marcadas en severidad
y amplitud. La amplitud del temblor disminuye y su frecuencia varía con la distracción.
1.4 DIAGNÓSTICO DEL TEMBLOR
Una serie de tratamientos médicos y quirúrgicos están disponibles para los distintos tipos de temblor,
pero una respuesta exitosa al tratamiento depende de un diagnóstico preciso.
El temblor es el movimiento oscilatorio anormal e involuntario más frecuente en los humanos; esto
implica que los músculos reciben impulsos excitatorios e inhibidores fuera del control voluntario.
Efectivamente, la actividad oscilatoria es una constante en el sistema nervioso humano, por lo tanto, el
temblor fisiológico es una expresión de dicha actividad, no así en el temblor patológico en donde la
actividad de oscilación del sistema nervioso central es anormal y exagerada.
Clínicamente los aspectos más importantes que caracterizan al temblor son:

La distribución topográfica.

La frecuencia.

La amplitud de la trayectoria.

Las circunstancias en la que se exacerba o condicionan su aparición (manteniendo una postura o
en movimiento).

La etiología.

También son aspecto a tener en cuenta datos sobre el comienzo del temblor, la existencia de
historia familiar, la existencia de enfermedades asociadas, tratamiento con fármacos y la posible
respuesta a la ingesta de alcohol.
Las causas del temblor patológico son heterogéneas y puede presentarse de forma aislada o como parte
de una afectación neurológica. El temblor fisiológico exagerado junto con el temblor esencial y la
25
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
enfermedad de Parkinson son los tipos más comunes del temblor encontrados en la práctica clínica y
aunque se consideran enfermedades distintas, entre las dos últimas existe un solapamiento de algunas
características clínicas, así como en epidemiología, genética, tratamiento de imágenes, y los estudios
patológicos.
La relación vinculante que puede existir entre el TE y la EP tiene mucha importancia cuando se habla del
hecho de que una sea un factor de riesgo para la otra, o la coexistencia de ambos síndromes en un
mismo paciente. De hecho, existen trabajos de investigación que evidencian que el TE puede preceder al
comienzo de la EP. Del mismo modo, se ha constatado que los pacientes con TE presentan problemas
cognitivos, muy común en la EP.
La Demencia con Cuerpos de Lewy (DCL) que provoca alteraciones cognitivas y neurodegenerativas,
también establece un vínculo con el TE y la EP lo que lleva a entender que existen algunos síntomas y
signos que también se solapan durante la evaluación clínica. Incluso el Alzhéimer se relaciona con el
amplio espectro clínico de éstas dos patologías.
1.4.1 ESTUDIOS EPIDEMIOLÓGICOS, PREVALENCIA E INCIDENCIA DE TE Y EP
Los rangos de prevalencia son difíciles de precisar y varían sustancialmente en la literatura, muchos de
ellos dependen de los criterios de diagnóstico que se utilizó en el estudio, la edad, la metodología de
determinación de los casos y la gravedad de la patología. La mayoría de estudios basados en registros
clínicos subestiman la verdadera prevalencia, ya que casi el 90% de los pacientes con TE no buscan
atención médica. En el presente trabajo se procuró citar datos actualizados.
La prevalencia del temblor esencial en la población en general se estima entre 0.4 y 3.9%, aumentando
notablemente en la población de avanzada edad y es más frecuente que la Enfermedad de Parkinson. La
prevalencia en personas ≥ 60 a 65 años = 6.3%, para personas ≥ 65 años = 4.6% y para personas ≥ 95
años = 21.7%10. En España el 5% de los ancianos la padecen11. En Finlandia la prevalencia alcanzó el 5-6%
en personas mayores de 40 años, en Turquía fue de 4% en personas en el grupo de personas de la
misma edad. Cerca de un millón de habitantes de los EE.UU. son diagnosticados cada año con TE y en el
UK entre 30 y 40 pacientes son diagnosticados cada día12. En cuanto a la incidencia del TE es de 616
nuevos casos por 100.000 habitantes-año (personas > 65 años) 11. Entre los factores de riesgo que se han
26
ESTADO DEL ARTE
asociado al desarrollo del SE TE puede mencionar la edad, la raza (mayor prevalencia en blancos y
afroamericanos) y tener antecedentes familiares (en el 50% de los casos).
En cuanto a la enfermedad de Parkinson, según un informe de la Fundación Española de Enfermedades
Neurológicas la prevalencia mundial varía entre 167-5.703 por 100.000 habitantes y considera una
incidencia que varía de 1,5-22 pacientes por 100.000 habitantes-año. En España se estima que la
prevalencia en personas > de 65 años = 1.5% y una incidencia ajustada de 186 por 100.000 habitantesaño respecto a un estudio epidemiológico realizado en un grupo de individuos de entre 65 y 85 años11.
En España aproximadamente entre 120.000 y 150.000 personas padecen la enfermedad de Parkinson.
De estos datos epidemiológicos de cierta forma asegura que el TE y EP son los temblores patológicos
más frecuentes en individuos con trastornos en el movimiento y que la coexistencia de ambos en un
mismo individuo son mera casualidad.
Sin embargo, esta tesis no parece ser del toda cierta, en un estudio realizado a una serie de pacientes,
inicialmente con temblor asimétrico postural y características clínicas propias del TE, a lo largo de diez
años progresó hasta desencadenar en la EP. Lo que sugiere precaución en el diagnóstico con pacientes
con un inicio tardío de temblor asimétrico postural, incluso si no se observa presencia de un temblor de
reposo, debido a que puede ser la fase inicial de una EP13. En otro estudio se analizó los errores
cometidos en el diagnóstico inicial de 71 pacientes con TE con un clásico temblor postural, luego de 6
años de seguimiento, 26 pacientes (37%) es decir uno de cada tres pacientes desarrolló la EP14. Bajo
estas circunstancias de error en el diagnóstico, otro estudio incluyó criterios más estrictos, aplicando un
periodo de seguimiento de uno a cinco años, desde el inicio de los síntomas de TE con el fin de observar
posibles manifestaciones de EP y lo que podría asegurar que ambos procesos pueden coexistir en un
mismo individuo; éste estudio sugirió que algunos pacientes con TE tienen un aumento de riesgo
genético para la EP15. Lo que actualmente los médicos utilizan para el diagnóstico de EP está basado en
características clínicas que asisten en la diferenciación entre las semiologías del temblor postural de los
pacientes con TE y EP e incluyen la posibilidad de un diagnóstico en el que coexistan ambos procesos,
Tabla 1.3, en donde se indica las características para identificar pacientes con EP en los que coexiste el
TE. Por otro lado, se puede identificar un paciente con TE si el temblor postural se manifiesta
inmediatamente al colocar los brazos extendidos hacia adelante, en cambio un paciente con EP al tomar
la misma postura existe una latencia de unos segundo e incluso minutos antes de que se exacerbe el
temblor, es el llamado temblor reemergente; en conclusión un paciente de EP que presente temblor
postural sin latencia, sugiere la coexistencia de TE16.
27
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
- Historia previa del temblor intencional de larga evolución (más
de 5 años).
- Antecedentes familiares de temblor.
- Temblor postural sin latencia de inicio (el temblor se produce
inmediatamente después de levantar las extremidades)
- Presencia de temblor de la voz.
- Temblor con la escritura, o con el dibujo de la espiral de
Arquímedes.
- Mejoría del temblor con alcohol o metabloqueadores.
16
Tabla 1.3 Características clínicas para identificar EP en los que coexiste el TE .
Un estudio epidemiológico basado en el cohorte poblacional NEDICES sobre 3.813 personas mayores de
65 años, de los cuales 207 presentaban TE y 3.606 sin dicha patología, en una media de 3.3 años; indica
que el riesgo de desarrollar la EP es cuatro veces mayor en los pacientes con TE que en los controles sin
TE17. En otro estudio de casos y controles sobre 600 individuos, el 5.9% (12/204) de pacientes con EP
demostraron tener TE en comparación al 1% (2/206) de controles enfermos sin EP y al 0.5% (1/190) de
controles sanos. De lo que concluyó que el TE es entre 6 y 10 veces más probable en pacientes con EP
que en los controles de enfermos y sanos sin EP18. Un trabajo en el que se examinaron a 678 pacientes
con TE, con una edad media de 65.2 años con un número similar de hombres y mujeres, el 60% describió
historia familiar, el 74% acudía a los efectos del alcohol para reducir el temblor, se concluyó que 6.1% de
paciente con TE tuvieron coexistencia con EP.19 Otros estudios realizados por Shahed y Jankovic20, Minen
y Louis21, Fekete y Jankovic22, Louis y Frucht23. Por lo tanto, estos estudios confirman y cuantifican la
relación patológica entre TE-EP y que la frecuencia de la EP en el TE es mayor de lo que se informó en la
población general, postulando al TE como un factor de riesgo para el desarrollo de la EP.
1.4.2 ESTUDIOS GENÉTICOS
Existen algunos estudios realizados con el objetivo de describir alguna relación de base genética entre el
temblor esencial y la enfermedad de Parkinson. En un estudio realizado sobre familiares en primer
grado de pacientes con EP y controles, indicó que riesgo que un familiar en primer grado de un paciente
de EP tiene de dos a tres veces probabilidad de tener TE en comparación a los controles sin EP. EL riesgo
fue significativamente alto para paciente con EP que iniciaron con la enfermedad por debajo de los 66
años.24 Spanaki y Plaitakis25 en un estudio de casos y controles, se observó que el TE estuvo presente en
el 3.6% de familiares en primer grado de los pacientes con EP en comparación con los pacientes de
28
ESTADO DEL ARTE
control. El riesgo se incremento a 4.4 % si el paciente con EP tenía un temblor dominante. A pesar de
estos estudios no se ha podido determinar ningún vínculo genético común entre ambas enfermedades.
Un estudio en una cohorte de 272 pacientes con SE TE investigó el gen cinasa 2 de repetición rica en
leucina LRRK2 identificada en casos de EP, a su mutación el gen G2019S y mutaciones adyacentes I2012T
y I2020T, en cuyos resultados no se encontró mutaciones implicados con el TE26. En un cohorte de 110
pacientes con TE, se evaluó la relación entre las mutaciones del gen parkin (mutación causante del inicio
precoz de la EP) y TE, los resultados indican que no se encontraron el gen parkin en paciente con ET. 27
Otro estudio se encontró y evaluó una variante del gen LINGO1 (rs9652490) sobre series de casos y
controles de TE y EP; el gen LINGO1 está implicado en la regulación y supervivencia de las neuronas
dopaminérgicas, dicha investigación demostró una asociación significativa entre este gen y ambas
enfermedades, proporcionando la primera evidencia de un vínculo genético.28 Posteriormente, un
estudio en la misma línea, investigó exhaustivamente el gen LINGO1 y su paralog LINGO2 mediante la
secuenciación de ambos genes en los pacientes de TE y EP. Los resultados indicaron que ambos genes
podrían determinar el riesgo y a lo mejor la edad de inicio de ambas patologías.29 Se necesitan más
estudios para confirmar estos resultados y determinar los mecanismos patogénicos implicados.
1.4.3 ESTUDIOS CLÍNICOS
La característica clínica entre el temblor esencial y la enfermedad de Parkinson es el temblor. Decir que
el temblor de reposo es característico de la EP es una afirmación muy simple y no resulta aplicable en la
práctica para un diagnóstico confiable, más aún cuando existe solapamiento clínico entre TE y EP, que
puede provocar un diagnóstico erróneo entre ambas patologías. Sin embargo, existen divergencias
semiológicas que aportan a su diferenciación:
-
El temblor postural está presente en un 92% en pacientes con EP.30 Los pacientes con TE
muestran un temblor cinético con una amplitud mayor que el temblor postural, mientras que en
los pacientes con EP ocurre lo contrario.
-
El temblor postural o temblor reemergente en pacientes con EP ocurre tras una latencia de
varios segundo o minutos y afecta a grupos distales, especialmente a los dedos produciendo un
movimiento de pronación-supinación; mientras que el temblor postural en pacientes con TE
afecta a varios grupos articulares (hombro, codo, muñeca, dedos) provocando un movimiento
de flexión-extensión en la muñeca.
29
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
-
La prevalencia del temblor de reposo en pacientes con TE es del 30%31. La evaluación de la
intensidad y frecuencia del temblor al caminar es clínicamente útil para diferenciar entre TE con
temblor de reposo y EP, característicamente el temblor de reposo en pacientes con EP se
incrementa al caminar, mientras que en pacientes con TE disminuye32.
-
El temblor cefálico (temblor de cabeza) es un temblor postural, las mujeres son más propensas a
padecerlo33, El temblor cefálico es característico en el TE, pero puede estar presente en la EP
hasta en un 17%34. En pacientes con TE tiende a desaparecer cuando el paciente se acuesta,
mientras que persiste en los pacientes con EP en la postura de reposo.
-
la bradicinesia es propia de la EP, en un estudio se demostró que pacientes con TE tiene un
cierto componente asociado de bradicinesia similar a la que presenta los pacientes con EP 35.
1.4.4 ESTUDIOS DE NEUROIMAGEN.
El resultado de varios estudios de imagen funcional del sistema dopaminérgico con respecto a la
relación entre temblor esencial y la enfermedad de Parkinson son controversiales. Aunque un gran
número de estudios indican una clara diferencia entre ambas enfermedades, otras sugieren que existe
algún grado de relación entre ellas.
La tomografía por emisión de positrones (PET) y en la tomografía simple por emisión de fotón único
(SPECT) son técnicas utilizadas como trazadores moleculares, el transportador de la dopamina (DaT) es
un marcador de las neuronas dopaminérgicas y constituye la referencia para la monitorización del
estado de la vía nigroestriada. Ciertas enfermedades como el Parkinson y algunas formas de demencia
se caracterizan por el número significativamente reducido de DaT. Mediante la detección de la unión de
DaTSCAN (escáner cerebral) para los transportadores de dopamina se ha podido observar un estriado
anormal en pacientes con EP36. El DaTSCAN fue propuesto para diferenciar entre EP y TE, clásicamente
se consideró que el TE no presenta alteraciones en el DaTSCAN37. Sin embargo, estudios señalan que un
subgrupo de paciente con TE presenta cierta alteración de la vía nigroestriada con respecto a los
controles pero no tan bajos como los pacientes con EP38. En otro estudio semicuantitativo de la imagen
se observó presentaban niveles reducidos de DaT comparados con los controles39. Finalmente cabe decir
que la gran mayoría de estudios demuestran que la mayoría de pacientes con TE no presentan
alteraciones sustanciales en el DaTSCAN, lo que limita la asociación entre estas dos patologías en el
ámbito de la neuroimagen y pueden ser considerados de forma fiable para el diagnóstico.
30
ESTADO DEL ARTE
1.5 LÍNEAS DE INVESTIGACIÓN DE PATOLOGÍAS DEL TEMBLOR
Existen varias maneras de valorar el temblor humano, las formas más utilizadas por los médicos son las
escalas de calificación de gravedad40,41, que son métodos en los que se pide al paciente realizar una serie
de patrones como, círculos, espirales, líneas, curvas, etc., sobre las que un especialista hace una
comparación en relación a otros realizados por pacientes con un diagnóstico confirmado y son
puntuados de acuerdo a una escala numérica que generalmente va desde 0 a 4 o 5, siendo la puntuación
mínima cuando el temblor no es visible y máxima cuando el temblor produce incapacidad. Este método
meramente es una comparación visual y depende mucho de la experiencia y perspicacia del especialista.
Además, hay información crítica que no está siendo tomado en cuenta, parámetros fundamentales
como por ejemplo la frecuencia, la amplitud, velocidad entre otros.
Como ya se mencionó, para un diagnóstico clínico bastante fiable del temblor aunque no preciso es
necesario contar con un historial clínico del paciente bastante detallado con varios aspectos como: la
edad de inicio del temblor, historia familiar, circunstancias en las que el temblor se exacerba, la
existencia de comorbilidades, el consumo de drogas, tabaco o alcohol, trastornos emocionales que
causen ansiedad, estrés, depresión y más. Para apoyar el diagnóstico clínico, es necesario realizar
exámenes clínicos neurológicos con el fin de analizar los aspectos semiológicos que favorezcan a la
identificación del tipo de temblor y las circunstancias en las que surge y excita el temblor, haciendo que
el paciente adapte y mantenga varias posiciones o realizando movimientos con las extremidades, etc.
En cuanto al temblor fisiológico no hay necesidad de adentrarse en técnicas más complejos para que el
diagnóstico sea fiable, tal vez, podría ser necesario un exámenes de laboratorio para descartar
enfermedades de tiroides o algún falló en el sistema extrapiramidal que podrían ser causantes del
temblor. Por otro lado, el diagnóstico del temblor esencial y la enfermedad de Parkinson requieren de
técnicas y análisis más profundo debido al solapamiento semiológico, a una relativa coexistencia de
ambas enfermedades y al hecho de que una sea un factor de riesgo para la otra. Las técnicas de imagen
funcional PET y SPECT pueden ser útiles en la diferenciación entre ambos temblores.
Una de las formas más adecuadas de evaluar el temblor es dividirlo en una evaluación clínica que
comprende características, evolución y tratamiento de la enfermedad y una evaluación biomecánica que
mediante dispositivos electrónicos y herramientas matemáticas se adquiere y procesa la información;
tomando en cuenta un análisis cualitativo y cuantitativo del temblor para ambas evaluaciones.
31
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
La evaluación clínica se compone básicamente de escalas de calificación del temblor confiables y válidas.
Las escalas de calificación utilizadas para evaluar el temblor esencial durante el examen clínico son:
wTRS42 , Fahn-Tolosa-Marin43 y TETRAS44. Cada escala de calificación escala subjetivamente la intensidad
del temblor de 0 a 4; (0) normal, (1) ligeramente anormal, (2) levemente anormal (3), moderadamente
anormal, y (4) severamente anormal. Por otro lado, para evaluar el temblor generado en pacientes con
enfermedad de Parkinson las escalas de calificación utilizadas son: MDS-UPDRS45 y Hoehn y Yahr46.
1.5.1 MÉTODOS PARA MEDIR Y REGISTRAR EL TEMBLOR
Una evaluación clínica basada en escalas de calificación no proporciona la suficiente información para
explicar la evolución de la enfermedad, además de no tomar en cuenta las peculiaridades de cada
paciente y de estar sujeto a la subjetividad, pericia y experiencia del especialista durante la evaluación y
clasificación de cada paciente. Para superar este contraste, la evaluación biomecánica del temblor
proporciona aspectos cualitativos y cuantitativos mediante métodos que han sido desarrollados en el
laboratorio para medir y analizar el temblor electrónicamente. Los métodos más comunes son:
acelerometría, electromiografía (EMG), sistemas de rastreo magnético, marcadores ópticos activos,
tabletas digitalizadoras ("espirografía") y dispositivos hápticos (PHAMToN). Siendo este último utilizado
en el sistema DIMETER del cual se obtuvieron las series temporales del temblor para ser analizados en el
presente trabajo, la información del sistema DIMETER está detallada en la Sección 4.1. La evaluación
biomecánica del temblor implica aspectos cualitativos y cuantitativos. En la Figura 1.7 se muestra la
ubicación de un acelerómetro en la palma de la mano para medir la señal de tremor, mientras que el
sensor de EMG colocado en el brazo da una medida de los movimientos musculares.
Figura 1.7 Ubicación de acelerómetros y sensor de EMG para medir el movimiento provocado por el temblor.
32
ESTADO DEL ARTE
1.5.1.1 ACELERÓMETROS Y GIROSCOPIOS
El método más utilizado para una valoración electrónica del temblor son los acelerómetros que se fijan a
una o más partes el cuerpo afectadas por el temblor, por ejemplo en los dedos, en la muñeca de las
manos, brazos, etc. Los acelerómetros son sensores que miden las fuerzas de aceleración lineal en tres
direcciones ortogonales, son capaces de capturar y medir las fuerzas estáticas y dinámicas de
aceleración o el movimiento producido por la acción de la gravedad y la acción muscular (temblor).
Estos dispositivos generan una secuencia de valores o serie temporales que representan la aceleración
instantánea como una función de tiempo de la parte del cuerpo afectada por el temblor para
posteriormente ser analizados computacionalmente por técnicas matemáticas. Un estudio realizado por
Deuschl et al. 1995, investigó sobre la base de los registros acelerómetricos monoaxiales de series
temporales de 35 segundos para separar entre pacientes con temblor fisiológico, TE y EP. La frecuencia y
la amplitud fueron suficientes para separar entre el temblor fisiológico y los temblores patológicos, mas
no para separar entre TE y EP. La conclusión de ese trabajo fue que las series temporales son una
herramienta poderosa para un análisis objetivo del temblor47. Muchos otros trabajos de investigación
han utilizado los acelerómetros para la identificación y medición del temblor48,49. En la Figura 1.8 se
muestra un ejemplo de medición del temblor con acelerómetros50.
50
Figura 1.8 Medición del temblor por medio de acelerometría. Izq. Paciente con temblor. Der. Paciente normal .
Los acelerómetros son dispositivos electromecánicos y los más utilizados generalmente se basan en el
efecto piezo-eléctricos y de variación de capacitancia. El primer tipo consiste en un cristal microscópico
sensible a las fuerzas de aceleración generando un voltaje que puede ser medido. El segundo tipo tiene
dos micro estructura ubicada de tal forma que existe una capacitancia entre ellos, la fuerza de
aceleración mueven estas estructuras variando la capacitancia entre ellos, esta variación es
33
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
transformada en una tensión que se puede medir. El estudio realizado por Tsipouras et al, 2012 realizó
una evaluación de la discinesia inducida por levodopa en pacientes con la enfermedad de Parkinson
basándose en el análisis de las señales registradas por los acelerómetros que se colocaron en el cuerpo
del paciente y mientras realizaban tareas específicas51.
51
Figura 1.9 Registro del temblor en cada uno de los ejes de los acelerómetros colocados en las extremidades .
Otros métodos propuestos para medir el temblor son los giroscopios52, que son dispositivos para evaluar
el desplazamiento angular provocado por el temblor detectando el cambio de orientación de la parte
afectada y son insensibles a la fuerza de gravedad; y diferente tipos de transductores de posición/
velocidad53. En la Figura 1.10 se muestra la posición de los sensores (giroscopios: 1 sobre el
metacarpiano, 2 sobre el borde del antebrazo, 3 abajo del olécranon, 4 sobre el olécranon) en la
extremidad superior.
52
Figura 1.10 Medición del temblor por medio de giroscopios .
34
ESTADO DEL ARTE
En la Figura 1.11 se ilustra un sistema de monitorización ambulatoria dedicada a pacientes con EP54,
ofrece una evaluación motriz completa para la cuantificación de temblores, bradicinesia e hipocinesia. El
sistema se compone de cuatro sensores de inercia, ubicados sobre la muñeca, muslo, pie y pecho; los
sensores se conectan a un bus maestro que alimenta, registra y envía la información a un ordenador a
través de bluetooth, además, permite la grabación de los movimientos.
53
Figura 1.11 Medición del temblor por sensores de inercia .
Actualmente, existe una serie de dispositivos para evaluar y medir el temblor que integran
acelerómetros y giroscopios, que utilizan tecnología wireless, bluetooth e internet para transmitir la
información.
1.5.1.2 ELECTROMIOGRAFÍA (EMG)
Otra herramienta muy útil es la electromiografía utilizada para diagnosticar muchos tipos de trastornos
neuromusculares. La EMG es una técnica que evalúa y registra la actividad eléctrica producida por los
músculos esqueléticos, consiste de electrodos (agujas o cables) colocados en la superficie de la piel y se
fijan con adhesivos en los músculos tensores y flexores del antebrazo. La frecuencia (Hz), amplitud
media (mV) y patrones (síncronos o alteros) se usan para evaluar el temblor55. En un estudio realizado
por Sturman et al. 2005, analizó el cambio del temblor fisiológico con relación a la edad de los pacientes
mediante electromiografía y acelerometría, evaluó la amplitud y la frecuencia del temblor postural y de
reposo bajo condiciones con carga y sin carga como se puede apreciar en la Figura 1.12, los electrodos
fueron ubicados sobre el músculo extensor del antebrazo y un acelerómetro sobre el dorso de la
mano56.
35
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
Figura 1.12 Medición del temblor postural y de reposo, con carga y sin carga por electromiografía y
56
acelerómetros .
En la Figura 1.13 se observa los resultados obtenidos en el trabajo57, que analiza la señal del temblor no
rectificado obtenida por EMG del músculo extensor del antebrazo izquierdo y derecho de un paciente
con temblor esencial, en el análisis espectral de frecuencia indica que temblor está en unos 5 Hz en
ambos brazos.
Figura 1.13 Típico registro de EMG de un paciente con temblor esencial bilateral.
1.5.1.3 TABLETAS DIGITALIZADORAS - ESPIROGRAFÍA
Son dispositivos de superficie sensible al tacto de un lápiz especial (Figura 1.14) y proporciona la
posibilidad de detección de la actividad de temblor en condiciones cinéticas. Las pruebas para medir el
temblor sobre estos dispositivos consisten en analizar el dibujo realizado por el paciente sobre modelos
de espirales de Arquímedes caracterizado por una distancia uniforme entre espirales. El paciente debe
tratar de seguir la trayectoria de la espiral con la mayor precisión posible con la punta de un lápiz.
36
ESTADO DEL ARTE
Figura 1.14 Tableta Digitalizadora.
Una publicación realizada por Guilherme et al. 2007, indica la forma de cuantificar el temblor utilizando
la tableta digitalizadora y ejecutando tareas de dibujos sobre ésta. En la Figura 1.15 se muestra dibujos
de espirales de un individuo sano y paciente con temblor58. Durante la prueba el paciente tiene que
mantener, siempre que sea posible, la pluma sobre la superficie de la tableta todo el tiempo. Las
tabletas actuales pueden realizar un seguimiento del movimiento de la pluma, incluso cuando el lápiz
está a pocos centímetros de la superficie. Esta característica permite que incluso los sujetos que no
puede dibujar continuamente puedan ser examinados sin consideraciones adicionales.
Figura 1.15 a. Plantilla de un espiral de Arquímedes; b. Dibujo de espiral de un individuo sano; c. Dibujo de espiral
de un paciente con enfermedad de Parkinson.
Este método para medir el temblor es mejor para entornos clínicos debido a su simplicidad y bajo coste,
en contraste con los acelerómetros que requieren convertidores análogo-digitales. Hay varios estudios
que utilizan este tipo de tabletas para cuantificar el temblor entre ellos los desarrollados por Feys et
al.200759, Miralles et al. 200660, Liu et al. 200561 entre otros.
Existen otros métodos poco utilizados como: el sistema de seguimiento magnético proporciona el
desplazamiento de movimiento (x, y, z) y la orientación (cabeceo, balanceo y guiñada) de cada segmento
del cuerpo con relación a un transmisor fijo (Ghassemi et al. 2006)62 y los marcadores ópticos activos de
los se puede extraer la aceleración y mediante la trigonometría hace posible la descripción de la
orientación del vector y la estimación de la postura del miembro (Albert et al. 2011)63.
37
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
1.5.2 MÉTODOS PARA EL ANÁLISIS DEL TEMBLOR
Los temblores son movimientos cuasi sinusoidal, por lo que son susceptibles a un análisis matemático
cuantitativo y de modelización con un alto grado de fidelidad en la ayuda en el diagnóstico clínico. Para
registrar la actividad del temblor en la Sección 1.5.1 se indicó algunas técnicas y métodos. Todos estos
dispositivos tienen la capacidad de registrar parámetros de posición, velocidad, aceleración, rotación
entre otros, generados por el temblor. Las señales son registradas en secuencias digitales (series
temporales), almacenadas en un ordenador y posteriormente analizadas. Con el avance de la tecnología,
los ordenadores son capaces de procesar y analizar las señales en tiempo real a una velocidad de
muestreo alta.
La amplitud y la frecuencia son las características más importantes para evaluar el temblor. La
frecuencia o número de oscilaciones por segundo es medido en (Hz). Para un N número de puntos
muestreados durante un periodo de tiempo T en segundos, la tasa de muestreo está dada por N/T, la
resolución de frecuencia o frecuencia de Nyquist está dada por N/2T. Así, si se considera una frecuencia
de interés máxima de 25 Hz, de forma que cualquier temblor biológico caiga debajo de este rango, la
frecuencia de muestreo de registro del dispositivo que se utilice para medir el temblor deberá ser de al
menos 50 Hz, siendo preferible un valor más alto para lograr un procesamiento adecuado de las señales.
Técnica de filtrado de baja frecuencia pueden ser útiles para mejorar la relación señal-ruido y eliminar el
movimiento voluntario. Sin embargo, la frecuencia por sí sola no es suficiente para un diagnóstico, como
se indicó en la Sección 1.3, los diferentes tipos de temblor presentan un solapamiento en los rangos de
frecuencia lo que dificulta una diferenciación.
A pesar de ser la frecuencia una característica muy importante por la que se describe a un tipo de
temblor, los pacientes son más afectados por su amplitud llegando al punto de provocar discapacidad. El
desplazamiento angular o lineal de la parte afectada por el temblor se mide en milímetros o grados y
suelen ser evaluados y medidos con gran precisión por medio de acelerómetros o giroscopios. Los datos
proporcionados por estos sensores son difíciles de interpretar clínicamente por sus unidades de
aceleración y rotación, por lo que una integración de técnicas matemáticas es de ayuda para cuantificar
el desplazamiento realizado por la oscilación de la parte del cuerpo provocada por el temblor.
El procesamiento de señales y el análisis del temblor usualmente utilizan técnicas y algoritmos
matemáticos y estadísticos. Los registros cuantitativos del temblor están dados en curvas oscilantes en
el dominio del tiempo y son más complejas de tratar. Generalmente, las series temporales se procesan
38
ESTADO DEL ARTE
mediante el análisis espectral basado en el análisis de Fourier que da los valores cuantitativos de
frecuencia y amplitud del temblor. Mediante la Transformada Rápida de Fourier (FFT) la curva del
temblor es aproximada a una serie de ondas de senos y cosenos de varias frecuencias y amplitudes.
Debido a que la varianza de una onda sinusoidal pura es igual a la mitad del cuadrado de su amplitud
pico, la varianza de la suma de las ondas puede ser utilizada como una medida de amplitud. El análisis
de Fourier también proporciona un espectro de potencia que da valores cuantitativos de la amplitud en
la frecuencia. En la Figura 1.16 se muestra un ejemplo del espectro de Fourier de los registros de un
paciente con temblor obtenidos mediante acelerómetros64. El espectro normalizado de Fourier de la
frecuencia del temblor está representado por la línea verde, y proporciona la distribución del temblor en
una amplia banda de frecuencias determinada por la FFT, frecuencia media es de 7.8 Hz.
Figura 1.16 Frecuencia obtenida mediante FFT.
El análisis espectral basada en la Transformada Rápida de Fourier (FFT) es uno de los métodos más
utilizados. Por ejemplo, Sanchez-Ramos et al. 201165, utilizó la FFT para determinar la distribución de
potencia normalizada del temblor. Una modificación de esta técnica es Weighted-Frequency Fourier
Linear Combiner (WFLC), que es un algoritmo adaptable que tasa el temblor utilizando un modelo
sinusoidal, evaluando la frecuencia variante en el tiempo (estimando la frecuencia dominante única),
amplitud y fase. Otro método similar es Band Limited Multiple Fourier Linear Combiner (BMFLC) que
también es un algoritmo adaptativo desarrollado para el seguimiento de múltiples frecuencias
dominantes en el temblor para un filtrado preciso. En un estudio realizado por Veluvolu y Ang, 201166,
utilizó las técnica FFT, WFLC y BMFLC para estudiar las características de tiempo-frecuencia del temblor.
Otros estudios incorporan al Filtro de Kalman (FK) como una nueva técnica para la estimación de los
estados no visibles en los sistemas dinámicos con procedimiento recursivo. La formulación del filtro de
Kalman se describe generalmente en la forma de espacio de estado. El FK constituye la solución óptima
para los problemas de estimación, en el sentido de que minimiza la covarianza de un error de estimación
39
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
a posteriori. Un estudio realizado por (Gallego, et al. 2010)67 utilizó el método de WFLC junto con el FK
para estimar la amplitud y frecuencia instantánea de los registros del temblor obtenido por giroscopios.
En la Figura 1.17 se muestra los resultados de este estudio, previamente se realizó un filtrado del
movimiento voluntario para analizar el temblor. El filtro de Kalman y WFLC proporciona la amplitud y la
frecuencia instantánea, respectivamente.
Figura 1.17 Estimación en tiempo real de parámetros instantáneos del temblor con WFLC y FK.
Para aumentar la precisión de las técnicas de análisis mencionados, se han implementado otras
modificaciones y/o algoritmos. Sin embargo, no es posible determinar la mejor estrategia de realizar
estos análisis del temblor, ya que esto depende de los objetivos propios de cada estudio.
En la literatura, no existen dos situaciones similares en trabajos publicados sobre el método de análisis
del temblor, cada uno varía con la metodología utilizada (tamaño de la muestra, área geográfica, el
agravamiento de la patología, grupo de edad, etc.), por lo que no es posible realizar comparación alguna
y llegar a una conclusión sobre las metodologías más eficaces para la detección y diagnóstico de
temblor. En la siguiente Tabla 1.4 se presenta un resumen de algunas técnicas más utilizadas por los
investigadores independientemente del tipo de señal, la patología, y las muestras utilizadas12.
40
ESTADO DEL ARTE
AUTOR
68
Caviness et al .
PATOLOGÍA
EXÁMENES
EP.
EEG, EMG.
Acelerómetros Varios.
Espirograma.
69
Elble et al .
Farkas et al.
70
Piboolnurak et al.
O'Suilleabhain y
72
Matsumoto
Machowska73
Majchrzak et al.
Rocon et al.
Acelerómetros.
TP.
Acelerómetros, EMG.
95 pacientes, 37
controles.
92 pacientes.
EP, TE, TP.
EMG.
20 EP, 8 TE, 7 TP.
FFT, Distribución de Wigner
EP, TE, TC.
EMG y Acelerómetros.
44 EP, 39 TE, 13 TC.
FFT, Ventana de Hanning.
EP, TE, TF.
Acelerómetros.
EP, TE.
EMG.
-
Espirograma.
FFT
FFT
Varios.
Giroscopios.
31 pacientes.
EP
EP
EP
24 pacientes.
16 pacientes.
16 pacientes.
Análisis Estadístico.
Perceptrón Multicapa.
Análisis Estadístico.
62
Varios
Giroscopios.
Acelerómetros.
Acelerómetros.
Seguidores magnéticos de
movimiento.
Acelerómetros.
Acelerómetros.
Seguidores magnéticos de
movimiento.
Acelerómetros -Giroscopios
30 pacientes.
Análisis Estadístico.
30 pacientes.
12 pacientes.
Análisis Estadístico.
Máquina de Soporte Vectorial.
Análisis Estadístico y Máquina de
Soporte Vectorial.
Árboles de Decisión.
76
77
Burkhard et al.
79
Keijsers et al.
80
Hoff et al.
Ghassemi et al.
81
Gour et al.
82
Patel et al.
Chelaru et al.
EP, TE.
78
75
Riviere et al.
959 pacientes.
ANÁLISIS
FFT y Análisis de Coherencia
FFT y Coherencia entre Amplitud y
TRS
Poli espectro de Orden Superior,
Redes Neuronales.
Estimación Espectral Directa.
Combinador Lineal de Fourier de
Frecuencia Ponderada (WFLC).
EMD, Espectro de Hilbert.
Jakubowski et al.
Lauk et al.
71
MUESTRAS
20 EP, 20 controles.
74
EP
EP
83
Tsipouras et al.
EP
84
EP
10 TE, 6 EP.
-
29 pacientes.
16 pacientes.
Tabla 1.4 Características clínicas para identificar EP en los que coexiste el TE.
Finalmente, se puede indicar que todos los métodos utilizados para medir y registrar el temblor junto
con el análisis computacional de las señales, proporcionan información que junto a herramientas de
inteligencia artificial pueden proporcionar una excelente ayuda en la automatización en labores de
clasificación en el ámbito de la salud como la ayuda y confirmación en el diagnóstico de enfermedades
del temblor. Éstas técnicas de inteligencia artificial capturan el conocimiento implícito en los datos
registrados y analizados del temblor son las llamadas Máquinas de Aprendizaje Automático. Dados dos o
más tipos o clases de datos, estas máquinas son capaces de reconocer la pertenencia a una u otra clase
a nuevos datos comparando la similitud de sus características con los datos sobre las que éstas se
entrenan. Existe una variedad de máquinas de aprendizaje, entre estas están los Árboles de Decisión,
Clasificador del vecino más cercano (k-NN), las Redes neuronales (MLP) y las Máquinas de Soporte
Vectorial (SVM). Siendo esta última de interés y objeto principal del presente trabajo de investigación.
Las SVMs son máquinas de aprendizaje muy robustas y eficaces especialmente para tareas de
clasificación y reconocimiento de patrones que también forma parte de este estudio, la clasificación
entre Temblor Fisiológico vs. Temblor Patológico y la clasificación entre pacientes con Temblor Esencial
vs. Enfermedad de Parkinson. Las SVMs serán vistas en detalle en el Capítulo 2.
41
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
1.6 ANTERIORES INVESTIGACIONES PARA LA AYUDA AL DIAGNÓSTICO DE
PACIENTES CON TRASTORNO DEL MOVIMIENTO
Existen algunos trabajos que anteceden a esta investigación, cuyo objetivo principal común ha sido la
caracterización del temblor. Todos los trabajos parten de una base de datos que contiene las pruebas
realizadas a pacientes con temblor fisiológico, temblor esencial y enfermedad de Parkinson. El conjunto
de pruebas consistió en una serie de patrones (figuras geométricas) ejecutadas en forma estática
(manteniendo una postura), cinética (siguiendo la trayectoria del patrón) y dinámica (fuerzas generadas
artificialmente) sobre la mano del paciente. Estas pruebas fueron registradas y almacenadas como series
temporales por el sistema DIMETER que utiliza un dispositivo háptico llamado PHAMToN para la
adquisición de los datos. Las series temporales necesitan ser analizadas matemática y estadísticamente
para proporcionar atributos numéricos que sean capaces de caracterizar a los diferentes tipos de
temblor. Una vez encontrados los atributos numéricos se hace uso de técnicas de Inteligencia Artificial
para automatizar la clasificación entre los temblores, tarea que no siempre es fácil debido al
solapamiento que existe en las semiologías de estas enfermedades. A continuación se hace referencia a
los estudios realizados en la misma línea de investigación por otros compañeros.
1.6.1 PRIMER ESTUDIO
Un primer estudio para caracterizar el temblor fue realizado por Carlos Rubio Martín85. Los objetivos de
su proyecto fueron crear un filtro capaz de eliminar la componente involuntaria que acompaña al
movimiento, identificar y caracterizar el temblor y finalmente clasificar las serie temporales del temblor
utilizando el Perceptrón Multicapa como una técnica de las Redes Neuronales Artificiales.
Para crear el filtro realizó pruebas en el dominio del tiempo y en el dominio de la frecuencia. En el
dominio temporal filtró las series temporales, eliminando el movimiento voluntario y conservando el
movimiento tembloroso, encontrando dificultades en el aprendizaje por la gran cantidad de información
en la entrada de la red, posteriormente incrementó el número de redes y dividió las señales para el
entrenamiento mejorando los resultados. El principal problema encontrado en los resultados fue la
dependencia temporal que no permitió una aplicación directa. En un segundo análisis, en el dominio
frecuencial utilizando la transformada de Fourier realizó varios ensayos. (1) Filtrando el movimiento
voluntario de las series temporales del temblor. (2) Manteniendo la componente de la trayectoria de las
series temporales y asociando a la salida de la red la señal filtrada. (3) Utilizando a la red neuronal para
42
ESTADO DEL ARTE
elegir los parámetros necesarios a ser aplicado a un filtro digital. Los resultados no fueron satisfactorios,
(1) el entrenamiento de la red fue imposible, (2) existió un problema en la entrada de la red que aunque
no dependía directamente del tiempo no tenía relación con la señal del temblor y (3) la red no llegaba a
converger y fue incapaz de generalizar correctamente.
Para caracterizar el temblor utilizó los atributos numéricos proporcionados al aplicar estadísticas de
segundo orden como es la densidad espectral de potencia PSD y las estadísticas de orden superior HOSA
como son los poliespectros: biespectro y triespectro para los cumulantes de tercer y cuarto orden,
respectivamente. Los 26 atributos numéricos obtenidos de las series temporales fueron los recopilados
en este trabajo en la Sección 4.3.2.
En la Tabla 1.5 se hace un resumen del error cometido en la clasificación con el procedimiento utilizado
por Rubio. Donde los resultados obtenidos no fueron lo suficientemente satisfactorios. El error mínimo
logrado fue del 20%, siendo el temblor esencial (TE) el que presentaba el mayor error en la clasificación
en los 3 grupos en los que dividió cada análisis. El temblor fisiológico (TF) fue más fácil de clasificar, el
temblor parkinsoniano (EP) presenta un error aceptable aunque no satisfactorio.
Grupo
PSD
HOSA
PSD+HOSA
Tasa de error /número de neuronas en la capa oculta
TF
TE
EP
4% valor medio
90% /2 - 71% /15
40% valor medio
8% /4
86% /4 - 71% /9
42% /4
10% valor medio
70% /4
40 % valor medio
Error mínimo
19.42% /2 - 24% /10
24% /4
24% valor medio
Tabla 1.5 Resumen de los resultados del estudio realizado por C. Rubio.
De la taba anterior se concluyó que hacer un análisis de las series temporales utilizando los atributos de
PSD y HOSA en conjunto ayudan a discriminar entre TE y EP. Además, de indicar que el número limitado
de las muestras de TE fueron las causantes del alto error cometido. Sugirió buscar nuevos atributos y
nuevas técnicas para la clasificación debido a que el perceptrón multicapa tiende la desventaja de los
mínimos locales que en ocasiones no permitía la convergencia.
1.6.2 SEGUNDO ESTUDIO
Siguiendo la misma línea de investigación, utilizando la misma base de datos del trabajo realizado por
Rubio, Pedro Rojo y César Gutiérrez86 continuaron con la tarea de caracterización del temblor mediante
técnicas de Inteligencia Artificial y con la clasificación entre temblor fisiológico y temblor patológico, y
43
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
entre temblor esencial y temblor parkinsoniano. Con el objetivo de mejorar los resultados introdujeron
un nuevo atributo "discontinuidades" incrementando a 27 los atributos numéricos para caracterizar el
temblor, además establecieron las condiciones de entrenamiento y simulación de la red neuronal. Los
ensayos realizados se enfocaron en la clasificación entre los diferentes tipos de temblor y la clasificación
sobre los diferentes patrones de prueba.
Las condiciones de entrenamiento y el error cometido en la simulación con los 26 atributos se resumen
en la Tabla 1.6. El resultado de la clasificación sobre los patrones de prueba se resume en la Tabla 1.7.
Condiciones Entrenamiento
Características
Patrones
Pesos
Épocas
Porcent. vectores simul.
Vectores entrenamiento
Vectores simulación
Media de error
Con discontinuidades
Sin discontinuidades
T. Patológico vs. T. Fisiológico
3-4-7-12
3-4-7-12
3-8-9-10-13-14-18 3-8-9-10-13-14-18
70*0.80=56
83*0.80=66
75
75
20%
20%
131
131
32
32
22.78%
23.70%
21.61%
23.41%
T. Esencial vs. E. Parkinson
4-6-18-24
4-6-18-24
2-5-6-8-10-11-15-16 2-8-10-11-15-16
50*0.80=40
33*0.80=26
510
90
20%
20%
106
80
26
18
27.58%
26.21%
18.61%
26.67%
86
Tabla 1.6 Resumen de los resultados obtenidos al incrementar las discontinuidades .
T. Patológico vs. T. Fisiológico
T. Esencial vs. E. Parkinson
Vectores
Vectores
Error
Vectores
Vectores
Error
Patrones
Patrones
Entrenam. Simulación Simulación
Entrenam. Simulación Simulación
8
22
5
6.25%
3
14
3
28.75%
9
19
4
16.25%
6
14
3
15%
16
21
5
14.17%
8
12
3
36.25%
18
21
5
30.83%
6-7
16
2
16.25%
5-8
45
10
14.17%
6-11
30
4
19.38%
5-9
42
9
20.75%
7-11
16
2
7.50%
8-9
41
9
21%
8-17
21
4
25%
9-13
39
9
18.13%
10-11
28
6
29.38%
9-16
40
9
32.38%
11-12
15
3
12.50%
13-18
42
9
27%
11-16
26
6
21.25%
15-16
43
10
32.71%
15-16
26
6
20.63%
16-18
42
10
34.38%
86
Tabla 1.7 Resumen de los resultados en la clasificación sobre los patrones .
Entre las conclusiones del estudio de Rojo y Gutiérrez, se puede indicar que la introducción de
discontinuidades es conveniente, ya que disminuyó el error en la simulación en especial en el
entrenamiento entre TE y EP de 26.67% a un error menor de 18.61%. En la clasificación sobre los
patrones recomiendan utilizar los patrones 8, 16, 5-8, 9-13 para clasificar entre los temblores patológico
y fisiológico, y los patrones 6, 6-7, 7-11, 11-12 para clasificar los temblores esencial y parkinsoniano.
44
ESTADO DEL ARTE
1.6.3 TERCER ESTUDIO
Un tercer trabajo fue realizado por J. M. Ramón87 sobre técnicas de clasificación para la ayuda al
diagnóstico de enfermedades neurodegenerativas, enfocándose a la clasificación entre el temblor
esencial y temblor parkinsoniano. A este estudio se introdujo el Análisis de Componentes Principales
(ACP) con el fin de trabajar con los atributos que aporten la mayor información reduciendo la
dimensionalidad de los vectores de entrada a la red neuronal, debido a que no todas atributos aportan
con información significante. En la Tabla 1.8 se muestra un resumen de los mejores resultados al
entrenar la red neuronal con 150 épocas y con un 80% de las muestras para el entrenamiento y un 20%
para la simulación. Además se muestra las condiciones de trabajo utilizadas para la red neuronal.
Muestras
Dinámicos
Parkinson
Cinéticos
Suma ACP
Media
Geométrica ACP
Distancia Euclídea
ACP
Muestras de Entrada
TE
Todos patrones
EP
Dinámicos
TE
Cinéticos
EP
Cinéticos
TE
Suma Absoluta
EP
Suma Absoluta
TE
Media Geométrica.
EP
Media Geométrica.
TE
Distancia Euclídea
EP
Distancia Euclídea
Tamaño Atributos
94
2, 3.
101
55
14-71,
19-28.
56
22
6, 8, 9, 13,
16, 23, 26
35
22
5, 6, 7, 8.
35
22
6, 8, 9,
11-28.
35
% Error TE
% Error EP
11
0
9.09
9.09
0
0
0
0
0
0
87
Tabla 1.8 Resumen de las condiciones y los resultados en la clasificación entre el TE y EP .
La Tabla 1.9 muestra un resumen de los errores medios generados en todos los estudios realizados con
el análisis de componentes principales. Se trabajó con 17 componentes que representaron la varianza
del 99% de la información, reduciendo de esta forma la dimensionalidad de los vectores de entrada a la
red neuronal y obviando información redundante que no aportaba para la caracterización del temblor.
Estudio
Suma absoluta
Suma absoluta
sin frecuencia
Media
geométrica
Distancia
Euclídea
ACP
si
no
si
no
si
no
si
no
Errores medios
13-20%
20-30%
18-25%
20-31%
14-27%
22-44%
18-25%
23-37%
87
Tabla 1.9 Resumen del rango del error medio en diferentes estudios con y sin ACP .
De los resultados se concluyó que el estudio realzado con la media geométrica y el análisis de
componentes principales proporcionó el menor error (14.27%) en la clasificación de los temblores.
45
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
1.6.4 CUARTO ESTUDIO
Un cuarto estudio fue realizado por Pablo Martínez88 trabajó con un tipo de Red Neuronal llamado
Learning Vector Quantization (LVQ) junto al algoritmo de Optimización con Enjambre de Partículas (PSO)
con el fin de encontrar los mejores patrones y los atributos más representativos de la base de datos
utilizada por [85, 86, 87] para la clasificación de las muestras de los pacientes con temblor esencial y la
enfermedad de Parkinson, realizó varios estudios tomando en cuenta los resultados y las
recomendaciones realizadas por los trabajos anteriores.
En su primera hipótesis realizó cuatro experimentos para encontrar cuales son los patrones que
proporcionen el menor error. En la Tabla 1.10 se muestra un resumen de las condiciones de contorno
para el entrenamiento de la red. En la Tabla 1.11 se muestran el número de atributos que proporcionan
el menor error para cada una de las pruebas-patrón en los 4 cuatro experimentos.
Mapa del PSO
Vectores sintéticos de parkinson
Vectores sintéticos de esencial
Vectores reales de parkinson
Vectores reales de esencial
Entrenamiento de la red
Nº de pesos de la red
Épocas
Todos los pacientes reales
108
(80% del total de vectores de parkinson)
28
(80% del total de vectores de esencial)
27
(20% del total de vectores de parkinson)
7
(20% del total de vectores de esencial)
Con el 80% de la población total (reales sintéticos)
25 o 40
150
88
Tabla 1.10 Mejores condiciones de contorno para el entrenamiento con LVQ y PSO del experimento 1 .
Patrón
2
3
5
6
8
10
11
13
15
16
18
Experimento 1
Experimento 2
Experimento 3
Experimento 4
Atributo Error % Atributo Error % Atributo Error % Atributo Error %
20
2.87
21
4.47
21
12.96
20
4.47
20
4.71
3
9.65
20
4.18
15
26.28
17
1.85
17
2.23
17
2.98
17
7.4
3
2.35
3
14.39
1
16.67
3
9.61
17
4.16
2
7.41
2
7.41
1
37.56
4
2.78
17
4.47
1
4.43
8
14.81
11
3.72
11
4.4
11
2.94
11
12.17
3
1.04
1
1.67
2
3.33
3
2.083
2
1.8
3
2.98
17
2.98
3
5.5
11
3.3
15
4.64
11
5.39
15
12.17
10
1.9
2
7.69
1
6.06
17
16.66
Tabla 1.11 Tasa de error cometido en sobre cada prueba-patrón en 4 experimentos y número de atributos con los
88
que se logró los mejores resultados .
De las tablas anteriores concluyó que el menor error cometido lo proporcionaron las condiciones del
experimento 1, en las que se crearon el 80% de vectores sintéticos y el 20% fueron vectores reales. El
80% de una combinación aleatoria de vectores sintéticos-reales fueron elegidos para el entrenamiento y
46
ESTADO DEL ARTE
un 20% para la simulación. El número de pesos de la red fueron 25 para las pruebas cinéticas y 40 para
las dinámicas, en cuanto a las épocas se establecieron en 150. El rango de error medio mínimo cometido
oscila entre 1.04 a 4.71% para un determinado número de atributos, que son resultados bastante
buenos.
En una segunda hipótesis intento disminuir el número de atributos, cuyos resultados indicaron que la
supresión de tributos no tiene un resultado positivo, debido a que se estaba quitando información que
podría ser útil.
Una tercera hipótesis incluyó el análisis de componentes principales al PSO para determinar los mejores
patrones con las condiciones del experimento 1 de la primera hipótesis. Utilizó diez componentes
principales que representaban la máxima varianza. De esta hipótesis concluyó que si bien por un lado
disminuye el costo computacional con el ACP, por otro lado, el doble tratamiento de los datos perjudica
al diagnóstico realizado por la red incrementando la tasa de error de unos patrones y en otros
reduciéndolo. En la Figura 1.18 se hace una comparación del error cometido aplicando o no el ACP.
Figura 1.18 Error cometido sobre los patrones con o sin ACP.
En una cuarta hipótesis, consideró las pruebas de los pacientes recomendados en los anteriores trabajos
para entrenar la red LVQ con el PSO, concluyó que en la mayoría de ensayos se clasificaba a todos los
enfermos dentro de un mismo grupo, de forma que el error de simulación en un grupo era muy bajo
mientras que el error de simulación del otro grupo era muy alto. Considerando su primera hipótesis
como la más adecuada. Finalmente, cabe indicar que entre sus futuros trabajos plantea buscar otro
método de optimización con el fin de reducir aún más la tasa de error, así como aumentar el número de
pruebas para el caso de temblor esencial.
47
CAPÍTULO 2
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
2.1 GENERALIDADES DE LAS MÁQUINAS DE SOPORTE VECTORIAL SVM
Las Máquinas de Soporte Vectorial SVM (por sus siglas en inglés, Support Vectors Machines), son
estructuras matemáticas que han sido incorporados en el aprendizaje automático por la ciencia e
ingeniería moderna, con el fin de capturar y aproximarse al conocimiento que se encuentra en la
naturaleza y en el ser humano. En la práctica su desempeño ha sido exitoso y están siendo utilizadas
especialmente en problemas de reconocimiento de patrones, estimación de regresión y predicción.
Las SVMs son los primeros modelos matemáticos que en el marco de la Teoría de Aprendizaje
Estadístico (SLT), no dependen de una distribución de probabilidad específica y tienen la capacidad de
aprender a partir de un conjunto de datos experimentales que generalmente son tomados del entorno
real y con una distribución dispersa en un espacio de entrada de alta dimensión. Las SVMs a diferencia
de otras máquinas fueron desarrolladas a partir de un fundamento teórico matemático muy sólido.
El fundamento de las SVMs fue desarrollado principalmente por Vladimir Vapnik y sus colaboradores
que introdujeron el principio de minimización del riesgo estructural SRM como concepto superior al
tradicional principio de minimización de riesgo empírico ERM, para expresar una cota superior sobre la
probabilidad de una clasificación errónea sobre datos que no han sido vistos anteriormente, las SVMs
basan su aprendizaje en el uso de un espacio de hipótesis lineales en un espacio de características de
mayor dimensión inducido por una función kernel, las hipótesis son entrenadas por algoritmos de
optimización convexa (es decir existe una única solución) y construye una estructura que depende de un
subconjunto de datos llamados vectores soporte, que ayudan a la interpretación del modelo.
49
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
Las SVMs tiene sus orígenes a partir de la década de los 50 cuando la teoría de reproducción de kernels
fue desarrollado por Aronszajn que son una de las bases teóricas de éstas máquinas (Aronszajn, 1950).
Un hito se marco cuando a finales de los 60's F. Rosenblatt construyó la primera máquina de aprendizaje
llamada Perceptrón (Rosenblatt, 1962). En 1963 Vapnik y Lerner introdujeron una versión lineal de las
SVMs calculando el margen óptimo (Vapnik y Lerner, 1963). La interpretación geométrica de los kernel
como producto escalar en un espacio de características que constituyen la clave de las SVMs no lineales,
fue introducido por Aizerman y sus colaboradores (Aizerman et al., 1964). Cover en 1965, discutió sobre
las ideas del margen amplio y datos dispersos, que son parte de los fundamentos de las SVMs (Cover,
1965). A finales de los 70's Smith introdujo la idea de las variables de holgura para tratar con datos
ruidosos y no separables linealmente, que son herramientas útiles para las SVMs de margen flexible
(Smith, 1968), al mismo tiempo la filosofía de la Teoría de Aprendizaje Estadísticos estaba siendo
desarrollada por Vladimir Vapnik y Alexey Chervonenkis, sus primeros trabajos fueron conceptos
teóricos como la entropía Vapnik-Chervonenkis y la dimensión Vapnik-Chervonenkis, que en 1974 derivó
en un novedoso principio inductivo llamado minimización del riesgo estructural que dio un respaldo
teórico muy fuerte a las SVMs (Vapnik y Chervonenkis, 1974; Vapnik, 1979), continuando con sus
investigaciones en el marco de la teoría de aprendizaje estadístico, en 1989 introducen las condiciones
suficientes y necesarias para la consistencia del principio de minimización del riesgo empírico, en 1992
Boser junto a Vapnik y Boser y Guyn extendieron las SVMs lineales a casos no lineales aplicando el truco
kernel para maximizar el margen de los clasificadores (Boser et al.,1992), posteriormente, Cortes y
Vapnik generalizaron los resultados iniciales como base para la técnica de las actuales SVMs
introduciendo la versión de margen flexible, utilizando variables de holgura para tratar datos con ruido y
que no separables linealmente (Vapnik y Cortes, 1995; Vapnik, 1998). Algunas de estas definiciones son
tratadas con más detalle en las siguientes secciones.
En los últimos años, el uso de las SVMs se ha incrementado especialmente en el área de la biomedicina y
las ciencias, entre los trabajos destacables89 que utilizando las SVMs se pueden citar: el reconocimiento
de dígitos escritos a mano (Cortes y Vapnik, 1995; Schölkopf, Burges y Vapnik, 1995,1996; Burges and
Schölkopf, 1997), reconocimiento de objetos (Blanz et al., 1996), identificación de voz (Schmidt, 1996),
reconocimiento de objetos en 3D (Pontil y Verri, 1998), detección de rostros en imágenes (Osuna,
Freund y Girosi, 1997), categorización de textos (Joachims, 1997), categorización de spam (Drucker y
Vapnik, 1999), entre muchos otros trabajos.
50
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
2.2 EL APRENDIZAJE AUTOMÁTICO
Con el creciente desarrollo de la tecnología ha hecho que las necesidades del ser humano sean más
complejas e imperiosas de satisfacer, a la vez surgen nuevos sistemas más sofisticados y eficientes para
hacer frente a este problema. El mundo real es impreciso, incierto y cambiante, la precisión acarrea un
gran costo por lo que se tiene que implementar técnica de computación suave (soft computing) que
ponen de lado los resultados exactos y precisos por otros que a pesar de no ser tan exactos y precisos
proporcionan una solución satisfactoria. Estas técnicas son de gran interés cuando se desea modelar
procesos o sistemas complejos que poco o nada conocidos y que generalmente son no lineales.
La función primordial de la inteligencia humana no es realizar cálculos precisos, sino asegurar la
supervivencia en la naturaleza, el cerebro humano es capaz de procesar millones de datos percibidos a
través de sus sentidos y tiene la habilidad de aprender, generalizar, reconocer y tomar decisiones,
sorprendentemente desde la experiencia y reglas aprendidas.
Lo que se desea es transferir el conocimiento humano obtenido con de la experiencia, la habilidad y la
heurística a modelos matemáticos, algoritmos, máquinas y sistemas inteligentes (software) a través de
la denominada Inteligencia Artificial (IA), tratando de aproximar a la inteligencia humana con el fin de
ser capaces de sobrevivir en un entorno altamente tecnológico, en donde las tareas sean resultas en
base a experiencias previas en una razonable cantidad de tiempo, con la mejor exactitud y con el menor
coste y que a la vez sea adaptable al impreciso, incierto y cambiante mundo que nos rodea. Sin duda la
inteligencia artificial ha sido un éxito en programas computarizados que ayudan a doctores a
diagnosticar enfermedades, a pilotos a aterrizar aviones, a economistas a predecir comportamientos
financieros, en fin muchos de estos ámbitos dependen de alguna forma del reconocimiento de patrones.
En el reconocimiento de patrones se estudia cómo las máquinas pueden lograr el aprendizaje a partir de
datos experimentales, ejemplos, muestras, registros, medidas u observaciones del entorno, para luego
aprender a distinguir patrones de interés a partir de sus antecedentes y tomar decisiones acertadas que
concuerde con la categoría de los patrones.
Cuando se trata con problemas complejos en el reconocimiento de patrones y según el tipo de datos
con los que se cuenta, se puede dar solucionar mediante el método de la Teoría de Decisión que se
utiliza para la clasificación de patrones en el que se emplean funciones de decisión y donde los datos se
encuentran representados por vectores con valores característicos.
51
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
En la Figura 2.1, se presenta un ejemplo muy simple de clasificación para tener una idea de cómo se
implementan los algoritmos a partir de la teoría de aprendizaje estadístico. La tarea es separar formas,
es decir separar los círculos de los puntos rellenos, encontrando una función de decisión que en este
caso está representado por una frontera (línea continua) que sirve como límite entre ambas clases.
Figura 2.1 Clasificación de formas para tres modelos de fronteras o funciones de decisión.
En la Figura 2.1, a la izquierda muestra una frontera o función de decisión que separa correctamente las
formas haciendo que la solución sea compatible con cada una de las formas, sin embargo no está claro si
ésta condición se mantiene para nuevas formas, por ejemplo ¿qué sucedería si existen nuevas formas
como valores atípicos ubicados en medio de la otra clase?, tal vez estos valores atípicos degenerarían
completamente la función de decisión, para tratar de evitar este problema se podría probar con un
modelo más simple que haga caso omiso a estos valores atípicos. Si se considera un modelo más simple
como el presentado en la figura de la derecha, que representa a una separación casi lineal, éste modelo
sin embargo no solo clasifica erróneamente los valores atípicos sino que también a algunas formas que
están cerca a la frontera de decisión (marcados con una cruz de color rojo). Lo que indica que la
complejidad de la función de decisión es muy crucial en problemas de clasificación, si ahora se
implementa un modelo intermedio en complejidad como el representado en la figura del centro que
permite que los valores atípicos de alguna forma sean omitidos en la clasificación de manera que la
frontera de decisión no se vea afectada pero garantiza que se clasifique correctamente la mayoría de las
formas. Con este enfoque se puede decir que el objetivo de la teoría de aprendizaje estadístico es
emplear estos argumentos en un marco matemático mediante la implementación de modelos de
máquinas de aprendizaje que implemente la función óptima teniendo en cuenta la complejidad de su
estructura para predecir nuevas formas.
52
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
2.3 MODELO DE UNA MÁQUINA DE APRENDIZAJE
El aprendizaje es entendido como el conocimiento adquirido sobre un sistema o concepto que hasta
entonces ha sido desconocido o poco conocido, y si este conocimiento es adquirido a partir de un
conjunto de datos experimentales da origen al aprendizaje estadístico. El procedimiento de aprendizaje
a partir de datos se conoce como entrenamiento. Los datos experimentales son llamados también datos
de entrenamiento, patrones, ejemplos, muestras, medidas, observaciones o registros. Si un sistema,
algoritmo o máquina puede aprender desde los datos experimentales podrían ser considerados como
inteligentes. Entre los sistemas inteligentes ideados por la ciencia y la ingeniería moderna a partir del
aprendizaje estadístico se puede mencionar a las máquinas de soporte vectorial (SVM).
La forma de aprendizaje de una máquina (aprendizaje artificial), es la parte más fundamental en el
procesamiento de los datos para el reconocimiento y la clasificación de patrones, existen varios tipos de
aprendizaje entre los que se destacan dos técnicas: el Aprendizaje Supervisado que es una técnica que
genera una hipótesis en donde el proceso de aprendizaje durante la fase de entrenamiento es
controlado por un agente externo (un usuario o un sistema) determinando la respuesta de la función, es
decir se controla los datos de entrada a la máquina para que sean transformados en los resultados
deseados y su principal objetivo es obtener una función a partir de los patrones que participaron en el
entrenamiento de manera que dicha función puedan generalizar y predecir la categoría de los nuevos
patrones con similares atributos que no han sido presentados anteriormente al sistema. El Aprendizaje
No Supervisado es otra técnica en los datos que se le presenta a la entrada de la máquina no tiene una
categorización es decir no existe un conocimiento a priori y su salida está representada por datos que se
agrupan de acuerdo a cierta similitud o familiaridad, creando posibles categorías para nuevos patrones.
De ambas técnicas presentadas el que corresponde a este estudio es el aprendizaje supervisado.
La teoría de aprendizaje estadístico a partir de ejemplos experimentales (desarrollada por Vapnik 1998)
se basa en que: a) los problemas modernos de la vida real son imprecisos, inciertos y de muy alta
dimensionalidad (en el espacio de las entradas), lo que implica que un incremento de las variables
independientes y por tanto un incremento en la complejidad, lo conduce a lo que se conoce como "la
maldición de la dimensionalidad" y b) las reglas fundamentales de cómo se generan los datos de la vida
real suelen estar muy lejos de una distribución normal. Los puntos anteriores no pueden ser tratados
por la estadística clásica por lo que se debe reemplazar por nuevos principios inductivos capaces de
generar modelos que resuelvan problemas con datos dispersos (distribución no Gaussiana) y que sea
realizables cuando está disponible un pequeño número de datos.
53
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
Los modelos de máquina de aprendizaje que resuelven problemas con los hechos indicados
anteriormente, son modelos no lineales y no paramétricos. El término no lineal se refiere a que el
modelo no está restringido a un mapeo lineal de sus entradas- salidas y a la no linealidad del modelo
con respecto a sus parámetros desconocidos que son sujetos del aprendizaje cuando se mide su bondad
mediante alguna función de error que implementa funciones de activación o kernels no lineales. El
término no paramétrico se utiliza para definir que los parámetros son establecidos durante el
aprendizaje y depende de los datos utilizados en el entrenamiento de la máquina.
Según la teoría de aprendizaje estadístico utilizado para describir el modelo de aprendizaje de una
máquina a partir de ejemplos y con el fin encontrar la regla o función subyacente entrada-salida bajo un
aprendizaje supervisado se necesitan tres componentes básicos90, representados en la Figura 2.2:
1. Un conjunto de N ejemplos llamados también muestras (M), donde cada muestra consiste de
un par ( x i , y i ) conformado por un vector de características n-dimensional (generalmente de
una alta dimensionalidad) x i  X   n , i  1 . . .N como dato de entrada, al que se le asocia
como salida y i Y   ( {1,1} o cualquier otro escalar) a una de las posibles clases a la
que pertenece, lo que proporciona una fuente de confianza. El conjunto de muestras ( x i , y i )
están relacionados por una relación probabilística, es decir un elemento de X no determina de
forma única un elemento de Y sino que representan una distribución de probabilidad sobre Y .
Se asume que los vectores x fueron generados en forma independiente desde una fija pero
desconocida función de probabilidad p(x) y la elección de los pares ( x i , y i ) para obtener un
modelo de máquina fue de forma aleatoria y muestreada N veces.
2. Un sistema (S), que produce las respuestas y de cada vector de entrada x generados de
acuerdo a una distribución de probabilidad condicional p( y | x) que también es fija y
desconocida, la respuesta del sistema es utilizada para el entrenamiento de la máquina de
aprendizaje. Se asume que se tiene un sistema determinista que utiliza la función y  f (x) .
3. Una máquina de aprendizaje (MA), que usando las entradas x y la salida del sistema y , la tarea
es encontrar una función de mapeo f : X  Y , es decir la función subyacente f (x ) o relación
de dependencia desconocida que existe entre ambas variables. Tal función se conoce como
Regla de Clasificación que separa los datos. La máquina de aprendizaje debe ser capaz de
54
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
implementar una función de aproximación1 f a (x,) cuya salida debe ser lo más cercana a la
respuesta del sistema y en donde cada función de aproximación está implementado por un
conjunto de parámetros  que no necesariamente tienen que ser un vector.
Conjunto de Datos
M
Sistema
x
y
S
(Esta conexión está presente
sólo en la fase de aprendizaje)
MA
yˆ
Máquina de Aprendizaje
Figura 2.2 Modelo de una máquina de aprendizaje.
En la Figura 2.2, se muestra la relación que existe entre los componentes básicos del modelo de una
máquina de aprendizaje supervisada, durante el proceso de aprendizaje la máquina observa las
muestras de entrada conformado por los pares ( x i , y i ) , la tarea principal es aprender a mapear

x i  y i durante la fase de entrenamiento, tratando que el valor y se aproxime lo mejor posible a la
respuesta del sistema y . La máquina de aprendizaje está definida por un conjunto de posibles mapeos
x  f a (x,) donde las funciones f a (x,) se etiquetan a sí mismas a través de los valores del
parámetro  (generalmente estos parámetros son llamados pesos). Se asume que la máquina es
determinista, es decir que para un vector de entrada x i y la selección del parámetro  siempre se
obtendrá como resultado la misma salida f a (x,) . La selección óptima del parámetro  da lugar a lo
que se conoce como Máquina Entrenada. Una máquina de aprendizaje desde este punto de vista consta
de una arquitectura determinada y de sus correspondientes parámetros2  que representan los pesos
y los umbrales, son parámetros que tienen diferente significado físico o geométrico dependiendo del
problema a resolver.
1
Las funciones de aproximación son modelos que son conocidos como redes (por su representación grafica), máquinas
(referidas a algoritmos o modelos matemáticos) o como hipótesis.
2
Usualmente los parámetros de la función
f a (x,) son: los pesos de las capas ocultas o de salida en el perceptrón multicapa,
los coeficientes de un polinomio o una serie de Fourier truncada, los pesos de los vectores soporte de una SVM, etc.
55
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.

La función buscada y  f a (x, ) es la que mejor aproxima el valor de las salidas del sistema y  f (x)

para todos los vectores de entrada, es decir y  y . Su selección se basa en el conjunto de datos de
entrenamiento compuesto por N pares:
( x 1 , y1 ), ( x 2 , y 2 ), . . . , x N , y N 
(2.1)
Se asume que las muestras se generan en forma independiente de acuerdo a una distribución de
probabilidad desconocida P(x, y) que es una suposición estándar en la teoría de aprendizaje
estadístico, los datos generados de esta forma se conocen como independiente e idénticamente
distribuidos (i.i.d.) y bajo condiciones muy generales la distribución de probabilidad puede ser escrito
como:
P(x, y )  p(x) p( y | x)
(2.2)
Donde p( y | x) es la distribución de probabilidad condicional e indica que para la misma entrada x se
genera una salida diferente y cada vez; y p(x) indica la probabilidad marginal de x .
Cuando se trabaja con un conjunto de datos de entrenamiento disperso y contaminado con ruido, el
término aproximación utilizado entre la salida de un sistema y (función subyacente f (x ) ) y la salida

de la máquina de aprendizaje y (función de aproximación f a (x,) ), es importante. En un problema de
aproximación existe dos elementos a tener en cuenta: a) el tipo de función de aproximación y b) la
medida de cuan buena es una aproximación. En este sentido es mucho más importante elegir una
función de aproximación, que elegir la manera en la que se mide la bondad de la aproximación,
entendiéndose ésta como la función de distancia o norma que existe entre f (x ) y f a (x,) .
Es muy difícil determinar a la función de aproximación que conduzca a una mejor aproximación, la
ventaja es que existe solo unas cuantas funciones de aproximación estudiadas actualmente, entre ellos
están las máquinas de soporte vectorial SVM. Si la función de aproximación es compatible con la función
subyacente, entonces cualquier norma o función de distancia utilizada puede aproximarse a la función
subyacente. De no ser compatible, difícilmente se podrá implementar una norma que consiga una
buena aproximación. La norma de aproximación f a (x) es una medida específica de que tan bien, una
función de aproximación coincide el conjunto de datos ruidosos.
56
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
No se busca un modelo en que la función de aproximación coincida con la función subyacente, es decir

que y  y , que en este caso se refiere a una interpolación, sino que se busca una función de

aproximación a la función subyacente y  y , la diferencia entre estos términos se representa en la
Figura 2.3.
f( x) función subyacente
f( x) función subyacente
curva de ajuste por
aproximación
f( x)
f( x)
curva de ajuste
por interpolación
x
x
Figura 2.3 Modelo de una función subyacente fa (x) con datos contaminados de ruido. Izq. Interpolación y
sobreajuste de los datos con ruido. Der. Aproximación y suavizado de los datos (filtrado del ruido).
Según la Figura 2.3, como el conjunto de datos de entrenamiento son dispersos, con ruido y complejos.
En la interpolación se realiza un desempeño perfecto pasando sobre todos los datos de entrenamiento e
incluso el ruido es interpolado y el error es igual a cero, pero esta condición provoca el indeseado
sobreajuste y una pobre generalización sobre nuevos datos. En la aproximación realizada sobre los datos
de entrenamiento, no es necesario atravesar por todos los datos sino solamente por aquellos más
cercanos tratando de minimizar alguna medida de error, obteniendo un modelo de ajuste suavizado al
filtrar el ruido tanto como sea posible. Para encontrar la mejor función de aproximación f a (x,)
generada por la máquina de aprendizaje, generalmente se utiliza una función de pérdida, de costo o de
discrepancia, representada como:
L( y, f a (x,))
(2.3)
La función (2.3) es obtenida desde el conjunto de datos de entrenamiento {( x i , y i )} , en estadística la
función f a ( x, ) es llamada hipótesis y pertenece a un amplio conjunto llamado espacio de hipótesis de
57
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
las funciones 3 H , es decir f a  H y minimiza alguna riesgo funcional R ( ) conocido también como
pérdida promedio o pérdida esperada, que representa la esperanza estadística de la función de pérdida
y está dado por:
R ( )   L ( y , f a ( x, )) P ( x, y ) dx dy
(2.4)
Existen 3 casos que implementan las máquinas de aprendizaje y donde el problema de minimización del
riesgo es tratado en función del conocimiento que proporciona los datos de entrenamiento y que
dependiendo de la tipología de sus variables de salida (categóricas, numéricas) son divididos en:
-
Reconocimiento de patrones (clasificación).
-
Estimación de regresión (aproximación).
-
Estimación de la densidad.
En los problemas de reconocimiento de patrones de dos clases (binario), al conjunto de salidas de una
máquina de aprendizaje reciben el nombre de etiquetas y define la clase de pertenencia al que puede
ser asignado un elemento de entrada. Las salidas de las entradas categóricas son transformadas en
variables numéricas por medio de funciones indicadoras (que serán tratadas en la Sección 2.6). Para
calcular una función de pérdida (2.3) se necesita de la salida del sistema y que generalmente toma dos
valores {1} y de la mejor función de aproximación generada por la máquina de aprendizaje f a (x,)
(función que al asignarle únicamente dos valores {1} se la conoce como función indicadora), así:
L( y, f a (x, ))  0
L( y, f a (x, ))  1
si
si
y  f a (x, ),
y  f a (x, ).
(2.5)
En forma general, la expresión (2.5) facilita la definición de una función de pérdida para el caso de
reconocimiento de patrones, contabiliza el número de elementos clasificados correctamente y los que
han sido clasificados de forma errónea en la fase de entrenamiento, llamando error de entrenamiento a
las diferentes respuestas. La correcta clasificación o no, se mide por medio de la función de pérdida
cero-uno (2.5) representada como:
L ( y , f a ( x, )) 
3
1
| y  f a ( x, ) |
2
(2.6)
Algunos espacios de hipótesis pueden ser modelos matemáticos, esquemas de clasificación, máquinas de cálculo. etc.
58
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
El lado derecho de la función de pérdida (2.6), es la diferencia en valor absoluto entre el valor a la clase
a la que realmente pertenece una muestra y el valor proporcionado por la máquina de aprendizaje,
donde la pérdida es 0 si la clasificación es correcta y es 1 caso contrario.
2.4 PROBLEMA DE MINIMIZACIÓN DEL RIESGO
Durante el aprendizaje en la fase de entrenamiento se encuentra un conjunto de parámetros
   (x, y ) de la función de aproximación f a ( x, ) , a partir del conjunto de datos de entrenamiento
aproximando la respuesta de la máquina de aprendizaje con la respuesta del sistema, ahora la mejor
función de aproximación debe ser elegida para predecir la etiqueta de la clase y de pertenencia para
cualquier vector de entrada x que no ha sido presentado anteriormente a la máquina, es decir el
problema ahora es encontrar la mejor función estimador f que clasifique correctamente las muestras
pertenecientes al conjunto de prueba de las que se desconoce la clase a la que pertenecen.
Para medir la exactitud con la que un estimador realiza la tarea de clasificación binaria sobre el conjunto
de prueba se puede redefinir el riesgo funcional (2.7) como el riesgo esperado R ( f ) o error promedio
del estimador f y que está dado por:
1
R( f )   | y  f (x) | P(x, y ) dx dy
2
(2.7)
El riesgo esperado está definido sobre un gran espacio de clases de funciones sobre el que existe otro
tipo de aprendizaje a partir de ejemplo-tareas, a dicho espacio se conoce como espacio objetivo T o
espacio de clases y es el dominio del estimador f .
Según (2.7), la función f (x) no tiene una dependencia explícita sobre los parámetros de pesos  que
definen las características relevantes de aproximación de f (x) . Ahora lo que se busca es la función
f (x )  T que minimice el riesgo esperado y por tanto ser considerado como el estimador ideal. Este
estimador es la función objetivo y se denota como:
f 0 (x)  arg min R ( f )
f T
(2.8)
59
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
De la expresión (2.7) se puede deducir que si el sistema fuese determinista (libre de ruidos) es decir en
el caso en que y  f 0 ( x ) el riesgo esperado sería igual a cero, pero la salida y depende mucho del
ruido del sistema, si el ruido en los datos es grande, de igual manera el error promedio será grande.
Debido a que la distribución de probabilidad P(x, y) es desconocida, no es posible calcular y reducir el
riesgo esperado, pero se dispone de un conjunto limitado de datos de entrenamiento con lo que se
puede calcular una aproximación estocástica4, para lo cual es necesario emplear un principio de
inducción que minimice el riesgo funcional, tal principio se conoce como principio de Minimización de
Riesgo Empírico (ERM).
2.5
PRINCIPIO INDUCTIVO DE MINIMIZACIÓN DEL RIESGO EMPÍRICO ERM
Las máquinas de aprendizaje intentan aprender la función subyacente entrada-salida mediante el
algoritmo de aprendizaje supervisado, en otras palabras, encontrar la función objetivo (2.8) que
minimiza el riesgo esperado, pero desafortunadamente como la función de distribución de probabilidad
P ( x, y ) es desconocida, la función objetivo en la práctica no puede ser encontrado fácilmente.
Para superar este inconveniente, se dijo anteriormente que es necesario implementar un principio de
inducción que puede ser utilizado para el aprendizaje a partir de un conjunto de datos de
entrenamiento (2.1) como única fuente de información; donde las entrada x i  X   n , i  1 . . .N y
las respuesta del sistema y i Y   son valores discretos para los problemas de clasificación (por
ejemplo {1} ), así el riesgo esperado R ( f ) puede ser sustituido por el llamado principio de
minimización del riesgo empírico ERM, comúnmente llamado riesgo empírico Remp ( f ) que reemplaza el
promedio sobre la distribución de probabilidad P ( x, y ) por el promedio sobre las N muestras del
conjunto de entrenamiento y está definido por:
Remp ( f ) 
4
1 N 1
 | f ( x i , )  y i |
N i 1 2
(2.9)
Se denomina estocástico a un sistema cuyo comportamiento es intrínsecamente no determinista en la medida que el
subsiguiente estado del sistema está determinado tanto por las acciones predecibles del proceso como por elementos
aleatorios.
60
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
Tomando en cuenta la ley de los grandes números de la teoría de aprendizaje estadístico, asegura que el
riesgo empírico Remp ( f ) converge en probabilidad al riesgo esperado R ( f ) si el número de datos es
muy grande, es decir si N   .
lim (| R( f )  Remp ( f ) |)  0
(2.10)
N 
Desde este punto de vista es más conveniente minimizar el riesgo empírico que tiene la ventaja de que
puede ser calculado de manera fácil a partir del conjunto de entrenamiento y es una forma razonable de
medir cuan buena es una función de estimación. Debido a que el mejor estimador debería generar el
menor riesgo empírico, el mínimo valor de Remp ( f ) convergería al mínimo valor de R ( f ) .
Denotando como f N a la función que logran minimizar el riesgo empírico en T , el problema ahora se
centra en determinar si el riesgo esperado del minimizador del riesgo empírico es lo más cercano al
riesgo esperado de f 0 como se muestra en la Figura 2.4, a lo cual se considera como un proceso de
aprendizaje consistente.
Riesgo
(Error)
muestra
pequeña
muestra
grande
muestra
mediana
R(f N )
inf R(f 0)
R emp (f N )
T
Tamaño del conjunto de datos
N
Figura 2.4 Proceso de aprendizaje según el principio de inducción de ERM.
Para ser un proceso de aprendizaje consistente, se debe tener en cuenta bajo qué condiciones se
cumple en probabilidad las siguientes afirmaciones:
lim Remp ( f N )  lim R( f N )  inf R( f 0 )
N 
N 
(2.11)
61
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
En la expresión (2.11), haciendo referencia al segundo y tercer término indica que los valores del riesgo
esperado convergen al mejor posible, mientras que entre el primer y tercer término indican que en
función de los valores del riesgo empírico se puede estimar el valor mínimo posible del riesgo esperado.
Pero lamentablemente, lo anterior es una condición imposible en el caso de una consistencia trivial, si el
conjunto de funciones que minimizan Remp ( f ) no contienen a la función que minimiza el R ( f ) .
Cuando una máquina de aprendizaje que minimiza el riesgo empírico se puede aproximar al más
pequeño valor del riesgo esperado o no, es necesario tener en cuenta el concepto de convergencia
uniforme de la teoría de aprendizaje (Vapnik y Chervonenkis 1989)90 cuyos resultados definen tres
cantidades que miden la complejidad de un conjunto de funciones como son: la entropía VC y la
annealed VC entropy para un análisis que depende de la distribución y la función creciente para un
análisis independiente de la distribución.
Para que el principio de ERM sea consistente, es una condición necesaria y suficiente que el riesgo
empírico Remp converja uniformemente en probabilidad al riesgo esperado R, es decir:
lim P sup | R ( )  Remp ( ) |     0   0
 

N 
(2.12)
La ecuación (2.12) es un proceso de convergencia uniforme bilateral e indica la convergencia en
probabilidad P a cero. El parámetro  es el mismo para el riesgo empírico Remp y para el riesgo
esperado R. En términos generales sup S , es el supremo de un conjunto no vacío S , definido como el
elemento más pequeño s  x para todo x  S , si s no existe entonces sup S   , además la
propiedad teórica (2.12) es muy importante ya que la condición de consistencia del principio de ERM
está determinada por la "peor" función de un conjunto de funciones de aproximación, que es la que
proporciona el más grande error entre el riesgo empírico y el verdadero riesgo esperado, además ayuda
a definir una cota válida para cualquier máquina de aprendizaje que este expresada en función del
tamaño de su conjunto de entrenamiento N y de la dimensión VC (Vapnik-Chervonenkis) h que será
tratado en la Sección 2.6.
Además, (2.12) indica que la condición necesaria y suficiente para una tasa de convergencia rápida y
para la consistencia del principio ERM e independiente de la distribución, es que la dimensión VC del
conjunto de funciones de aproximación debe ser finita, Vapnik (1995).
62
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
Pero (2.12) no indica el proceso constructivo para diseñar un modelo, debido a que existe un infinito
número de posibles soluciones que pueden surgir al buscar el valor mínimo del riesgo empírico. En la
Figura 2.5, están representadas 3 funciones de aproximación, (curvas entrecortadas) de una infinidad
posible, que interpolan correctamente los datos x del conjunto de entrenamiento haciendo que el
resultado sea igual a cero para el riesgo empírico, es decir Remp  0 . Pero cada una de estas 3 funciones
es un pésimo modelo de la verdadera función subyacente f (x ) (representada por la curva de color
rojo), interpretan muy mal fuera de los datos de entrenamiento y por tanto no generalizan bien.
y=f( X i)
Xi
Figura 2.5 Diferentes funciones que interpolan los datos del conjunto de entrenamiento, cada una tiene un riesgo
empírico igual a cero pero ninguna generaliza bien.
Existen otras funciones de aproximación generadas por las máquinas de aprendizaje que minimizaran el
riesgo empírico pero no necesariamente minimizarán el riesgo esperado, esto debido al hecho de que la
máquina es entrenada con algunas muestras de la verdadera función subyacente, generando así
siempre funciones de aproximación sesgadas, éstas aproximaciones depende esencialmente del
conjunto de pares de muestras ( x i , y i ) utilizadas en la fase de entrenamiento para el aprendizaje.
La solución a este problema se da restringiendo el espacio de las hipótesis H a un subconjunto más
pequeño que el espacio objetivo T
mientras se controla la complejidad de las funciones de
aproximación, este tema será abordado más adelante en el llamado principio de Minimización de Riesgo
Estructural (SRM).
63
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
2.6 LA DIMENSIÓN DE VAPNIK-CHERVONENKIS CV
La definición de la Dimensión de Vapnik-Chervonenkis VC, es un concepto muy importante en la nueva
teoría de aprendizaje ya que permite generalizar el proceso de aprendizaje y dar solución al problema
de sobreajuste. Inicialmente fue presentado para los problemas de reconocimiento de patrones /
clasificación de dos clases, utilizando un conjunto finito de datos de entrenamiento y aplicándolo en el
principio inductivo de minimización del riesgo empírico. El diseño de un modelo de máquina de
aprendizaje debe ser analizado por la complejidad del conjunto de funciones indicadoras mediante su
entropía o su función creciente (Vapnik y Chervonenkis 1968, 1971). Siendo la función creciente la que
describe la condición necesaria y suficiente para la consistencia del método de ERM para cualquier
medida de probabilidad P(x, y ) y sobre la que se debe construir una cota de convergencia aplicando la
dimensión VC.
Para explicar la función creciente de un conjunto de funciones indicadoras aplicadas a la tarea de
clasificación de dos clases, se consideran un conjunto de N datos (x1 , x 2 ,...., x N ) y un conjunto I de
funciones indicadoras f i (x, w) . Si se caracteriza la diversidad del conjunto de funciones indicadoras
como N d (x) es decir el número de las diferentes etiquetas que pueden ser clasificadas en forma
binaria por el conjunto
I
y considerando que el conjunto N puede ser etiquetado en 2 N posibles
formas y por tanto N d (x)  2 N , entonces la función creciente es definida como:
G( N )  ln(max (N d (x))
x
(2.13)
El valor máximo de la expresión (2.13) se toma sobre todos los datos del conjunto N , entonces se
puede reescribir como:
G( N )  N ln 2
(2.14)
La consistencia (2.12) expresada en términos de la función creciente indica que para que exista una tasa
de convergencia rápida debe satisfacer:
lim
N 
G( N )
0
N
(2.15)
La expresión (2.15) indica que la relación entre la función creciente G (N ) y el número de muestras N
debería disminuir mientras el número de muestras aumenta. La función creciente de un conjunto de
64
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
funciones en la práctica es difícil de calcular, por lo que se considera un límite superior a la función
creciente que esta dado por la dimensión VC. Cabe indicar que si la condición (2.15) no es satisfecha,
tampoco se satisface (2.12).
La relación que existe entre la función creciente y la dimensión VC indica que, para un conjunto de
funciones indicadoras la función creciente puede ser lineal o acotada por una función logarítmica, nada
puede estar entre la función lineal y logarítmica, es decir la función
N (curva punteada) no puede
existir, este teorema está representado en la Figura 2.6.
N ln 2
G(N)
N
h( ln(N/h)+1)
0
h
N
Figura 2.6 Una función creciente, puede ser lineal o acotada por una función logarítmica.
Según la estructura de la función creciente90 G ( N )  N ln 2 , ésta crece linealmente si incrementa el
número de muestras N . La máquina de aprendizaje es capaz de separar N datos de entrenamiento en
todas las posibles formas 2 N y por tanto puede llegar a ser una función ilimitada, pero si existe algún
N máximo que permita esta separación, éste número es la dimensión VC denotado por h .
Si N  h una función logarítmica acota a la función creciente y está dada por:
 N 
G ( N )  h ln  1
 h

(2.16)
La dimensión VC es infinita si la función creciente es lineal y es finita e igual a h ( N  h ) si la función
creciente es acotada por una función logarítmica con coeficiente h es decir: G ( N )  G (h)  h ln 2 y por
tanto G(h  1)  (h  1) ln 2 .
La dimensión VC que es una medida más flexible para medir la complejidad de un conjunto de funciones
indicadoras.
65
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
Para la tarea de clasificación de dos clases, sea f i (x, w) una función indicadora que puede tomar sólo dos
valores, por ejemplo {1,1} , para clasificar un conjunto de N datos, éstos se pueden etiquetar en 2 N
posibles formas, si la dimensión VC está definida como el mayor número h de datos que pueden ser
separados en todas las posibles formas, entonces si en el conjunto de funciones indicadoras existen
miembros que sean capaces de asignar todas las etiquetas correctamente, la dimensión VC de este
conjunto de funciones será h  N .
Para examinar el término "separación" se da un ejemplo de función indicadora en un espacio
dimensional  3 como se muestra en la Figura 2.7, donde f i (x, w )  sign ( p) es la función escalón y los
datos de entrada son vectores en  2 , si se define al plano como p  w0  w1 x1  w2 x 2 , entonces
f i (x, w)  sign ( w0  w1 x1  w2 x2 ) , ésta función indicadora es un plano que está representada como una
línea recta orientada a la que se llama frontera de decisión o función de separación si p  0 y en donde
los datos de entrada a una lado de la línea son asignados con "+1" clase 1 y los datos en el otro lado de
la línea son asignados con "-1" clase 2, la dirección del vector w indica el lado en que la función
indicadora es positiva.
p
dirección del
vector pesos w
x1
d=
F ro
d=
C la
se
C la
n te
-1
se 1
ra d
plano p
w
1
ed
e c is
f i( x,w )=1
ió n
2
f i( x,w )=-1
p=0
x2
Figura 2.7 La función escalón es un ejemplo de función indicadora f i (x, w)  sign ( p) ; donde sign  1 para
p  0 y sign  1 para el caso contrario.
Para clasificar un conjunto de 3 muestras en un espacio  2 , todas las posibles etiquetas que se pueden
generar son 2 3  8 . En la Figura 2.8 se muestra como estos datos fueron separados mediante un
conjunto de funciones indicadoras en todas las posibles formas, por tanto la dimensión VC h  3 .
66
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
Figura 2.8 Sólo 3 datos pueden ser separados en un espacio de representación  2 por un conjunto de funciones
indicadora en las 8 posibles formas.
En la Figura 2.9, se representan un conjunto de 4 datos en un espacio  2 , las funciones indicadoras
f i (x, w )  sign ( p) no serán capaces de separar a todas las 2 4  16 posibles formas de etiquetado,
existirán dos arreglos que no podrán ser separados. Por tanto la dimensión VC para este caso es h  3 .
Figura 2.9 El conjunto de funciones indicadoras fi (x, w)  sign ( p) no puede separar a 2 de las 16 forma de
etiquetado para un conjunto de 4 datos. Pero en un espacio  3 o con una función cuadrática (línea entrecortada)
si sería posible.
De los dos ejemplos anteriores se puede deducir que para un espacio de entrada n-dimensional, la
dimensión VC de un conjunto de funciones indicadoras f i (x, w )  sign ( p) es igual a h  n 1 y que es
igual al número de parámetros libres del vector pesos w , lo que hace suponer que si se incrementa la
dimensión de w también incrementa h , pero esta suposición no es del todo cierta, pues existen
funciones que con pocos parámetros la dimensión VC puede ser infinita. Cabe destacar que la dimensión
VC inicialmente fue definida para funciones indicadoras y luego extendida a funciones reales, así la
dimensión VC de una función de pérdida L( y, f a (x, )) es igual a la dimensión de una función de
aproximación f a (x, ) .
67
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
En conclusión, la teoría de Vapnik y Chervonenkis demuestran que la condición necesaria y suficiente,
independiente de la distribución para la consistencia de las máquinas de aprendizaje por el método de
ERM y que además exista una rápida tasa de convergencia es que la dimensión VC h del espacio de las
hipótesis sea finita. La dimensión VC, no es fácil calcular ya que depende: a) de la complejidad del
conjunto de funciones de aproximación91 f a (x, ) implementada en una máquina de aprendizaje sobre
los datos de entrenamiento y b) del tipo de problema de aprendizaje ya sea este de clasificación o
regresión. Incluso si la dimensión VC de un conjunto de funciones no pudiese ser calculada, su concepto
es muy importante en la construcción de una estructura sobre la clase de funciones de aproximación en
el espacio de las hipótesis implementado en el principio de minimización del riesgo estructural (SRM).
2.7 PRINCIPIO INDUCTIVO DE MINIMIZACIÓN DEL RIESGO ESTRUCTURAL SRM
La consistencia del principio de ERM y el concepto de la dimensión VC de una función, proporcionan las
bases para controlar la habilidad de generalización de una máquina de aprendizaje, que consiste en
obtener la cota más pequeña sobre el error de prueba minimizando el error en el entrenamiento,
utilizando un conjunto de funciones con la dimensión VC (capacidad) más pequeña.
Minimizar el error en el entrenamiento usando funciones con la dimensión VC más pequeña, son
requisitos opuestos y el modelo de máquina está sujeto a elegir entre la exactitud de aproximación a los
datos dados y la capacidad del conjunto de funciones utilizado para modelar dichos datos. Para dar
solución a este problema, la teoría desarrollada por Vapnik-Chervonenkis derivada de la teoría de
aprendizaje estadístico introduce un nuevo principio llamado principio de Minimización del Riesgo
Estructural SRM (Vapnik 1995, 1998), que indica que la habilidad de generalización de una máquina de
aprendizaje para con los datos de prueba depende de la complejidad y de la capacidad de las funciones
implementadas y no del número de parámetros libres que son sujetos del aprendizaje (pesos); lo que
conlleva a superar los problemas de trabajar con la dimensionalidad.
Si la capacidad del conjunto de funciones tiene una capacidad alta provoca el indeseado sobreajuste así
mismo una capacidad demasiada pequeña conduce a un modelado ineficiente de los datos.
El principio SRM fue desarrollado para pequeñas muestras de datos. Un conjunto de tamaño N es
considerada pequeño si la relación N / h   20 . Donde N representa el número de datos del conjunto
68
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
de entrenamiento y h es la dimensión VC de las funciones implementadas por la máquina de
aprendizaje.
La SRM selecciona de un gran número de funciones de aproximación (modelos o máquinas) disponibles,
la que posee la mejor complejidad (capacidad) para que coincida con la complejidad de los datos
durante el entrenamiento. Los modelos utilizados son parametrizados y con aumento del número de
parámetros forman una estructura anidada, es decir:
H 1  H 2  H 3  . . .  H n1  H n  . . .  H
(2.17)
Un conjunto de funciones anidada se puede apreciar en la Figura 2.10, donde cada conjunto de
funciones en el espacio de las hipótesis H i tiene un dimensión VC hi finita y más grande que el
conjunto anterior, es decir h1  h2  h3  . . .  hn 1  hn . Además, hay que recordar que H n pueden ser
un conjunto de modelos matemáticos, máquinas o funciones de aproximación como por ejemplo las
máquinas de soporte vectorial.
El objetivo del aprendizaje mediante el principio de SRM es seleccionar una función fˆn, N que minimice
el riesgo empírico R emp en H n , y para el cual el riesgo esperado sea mínimo, es decir:
fˆn , N  arg min Remp ( f N )
f H n
(2.18)
En lugar de minimizar el riesgo esperado utilizando la función f 0 en el espacio objetivo T , la función
fˆn, N es obtenida minimizando el riesgo empírico sobre el más pequeño conjunto de H n .
Debido a que el objetivo en el modelado, es elegir una función f n en el espacio de las hipótesis que este
más cercano a la función subyacente f 0 que se encuentra en el espacio objetivo, con respecto a alguna
medida de error, siempre existirá un error de generalización e gen que es expresado como:
egen  eapr  eest
(2.19)
Donde eapr es el error de aproximación y eest es el error de estimación. Una representación gráfica del
error se puede apreciar en la Figura 2.10.
69
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
subajuste sobreajuste
Cota sobre el riesgo
mejor
modelo
Riesgo
(Error)
Intervalo de
confianza
Riesgo Empírico
(error de entrenamiento)
h*
egen. Error de f 0
generalización
f n,N
eest.
fn
eapr. Error de
aproximación
Error de
estimación
Espacio
Objetivo
U
H n ... H
U
..... H n-1
U
H2
U
U
H1
h˜ n,
capacidad
(complejidad)
T
Espacio de las Hipótesis
Figura 2.10 Estructura anidada de las hipótesis; diferentes errores durante el modelado; cota sobre el riesgo
esperado y complejidad de un modelo según el principio de SRM
El error de aproximación es la consecuencia de que el espacio de la hipótesis sea más pequeño que el
espacio objetivo y de que la función subyacente pueda estar fuera del espacio de las hipótesis, una mala
selección del espacio del modelo H n resultará en un error de aproximación grande. Este error no
depende de los datos de entrenamiento sino únicamente del poder de aproximación de la hipótesis
H n , y es expresado como:
eapr  R( f n )  R( f 0 )
(2.20)
El error de estimación proviene de minimizar el riesgo empírico R emp utilizando un finito y disperso
conjunto de datos de entrenamiento y de tal aprendizaje resulta el mejor aproximador fˆn, N , que hará
que el riesgo empírico mejore si el número de datos N de entrenamiento aumenta, convergiendo al
mínimo del riesgo esperado R. Este es un error debido al procedimiento de aprendizaje al seleccionar el
modelo no óptimo desde el espacio de hipótesis y puede ser expresado como:
eest  | Remp ( f )  R( f ) |
70
(2.21)
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
De (2.20) y (2.21) se deduce que la selección del modelo óptimo en función de su capacidad, asegura la
minimización del riesgo esperado91.
Varias medidas del principio de ERM pueden ser implementadas por el principio SRM como son: el error
de generalización R(w n ) , el error de aproximación Remp(wn ) , la dimensión VC h , el número de
muestras del conjunto de entrenamiento N y la probabilidad o nivel de confianza 1  . Los pesos w n
que definen a los diferentes riesgos son calculados sobre un conjunto de funciones f n (x, w n ) de
complejidad creciente. Para la clasificación binaria, seleccionando  tal que 0    1 , para una
probabilidad de al menos 1   , la siguiente cota existe para el riesgo esperado:
R ( w n )  Remp ( w n ) 
hln ( 2 N / h)  1)  ln( / 4) 
N
(2.22)
La representación gráfica de esta cota se muestra en la Figura 2.10. El lado derecho de la desigualdad
(2.22) define la cota sobre el riesgo, el primer sumando depende de una función específica del conjunto
de funciones, mientras el segundo término llamado Intervalo de Confianza depende de la dimensión VC
de todo el conjunto de funciones y es un término que disminuye en función del tamaño N del conjunto
de entrenamiento y aumenta en función de los parámetros libres de la función de aproximación. Para
poder minimizar la cota del riesgo, ambos términos tienen que hacer de la dimensión VC una variable de
control.
La complejidad del modelo es muy crucial en el aprendizaje a partir de los datos de entrenamiento. Un
modelo muy simple ( n muy pequeño) tiene poco poder de representación, es decir pocos parámetros
de ajuste y resulta en un error de aproximación (bias) alto, pero presenta un bajo error de estimación
(varianza) porque son insensibles a los datos usados. Un modelo más complejo ( n muy grande) en
cambio resulta en un bajo error de aproximación porque existen más parámetros que pueden ser
ajustados, modelando muy bien sobre los datos de entrenamiento, caso que también debe evitarse
debido a que se genera un sobreajuste haciendo que el error de estimación sea muy alto.
Con los conceptos de complejidad y error mencionados, para minimizar el riesgo esperado hay un
compromiso en elegir entre n y N . Determinar n será siempre más deseable ya que éste define la
complejidad del modelo óptimo que se iguala a la complejidad de los datos de entrenamiento dados, un
ejemplo de complejidad de modelos se puede ver en la Figura 2.1.
71
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
2.8 GENERALIDADES DE LA CLASIFICACIÓN DE PATRONES
La clasificación de patrones92 (o formas) llamado también reconocimiento de patrones, es una disciplina
orientada a la transformación de datos de un conjunto de procesos en entidades con significado,
capaces de desencadenar en acciones y en tomas de decisión en forma automática. Se utiliza
herramientas de estadística, geometría computacional y algoritmos matemáticos con el fin de extraer
información a partir de datos de percepción suministrada por un sistema de sensores que adquieren la
información del entorno y establecer propiedades comunes, dependencias o regularidades de entre
conjuntos de dichos datos para ser definidos en clases o categorías. A continuación se definen los
conceptos de algunos términos utilizados en la clasificación de patrones:
Un patrón es cualquier objeto, forma, elemento, proceso o procedimiento físico, químico, industrial, etc.
que está formada por un conjunto de atributos cuantitativos de entidades o hechos del mundo real.
Una clase de patrones es un conjunto de formas que poseen cualidades o atributos semejantes y que se
encuentran asociados a alguna categoría semántica.
Un atributo es una variable usualmente numérica que caracteriza a un objeto y que puede ser cualquier
medida experimental o valor calculado teóricamente que describe la estructura de un patrón,
generalmente un atributo es llamado características, por ahora solamente se hace referencia al término
atributo para evitar confusión con el llamado espacio de características que se verá más adelante.
Una etiqueta es una interpretación, tag o puntero asignado a una entidad con el fin de vincularla a
alguna otra entidad.
Un clasificador se utiliza para hacer referencia a la función discriminante, que es el resultado de un
proceso de entrenamiento y que genera la división de un espacio para asignar un patrón no etiquetado
en una clase o categoría concreta conocida.
Un conjunto de prueba, es un conjunto de muestras con etiquetas de la clase a la que pertenecen
utilizados para la evaluación del rendimiento de un modelo clasificador que ha sido modelado durante la
fase de entrenamiento.
Un conjunto de entrenamiento, es un conjunto de muestras utilizado para el aprendizaje y optimización
de un modelo clasificador.
72
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
El reconocimiento de patrones centra sus estudios en diversas disciplinas de la ciencia y la ingeniería, en
la Tabla 2.1 se encuentran algunas aplicaciones basados en el reconocimiento de patrones.
Campo o ámbito
Aplicaciones
Patrones de entrada
Clases de patrones
Bioinformática
Análisis de secuencias
ADN, Genoma,
Espectrometría de masa,
Estructuras proteicas
Tipo de genes y estructuras
biológicas.
Biomedicina
Diagnóstico computarizado
de enfermedades.
Imágenes microscópicas,
rayos x, biorritmos,
exámenes médicos.
Identificación de
enfermedades (benigno,
maligno).
Análisis de Imágenes
Lectura para ciegos.
Reconocimiento óptico de
caracteres y formas.
Imágenes, códigos, firmas,
escritos a mano o a
máquina.
Palabras, caracteres
alfanuméricos, símbolos.
Clasificación de
Documentos
Filtración de spam.
Búsqueda en internet.
Correos, documentos de
texto.
Spam o no spam.
Categorías semánticas.
Recuperación de Datos
Multimedia
Búsqueda en internet.
Video clips, letras de
canciones.
Géneros de video,
canciones.
Reconocimiento Biométrico
Identificación personal.
Forma del rostro, iris del
ojo, huellas dactilares.
Autorización de usuarios
como accesos de control.
Reconocimiento de voz
Consulta de guía telefónica
asistida.
Forma de onda sonora de
de la voz.
Palabras habladas.
Procesamiento de lenguaje
natural
Extracción de información.
Frases, oraciones.
Idioma, palabras, dialecto.
Minería de datos
Búsqueda de patrones
significativos.
Vectores en un espacio
multidimensional.
Agrupaciones de acuerdo a
características.
Automatización Industrial
Inspección de procesos de
fabricación.
Rangos de imágenes,
duración.
Productos con defectos o
sin defectos.
Campo militar
Reconocimiento
automático del objetivo.
Imágenes ópticas o
infrarrojas.
Tipo de objetivo.
Tendencias y predicciones
Finanzas, clima, mercado,
desarrollo.
Base de Datos históricos.
Datos a priori.
Indicadores de evolución.
93
Tabla 2.1 Aplicaciones del reconocimiento de patrones en diferentes disciplinas .
En un sistema de reconocimiento de patrones existen dos líneas de procesos en interacción92, como se
muestra en la Figura 2.11:
1) La fase de entrenamiento o aprendizaje automático en donde una vez seleccionados el conjunto de
datos de entrenamiento y pre-procesada la información, se extraen los atributos y características
apropiados para representar los datos de entrada y luego el clasificador es entrenado para dividir el
espacio de características, el resultado del entrenamiento es un conjunto de parámetros llamados pesos
w que definen a un clasificador o función discriminante que representa la frontera entre clases o
regiones categóricas. Las fronteras pueden ser puntos, curvas, superficies e hipersuperficies en el caso
73
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
de que la dimensión de las características de los patrones de entrada sean de una, dos, tres, más
dimensiones, respectivamente.
2) En la fase de prueba o de reconocimiento, el modelo del clasificador que ha sido entrenado, asigna a
los nuevos datos de entrada a una de las clases según la similitud de sus características.
Aprendizaje Automático
Adquisiscion
de datos del
entorno
físico-real
Muestras
patrón
Datos de
entrenamiento
Preprocesamiento
Selección /
extracción de
características
Máquina de
Aprendizaje
(modelo)
Muestra
incógnita
Datos de
prueba
Preprocesamiento
Medición de
características
Función de
decisión
"Clasificador"
Clase o
Categoría
Clasificación
Figura 2.11 Sistema de Reconocimiento de Patrones.
Cada proceso involucra esencialmente tres etapas: a) la adquisición de los datos ya sean estos
sensoriales o abstractos y su pre-procesamiento (escalado, filtrado, etc.), b) la representación de los
datos como vectores de característica o puntos en un espacio n-dimensional y c) la toma de decisión
para la categorización o clasificación de un patrón.
Los problemas radican en la selección del sensor que proporcionen la información adecuada, en la
técnica de cómo se pre-procesa la información y las distintas estructuras que se puede optar para
manipular dicha información así como la identificación de datos con medidas erróneas o valores atípicos
y su posterior normalización, en la estructura de los datos que debe contener la información más
relevante a través de sus característica más significativas y que en muchos casos pueden reducir su
dimensionalidad aprovechando herramientas matemáticas y de software lo que conlleva a un ahorro
computacional considerable y finalmente obtener un modelo clasificador que permita tomar decisiones
correctas cuando al sistema se le presente nuevos patrones.
En el reconocimiento de patrones cuando exista dificultades en la clasificación no se debe tratar de
resolver el problema con teorías o técnicas más complejas sino direccionar los esfuerzos en buscar y
obtener mejores características que definan mejor a los datos.
74
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
2.9 CLASIFICACIÓN DE PATRONES CON MÁQUINAS DE SOPORTE VECTORIAL
El reconocimiento de patrones implica el desarrollo y la aplicación de algoritmos que pueden reconocer
patrones incrustados en los datos. Las máquinas de soporte vectorial SVM, pertenecen a las familia de
clasificadores lineales y están dirigidas especialmente a la tarea de clasificación de dos clases. Son
modelos matemáticos con una poderosa capacidad de modelado, que implementan el principio
inductivo de minimización del riesgo estructural SRM desarrollado dentro de la nueva teoría de
aprendizaje estadístico de V. Vapnik, destinadas a resolver problemas de clasificación con una
distribución de probabilidad desconocida.
Las SVMs son máquina que aprende desde un conjunto de datos de entrenamiento e intenta generalizar
y hacer una correcta clasificación sobre nuevos datos. El conjunto de datos de entrenamiento son
medidas provenientes de problemas reales, generalmente son limitados, dispersos y de alta dimensión.
Las SVMs construyen separadores lineales o hiperplanos de separación94 en espacios de alta dimensión
durante el aprendizaje o fase de entrenamiento, adquiriendo el conocimiento necesario desde el
conjunto de datos de dos clases. Asumiendo que el conjunto de datos son linealmente separables, la
idea es seleccionar un hiperplano que equidiste de los datos de cada clases, es decir el hiperplano que se
encuentre en la posición más neutra entre ambas clases sin que este sesgado hacia la clase más
numerosa o lo que es lo mismo a seleccionar el hiperplano que maximice la distancia mínima entre las
dos clases, pero como puede existir un conjunto infinito de hiperplanos que logren separar
correctamente los ejemplos, se implementa un sesgo inductivo llamado margen máximo, que
enmarcado en el principio de minimización del riesgo estructural de la teoría de aprendizaje estadístico,
equivale a seleccionar el hiperplano de separación con máximo margen (margen geométrico), que es
una forma de minimizar la complejidad del conjunto de hiperplanos y a la vez contribuye a mejorar la
cota superior sobre el error de clasificación y por ende a tener una mejor generalización para separar a
los ejemplos que no participaron en el aprendizaje.
Desde el punto de vista logarítmico, las SVMs están planteadas como problemas de optimización
convexa que tiene una función objetivo cuadrático con restricciones lineales, que pueden ser tratados
con poderosas técnicas actuales de programación cuadrática QP que son muy eficientes al momento de
tratar conjunto de datos con muchos ejemplos. La convexidad del problema de optimización garantiza
que existirá un mínimo global, que representa una ventaja en comparación con otras máquinas que se
ven expuestas a la existencia de mínimos locales.
75
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
Para construir separadores no lineales, cuando el conjunto de entrenamiento tiene ejemplos que no son
separables linealmente, se consigue con una transformación no lineal de los atributos del espacio de
entrada en un espacio de características de alta dimensión, en donde los datos pueden ser separados
linealmente. Para esto se implementa una función kernel o función núcleo que calcula el producto punto
o producto escalar en el espacio de características sin calcular en forma explícita la transformación de
los datos del conjunto de entrenamiento.
Muchas veces, incluso en el espacio de características el conjunto de datos de entrenamiento no son
separables linealmente y en ocasiones tampoco se necesita que se puedan separar exactamente, esto
debido a que los datos son tomados de procesos o sistemas del entorno real y no están libres de
errores, además están embebidos de ruido, de datos mal etiquetados, de valores atípicos (outliers), de
atributos mal calculados, de incongruencias, entre otros. Lo que conduce a construir un modelo de SVM
que admita ciertos errores por las causas mencionadas y evitar que el hiperplano de separación los
tome en cuenta durante su construcción, esto se consigue con las SVMs de margen flexible que admiten
ejemplos mal clasificados. La función objetivo a minimizar tiene dos términos, uno representa el margen
geométrico y otro es un término de regularización que implementa un parámetro C que debe ser
optimizado por el usuario.
Encontrar la solución al hiperplano de separación con máximo margen equivale a encontrar los ejemplos
sobre los cuales se construye el hiperplano de separación, es decir encontrar los ejemplos de cada clase
más cercanos al hiperplano a los que se conoce como vectores soporte que dan el nombre a la máquina.
Con el fin de fijar la notación, se va a considerar que el problema de clasificación de dos clases está dado




por un conjunto de N datos {( x1 , y1 ), ( x 2 , y 2 ), . . . ( x N , y N )} . Donde cada dato es un par ( xi , yi )

conformado por xi  X   n e y i Y   para i  1 . . .N . El conjunto de N datos está compuesto por
muestras a los que arbitrariamente se les llama ejemplos o vectores y son representados con letras o


signos con una flecha sobre ellos (por ejemplo x i ). Cada elemento x i es un vector con n atributos en

el espacio de entrada n , es decir x i  ( x1 , x 2 , . . . , x n ) , donde cada xi  es un número real para

i  1, 2 , ..., n . Los elementos y i son etiquetas e indica la clase a la que pertenece x i , para la
clasificación binaria yi {1, 1} refiriéndonos a la clase 1 si un vector está etiquetada como "+1" o a la
clase 2 si el vector está etiquetada con "-1".
76
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
En adelante se abordarán temas relacionados a los hiperplanos como superficies de decisión, luego se
hará una descripción y formulación de las SVMs lineales de margen rígido que proporciona las bases
para modelos más complejos y robustos tanto para datos separables linealmente como para datos casi
separables linealmente; luego se introduce las funciones kernel como método de transformación del
espacio de entrada en un espacio de características, así como los kernel utilizado en las SVMs para luego
describir y formular las SVMs no lineales de margen flexible orientadas a resolver problemas complejos
de la vida real y finalmente se plantea un ejemplo para entender el funcionamiento de la máquina.
2.9.1 HIPERPLANOS COMO SUPERFICIE DE DECISIÓN
Un hiperplano95 es una superficie de decisión lineal que divide a un espacio n-dimensional n en dos
partes (Figura 2.12), al que se le puede implementar una regla de clasificación de dos clases, los
ejemplos que se encuentren a un lado del la superficie de decisión (objetos de color amarillo) son
clasificados como una clase y los que se encuentran en el otro lado (objetos de color verde) son
clasificados como la otra clase. En el espacio n-dimensional  n , la superficie de decisión es un
subespacio de dimensión n-1. Para un espacio de dimensión uno, dos, tres o más altas, la superficie de
decisión son puntos, curvas, superficies o hiperplanos, respectivamente. Como generalmente los datos
son vectores con muchos atributos, entonces la dimensión del espacio es n  3 y la superficie de decisión
es llamada hiperplano.
C lase 1
C lase 2
Figura 2.12 Izq. La superficie de decisión en
 2 es una recta; Der. La superficie de decisión en  3 es un plano.
Un hiperplano en forma matemática, para un espacio  3 está definido por un punto P 0 que pertenece

al hiperplano y un vector w ortogonal a dicho hiperplano. Figura 2.13.
77
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
Figura 2.13 Representación de un hiperplano.
Si P es un punto cualquiera sobre el hiperplano, O es el origen de las coordenadas y los vectores


x0  OP0 y x  OP representan a los puntos P0 y P respectivamente desde el origen, la condición para

 
que el punto P pertenezca al hiperplano es que el vector x  x 0 sea perpendicular a w. El producto



escalar o producto punto entre dos vectores perpendiculares es igual a cero w  ( x  x 0 )  0 ó lo que es
 
   
lo mismo w  x  w  x 0  0 , si se define al coeficiente b   w  x 0 entonces se obtiene la ecuación del
hiperplano que es válida para todo  n si n  3 .
 
w x  b  0
(2.23)
Cuando el valor de b cambia en la ecuación del hiperplano, el hiperplano se desplaza de forma paralela

a lo largo de la dirección de w dando lugar a hiperplanos paralelos como se observa en la Figura 2.14.
Figura 2.14 Hiperplanos paralelos.
78
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN


 
Considerando que un hiperplano está dado por la ecuación H ( x )  w  x  b , donde w   n es el vector

de pesos, x   n es la representación vectorial de los datos y b es el bias del umbral de decisión, se
puede plantear el producto escalar en el espacio  n , en donde un hiperplano puede ser escrito como:

 

{x   n | w  x  b  0}, w   n , b  
(2.24)
Donde el producto escalar de (2.24) está definido por:
  n
w  x   wi xi
(2.25)
i 1


Un hiperplano H ( x ) puede designarse como un par ( w, b) . Un conjunto de datos de entrenamiento

puede considerarse separable si existe al menos un hiperplano definido por ( w, b) que separe
correctamente a todos los datos, como se muestra en la Figura 2.15, en donde los ejemplos de la clase
 
"+1" se encuentran en el región definida por w x  b  0 y los ejemplos de la clase "-1" se encuentran
 
 
en la región definida por w x  b  0 y el hiperplano de separación está definido por w x  b  0 .
+1
w.xi + b = 0
-1
Clase "-1"
w.xi + b < 0
-1
-1
-1
-1
-1
-1
+1
H
+1
+1
+1
-1
+1
+1
+1
+1
-1
Clase "+1"
w.xi + b > 0
+1
-1
Figura 2.15 Hiperplano H que clasifica datos linealmente separables en las clases"+1" y "-1".

La pertenencia de un patrón x k a una clase u otra está dada por una regla de clasificación, tal que:
 1

clase ( xk )  
 1
si
si
 
w  xk  b  0
 
w  xk  b  0
(2.26)
79
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
Si se considera un conjunto de datos de entrenamiento linealmente separables, entonces existe un
número infinito de hiperplano que los puede separar de forma correcta a la clase a la que pertenecen y
aunque todos éstos hiperplanos clasificadores pueden separar los datos de aprendizaje correctamente
sus capacidades de predicción no son iguales. Por ejemplo en la Figura 2.16 el hiperplano (línea roja)
ubicado en la proximidad de la frontera de los ejemplos de la clase "+1" podría mal clasificar como "-1" a
todos los nuevos ejemplos que estén ubicados muy cerca al hiperplano pero en la región "-1" y de la
misma forma un hiperplano (línea azul) ubicado en la proximidad de la frontera de los ejemplos de la
clase "-1" podría mal clasificar a nuevos ejemplos "-1" ubicados muy cerca al hiperplano pero que se
encuentra en la región "+1".
+1
+1
-1
-1
-1
-1
+1
+1
-1
-1
-1
-1
+1
-1
+1
+1
+1
+1
+1
-1
Figura 2.16 Existe un infinito número de hiperplanos que pueden clasificar sin errores los datos de entrenamiento.
Entonces el objetivo se centra en hallar el hiperplano de separación o clasificador lineal que maximice la
distancia de separación "margen" entre los vectores más cercanos de cada clase con el hiperplano de
separación equidistando de las dos clases. El hiperplano con máximo margen se conoce como
hiperplano de separación óptimo HSO y está situado en la posición más neutra con respecto a las clases
representadas por el conjunto de datos, sin que éste se encuentre sesgado hacia la clase del conjunto de
ejemplos más numeroso.
La Figura 2.17 muestra un hiperplano HSO que separa los datos en dos clases y tiene la mayor distancia
o margen entre los ejemplos de cada clase más cercanos al hiperplano, dichos ejemplos son conocidos
como vectores de soporte (representados dentro de un círculo), cabe observar que sólo se considera
como vectores de soporte a los vectores que se encuentran en las fronteras del margen del hiperplano
de separación óptima.
80
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
HSO
+1
-1 -1
-1
-1 -1
-1
0
+1
+1
+1
margen
+1
+1
+1
-1
+1
-1
-1
Clase "-1"
vectores soporte
Clase "+1"
+1
-1
-1
Figura 2.17 Hiperplano de separación óptimo con margen amplio y vectores de soporte.
2.9.2 DISTANCIA DE UN HIPERPLANO AL ORIGEN


La distancia entre un vector x y un hiperplano H está definida por el par ( w, b) como96:
 
 
| w x  b|
d ( x ; w, b) 

|| w ||
(2.27)


 
Donde el término || w || ( w  w) es la norma euclidiana del vector w asociada al producto escalar en el
espacio  n .
Clase "+1"
w.xi + b > 0
w
Hiperplano
H= w.xi + b = 0
|b|
___
||w||
0
Clase "-1"
w.xi + b < 0
Figura 2.18 Distancia desde un hiperplano H al origen.
La distancia entre un hiperplano H y el origen de coordenadas como se muestra en la Figura 2.18, está
definida por:
d (0, H ) 
|b|

|| w ||
(2.28)
81
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
2.9.3 MARGEN MÁXIMO DE UN HIPERPLANO
El hiperplano de separación óptimo HSO está dado por el hiperplano con máximo margen. Dado la
representación de los ejemplos con sus respectivas etiquetas de clasificación, es necesario determinar el
 
hiperplano H de máxima separación descrito por la ecuación w x  b  0 representado por la línea
azul en la Figura 2.19, los dos hiperplanos H 1 y H 2 que pasan a través de los ejemplos localizados en la
frontera de las clases "-1" y "+1" respectivamente son hiperplanos paralelos al hiperplano H ,
representados como líneas punteadas los cuales son diferentes al hiperplano H solamente por el
coeficiente b . No existen ejemplos de entrenamiento entre los hiperplanos H 1 y H 2 .
Figura 2.19 Hiperplano de separación con margen máximo.

Asumiendo que el conjunto de datos de entrenamiento es linealmente separable, se puede reescalar w

y b a 1 de forma que la distancia de los vectores más cercanos al hiperplano de separación sea 1/ || w || ,

así al multiplicar w y b por una constante la distancia no varía. Los hiperplanos H 1 y H 2 tienen la
misma forma que H , es decir:
H1 :
 
w  x  b  1
ó
 
w  x  (b 1)  0
(2.29)
H2 :
 
w x  b  1
ó
 
w x  (b 1)  0
(2.30)
Con (2.29), la ecuación (2.28) determina la distancia desde el hiperplano H 1 al origen:
82
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
d (O , H 1 ) 
| b 1|

|| w ||
(2.31)
Y con (2.30) la distancia del hiperplano H 2 al origen es:
d (O, H 2 ) 
| b 1 |

|| w ||
(2.32)
El máximo margen del clasificador lineal (osea del hiperplano de separación óptimo) H , está dada por

la distancia entre los hiperplanos H 1 y H 2 , y es una función de la norma euclidiana w, así se tiene:
máx margen  d (O, H 1 )  d (O, H 2 ) 
| b  1 | | b 1 | b  1  b  1
2
 
   

|| w ||
|| w ||
|| w ||
|| w ||
(2.33)
 
Dado que el algoritmo de la SVM busca el hiperplano de separación w  x  b  0 con un máximo


margen, entonces se debe maximizar 2 / || w || o lo que equivale a minimizar || w || 2 / 2 . Sin embargo
maximizar o minimizar las fórmulas anteriores respectivamente no conduce a encontrar el hiperplano
de separación óptimo, debido a que debe cumplir ciertas restricciones para que el hiperplano resultante
pueda clasificar todos los ejemplos de forma correcta en las dos clases, dichas restricciones son:
 
w  xi  b  1
 
w  xi  b  1
si
yi  1
si
yi  1
(2.34)
Es decir (y como se puede apreciar en la Figura 2.19), todos los ejemplos que se encuentren en la región
debajo del hiperplano H 1 deben ser clasificados como negativos y todos los ejemplos que se
encuentran en la región sobre el hiperplano H 2 deben ser clasificados como positivos.
Matemáticamente, ambas restricciones (2.34) equivalen a:
 
y i ( w  x i  b)  1
para i  1,..., N .
(2.35)
De manera que la solución del hiperplano de separación óptimo equidistante a las dos clases, es el
hiperplano que maximiza su margen geométrico entre el conjunto de los ejemplos de entrenamiento y
el hiperplano, con la restricción de que el margen funcional de cada patrón sea mayor o igual a uno.
83
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
2.10 SVMS LINEALES
Las SVMs lineales son el modelo más sencillo e intuitivo y contiene muchas de las ideas fundamentales
sobre las que se basan las SVMs no lineales. Una de las condiciones de estas máquinas es que el
conjunto de datos de entrenamiento sea finito y linealmente separable en el espacio de entrada, es
decir que los datos no necesiten de ninguna transformación para que puedan ser clasificados
correctamente (sin errores) en dos clases, otra condición es que el hiperplano de separación óptima
tenga el máximo margen.
Para aplicar la clasificación de patrones a partir de la teoría de aprendizaje estadístico se debe:
1. Seleccionar un clasificador con el más pequeño riesgo empírico, es decir seleccionar el que
menor error comete durante la fase de entrenamiento.
2. Elegir el clasificador de un conjunto de clasificadores que tenga la dimensión VC más
pequeña (menor complejidad).
En los siguientes apartados se abordará el estudio de las SVMs lineales para los siguientes casos:
a. SVM lineales de margen rígido para datos linealmente separables.
b. SVM lineales de margen flexible para datos casi linealmente separables.
El término "margen rígido" (hard-margin) se emplea para indicar que todos los datos son linealmente
separables y que la clasificación se realiza correctamente sin permitir errores por un hiperplano de
separación con máximo margen. Los problemas reales traducidos en algún tipo de medida por lo general
son linealmente no separables debido a varios errores que pueden haberse cometido durante su
obtención, para lo cual más adelante se implementa el término "margen flexible" (soft-margin), el cual
proporciona una solución a datos que son casi separables linealmente debido a ruidos y valores atípicos.
Ambas formulaciones serán implementadas para el caso en donde el conjunto de datos de
entrenamiento no son linealmente separables en el espacio de entrada, para lo cual se implementa las
funciones kernel o funciones núcleo que transforma el espacio de entrada en un espacio de
características en donde los datos pueden ser separados linealmente por el hiperplano de separación
óptimo, que al igual que las anteriores SVMs tiene el margen máximo.
84
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
2.10.1 SVM LINEAL DE MARGEN RÍGIDO PARA DATOS LINEALMENTE SEPARABLES
Para el caso de datos que son linealmente separables, como ya se mencionó anteriormente el conjunto
de datos de entrenamiento debe ser finito y el hiperplano seleccionado debe ser el hiperplano de
 
separación óptima HSO w x  b  0 que tenga el máximo margen (Figura 2.20).
margen máximo
HSO
+1
-1
-1
-1
-1 -1
-1
w.x i+b > +1
+1
+1
+1
-1
-1
w.x i+b <-1
0
+1
+1
+1
-1
+1
+1
+1
-1
-1
w.x i+b = +1
w.x i+b = 0
w.x i+b = -1
Figura 2.20 Hiperplano de separación optimo para datos linealmente separables.
En la Sección 2.9.3 se establecieron las condiciones necesarias para determinar el hiperplano de
separación óptimo con el margen máximo. Según la Figura 2.20, dado un conjunto de N datos de
 



entrenamiento {( x1 , y1 ), ( x 2 , y 2 ), . . . ( x N , y N )} un hiperplano definido por la ecuación w x  b  0 es
 
 
construido durante el entrenamiento, los hiperplano w  x  b  1 y w  x  b  1 son paralelos al
 
hiperplano w x  b  0 y pasan por los ejemplos fronterizos (vectores que están dentro de un círculo)
de cada clase, la distancia entre éstos hiperplano fronterizos es el margen máximo (margen geométrico)

del hiperplano de separación óptima que necesita ser maximizado y que es igual a 2 / || w || o su

equivalente a minimizar || w || 2 / 2 , al que se necesita imponer restricciones para que clasifique
correctamente, tal restricción está dada por la expresión (2.35) (margen funcional). Usando la teoría de
optimización el problema se plantea mediante la formulación primal.
2.10.1.1 FORMULACIÓN PRIMAL
La formulación primal o formulación original para las SVMs lineales de margen rígido, indica que

encontrando los valores de w y b se minimiza el siguiente problema de optimización convexa:
85
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
 1 
Minimizar f ( x )  || w || 2
2
Función objetivo:
(2.36)
 
yi (w xi  b) 1 para i  1,..., N
Sujeto a la restricción:
(2.37)
La formulación primal es un problema de optimización convexa que consiste en minimizar una
función cuadrática bajo restricciones de desigualdad lineal, utilizando programación cuadrática
 
(QP), donde el hiperplano w  x  b  0 queda definido por los valores de los n atributos del vector

de pesos w que indican la importancia de cada una al encontrar el hiperplano solución.
Pero esta solución no es eficiente cuando el conjunto de datos de entrenamiento tiene un número de
atributos mucho más elevado que el número de ejemplos, lo que conlleva a tener un problema de

optimización muy costoso computacionalmente al tratar de encontrar los valores óptimo de w.
Actualmente los modelos de las SVMs lineales y no lineales resuelven el problema de optimización
utilizando la función de Lagrange, transformando la formulación primal en su formulación dual que
presenta algunas ventajas en el proceso de optimización.
Existen dos razones para cambiar el problema a una formulación de Lagrange:
-
La primera es que la restricción (2.37) será reemplazada por las restricciones de los propios
multiplicadores de Lagrange, que será mucho más fácil de manejar al involucrar a menos
variables para optimizar.
-
La segunda, que en esta reformulación, la solución se expresa como una combinación lineal de
los ejemplos de aprendizaje, es decir sólo aparecerán los ejemplos de entrenamiento en forma
de productos escalares, ésta es una propiedad fundamental que nos permitirá generalizar el
procedimiento para el caso de datos que no son separables linealmente.
2.10.1.2 FORMULACIÓN DUAL
Una manera de resolver el problema de minimización con restricción es aplicar la función Langraniana a
la función objetivo (2.36) sujeto a la restricción (2.37). Para que la restricción pueda ser introducida en la

función Langraniana debe ser de la forma g i ( x )  0 , entonces:
86
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
 
 
Dado que y i ( w  x i  b)  1 , se reescribe la desigualdad como 1  y i ( w  xi  b)  0 , de donde:

 
g i ( x )  1  yi (w  xi  b)  0
(2.38)
Aplicando los multiplicadores de Lagrange en la formulación primal del problema LP junto con la
restricción (2.38) se tiene:
maximizar
i
 
inf
L P ( w, b, A)

 N

 f ( x )   i g i ( x )
w ,b
i 1


 
1  2 N
|| w ||   i ( 1  y i ( w  x i  b))
2
i 1
(2.39)
N
  N
1   N
|| ( w  w)    i y i w  x i    i y i b    i
i 1
i 1
i 1
2
(2.40)

Donde A  (1 , 2 , . . ., N ) es el conjunto de multiplicadores de Lagrange con los que se "calibran" los
ejemplos de entrenamiento con  i  0 , para i  1, . . . , N . Ahora la función objetivo es la función
 
 
Langraniana en la formulación primal LP ( w,b, A) . Para hallar el punto de silla "saddle" de LP (w,b, A)

debe ser minimizada con respecto a las variables primales w, b y maximizar con respecto a las variables
duales  i , sujeto a la restricción  i  0 para i  1, . . . , N pero esto es equivalente a resolver el
problema dual de Wolfe (Fletcher, 1987), es decir, a maximizar la formulación primal LP con respecto a

la variable  i , sujeto a las restricciones de que el gradiente de LP con respecto a w, b debe ser igual a
cero y que  i  0 .
 
Dado que la restricción de las gradientes igual a cero no es lineal y la función objetivo LP (w,b, A) no es
cóncava, el problema dual de Wolfe es un problema de optimización no convexa y puede ser resuelto
utilizando las condiciones Karush-Kuhn-Tucker (KKT) como restricciones lineales:
a. Condiciones de gradiente:
 
LP ( w, b, A)
0

w
(2.41)
 
LP ( w, b, A)
0
b
(2.42)
87
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
 
LP ( w, b, A)
0

w
Aplicando (2.41) en (2.42) se tiene:
Del mismo modo aplicando (2.42) en (2.40) se tiene:
 N

w   i y i x i
(2.43)
 
N
L P ( w, b, A)
 0   i y i 0
b
i 1
(2.44)

i 1
b. Condiciones de Ortogonalidad:
 
 i [ y i ( w  x i  b)  1]  0
para
i  1, . . , N
(2.45)
c. Condición de Factibilidad Primal:
 
y i ( w  x i  b)  1  0
para
i  1, . . , N
(2.46)
d. Condición de Factibilidad Dual de no Negatividad:
i  0
para
i  1, . . , N
(2.47)
En este punto se puede hacer algunas aclaraciones97: si la restricción (2.37) es infringida en (2.39), es
 
 
decir cuando y i ( w  x i  b)  1 y la función LP (w,b, A) incrementa debido al aumento de los

 
correspondientes  i , entonces al mismo tiempo w y b deben cambiar para que LP (w,b, A) disminuya
para así cumplir con la condición de factibilidad (2.46).
 
De igual forma para que la condición de ortogonalidad (2.45) se cumpla y evitar que  i [ y i ( w  xi  b)  1]

llegue a ser un valor negativo muy alto w y b deberán variar asegurando la separabilidad y satisfaciendo
la restricción.
Cuando la condición (2.46) de factibilidad primal se cumple como una desigualdad, es decir cuando
 
 
y i ( w  xi  b)  1  0 entonces  i  0 ; pero si y i ( w  xi  b)  1  0 entonces  i  0 y corresponde a los
 
valores que maximizan la función LP (w,b, A) .
 
Resolver la formulación primal LP (w,b, A) equivale a encontrar una solución a las condiciones de KKT,

formulando el problema dual de Wolfe que consiste en maximizar W D ( A) en función de los
multiplicadores  i . Reemplazando (2.43) y (2.44) en (2.40) se tiene:
88
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
Función objetivo:
 1N
N N
N
 N

 
Maximizar W D ( A)   i y i x i   j y j x j    i  j y i y j x i  x j   i
2 i 1
j 1
i 1 j 1
i 1
N
  i 
i 1
Sujeto a las restricciones:
i  0
N
 
1 N
 i j y i y j ( xi  x j )
2 i , j 1
y   i y i  0
i 1
para i  1, . . . , N
(2.48)
(2.49)
La solución de maximizar la función objetivo (2.48) sujeto a las restricciones (2.49) de la formulación
dual también es un problema de optimización convexa pero con N variables para  i , i  1, . . . N , donde

N es el número de muestras del conjunto de entrenamiento. Los  i definirán el vector de pesos w y
el umbral b para ello se requiere de la aplicación de programación cuadrática (QP) y el algoritmo más
utilizado para las SVMs es el de optimización mínima secuencial SMO propuesta por (Platt, 1999).
Hay que tener en cuenta que las funciones Langranianas LP y W D provienen de la misma función


objetivo (2.36) pero con diferentes restricciones y la solución está dada por minimizar LP ( w,b, A) o

maximizar WD (A) , así la función objetivo tendrá el mismo valor en ambos casos. Según la formulación

dual no es necesario acceder a los datos originales de cada ejemplo xi , sino que solamente se requiere
el producto escalar entre pares de los ejemplos de entrada, esto conlleva a un ahorro computacional
cuando el número de características es mucho mayor que el número de ejemplos.
2.10.1.3 VECTORES SOPORTE
Al plantear la función Langraniana (2.39), se introdujo los multiplicadores de Lagrange  i a cada
ejemplo del conjunto de entrenamiento a través de la restricción (2.38). Los elementos del vector

A0  (10 , 20 , . . . N0 ) son los multiplicadores de Lagrange que pertenecen a un subconjunto de ejemplos

de entrenamiento, de donde si  i0  0 entonces los ejemplos xi están exactamente sobre el hiperplano
 
 
w  x i  b  1 o w  x i  b  1 (Figura 2.17), es decir solo si se cumple que el margen funcional sea igual
 
a uno y i ( w  x i  b)  1 , éstos ejemplos son llamados vectores soporte (SV) y el número de vectores
soporte se representan como N SV .
89
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.

Por otro lado, los ejemplos de entrenamiento xi donde  i0  0 no son importantes para obtener el
hiperplano y tienen un margen funcional mayor a uno y pueden ser removidos sin que causen efecto
alguno a la solución. Por tanto se puede decir que cualquier modelo de SVM está definido por el
conjunto de vectores de soporte y sus correspondientes multiplicadores de Lagrange.
2.10.1.4 HIPERPLANO DE SEPARACIÓN ÓPTIMO
Hallados los vectores de soporte y sus respectivos multiplicadores  i0 , se puede calcular el vector pesos

 
w, que define el hiperplano de separación óptimo HSO con máximo margen w  xi  b  0 (ver la Figura

2.20), y se obtiene utilizando la ecuación (2.43), lo que indica que w* se puede expresar como una
combinación lineal de los N SV en términos de  i0 :

 NSV
w*    i0 yi xi
(2.50)
i 1
El umbral b * del hiperplano de separación óptimo se calcula considerando la condición KKT (2.45),

sustituyendo con el vector w* (2.50) y tomando dos ejemplos arbitrarios con diferentes etiquetas de
 
clasificación xi y x j con  i0 y  0j positivos respectivamente:
Para la etiqueta yi  1 :
 
y i (w  xi  b)  1
 
 w  xi  b  1
Para la etiqueta yi  1 :
 
y i (w  xi  b)  1
(2.51)
 
  (w  xi  b)  1
(2.52)
 
1  
b*   ( w *  x j  w *  x i )
2
(2.53)
Igualando (2.51) y (2.52) se tiene:
 
 
w  x i  b  ( w  x j  b)
Lo que es igual a:
b*  

   
1 N SV
 k y k ( x k  x j  x k  x i )
2 k 1

(2.54)
Se debe tener en cuenta que mientras que w * se determina de manera explícita por el procedimiento
de entrenamiento, el umbral b * no, éste se determina de forma implícita.
90
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
Por tanto, la formulación del hiperplano de separación óptimo es:
N SV
 
 
HSO  f ( x , A 0 , b*)    i0 y i ( xi  x k )  b *
i 1
(2.55)
2.10.1.5 CLASIFICACIÓN DE NUEVOS DATOS
Para clasificar nuevos ejemplos aún no vistos por la SVM, osea el conjunto de datos de prueba,

utilizando w * y b * obtenidos durante la fase de entrenamiento se emplea la función sign, que es igual
a +1 si su argumento es positivo y -1 si su argumento es negativo.

Formulación primal: Para clasificar un ejemplo x k en la formulación primal, está dado por el vector de

pesos w y b encontrados por el algoritmo de aprendizaje empleado.

 
f ( x k )  sign ( w  x k  b)
(2.56)

Formulación dual: Si se utiliza la formulación dual para la clasificación de nuevos ejemplos x k , se debe
tener en cuenta que los ejemplos que no son vectores de soporte, es decir los que tienen  i  0 , no
influyen en la clasificación del nuevo ejemplo.
Después del entrenamiento y luego de haber obtenido el hiperplano de separación óptimo con margen
máximo, se puede predecir la clase de pertenencia de un nuevo ejemplo diferente a los usados en el

entrenamiento, así la clase a la que pertenece el nuevo ejemplo x k está determinada por (2.26), y
 
dependerá del signo de la expresión w *  x k  b * .
La ecuación (2.55) ofrece la posibilidad de predecir la clase a la que pertenece el nuevo ejemplo
solamente utilizando los vectores soporte con sus correspondientes multiplicadores de Lagrange:

 
 N SV

f ( xk )  sign    i0 yi ( xi  xk )  b *
 i 1

(2.57)

La ecuación (2.57) presenta una importante ventaja y es que para clasificar el nuevo patrón x k

solamente es necesario calcular el producto escalar entre x k y cada vector soporte, lo que significa un
91
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
ahorro en el tiempo de cálculo computacional, tomando en cuenta que el número de vectores de
soporte es pequeño comparado con el número de ejemplos del conjunto de entrenamiento N.
La solución anterior solo se verifica para datos que son linealmente separables desde el espacio de las
entradas pero la ecuación (2.57) puede ser fácilmente adaptable a datos que no son linealmente
separables y que deben ser ligeramente modificadas con nuevas variables  , que miden la cantidad en
la cual las restricciones son violadas al permitir errores causados por ejemplos con valores atípicos o mal
etiquetados, lo que da origen a una nueva formulación de SVM de margen flexible.
2.10.2 SVM LINEAL DE MARGEN FLEXIBLE PARA DATOS LINEALMENTE NO
SEPARABLES
La separación lineal no es una suposición válida para problemas de aplicación de la vida real, en estos
casos el algoritmo anterior no encuentra una solución satisfactoria. Con el fin de permitir cierta
flexibilidad, cuando los datos son linealmente separables pero existen mediciones erróneas, ejemplos
mal etiquetados o valores atípicos (Figura 2.21). Se introduce una formulación avanzada a la SVM
anteriormente expuesta que permita manipular dichos casos sin cambiar la familia de funciones de
decisión, buscando un hiperplano que separe el conjunto de entrenamiento con el error más pequeño
manejando un parámetro C que controla la compensación entre errores de entrenamiento y los
márgenes rígidos, creando así un margen flexible que permita algunos errores en la clasificación a la vez
que los penaliza.
margen máximo
HSO
+1
+1
-1 -1
-1
-1
0
+1
"outlier"
+1
-1
"outlier"
-1
+1
"noise"
-1
-1 -1
-1
+1
+1
+1
+1
+1
+1
+1
-1
-1
Figura 2.21 Representación de datos que son no separables debido a mediciones erróneas "noise" o valores
atípicos "outliers" o ejemplos mal etiquetados.
92
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN



Dado un conjunto de N ejemplos {( x1 , y1 ), ( x 2 , y 2 ), . . . ( x N , y N )} . Donde cada ejemplo es un par


( xi , yi ) conformado por el vector xi  X   n y la etiqueta y i Y   para i  1 . . .N representados
como se muestra en la Figura 2.22, los datos pueden ser separados linealmente, excepto para un
pequeño número de ejemplos, entonces dado que los datos son no linealmente separables, no existe un
hiperplano que separe en dos clases el conjunto de entrenamiento sin errores, las ecuaciones (2.36) y
(2.37) no proporcionará una solución viable.
En las secciones anteriores se determinó que el hiperplano de separación óptima está definido por el

par ( w , b ) que es un frontera entre las dos clases de datos "+1" y "-1" y que tiene el margen máximo. La
 
frontera hacia la clase "+1" está definida por el hiperplano w x  b  1 mientras que la frontera hacia
 
la clase "-1" está definido por el hiperplano w x  b  1 , para el hiperplano de separación óptimo todos
 
 
los datos de la clase "+1" satisfacen w x  b  1 y para los datos de la clase "-1" satisface w x  b  1 y el
conjunto de entrenamiento de aprendizaje es clasificado sin errores. Para obtener un clasificador
óptimo para datos no separables la máquina de soporte vectorial asigna a cada ejemplo una variable no
negativa i  0, i  1, . . . , N llamada "variable de holgura" para los ejemplos mal clasificados como se
puede observar en la Figura 2.22.
Figura 2.22 Hiperplano para datos que son ligeramente no separables y variable de holgura
i .

Para un ejemplo ( xi , yi ) que pertenezca a la clase "+1", la variable de holgura  i está definida como la
 
distancia (escalado por la mitad del tamaño del margen) desde el ejemplo al hiperplano w x  b  1 si

el patrón xi es positivo y no se encuentra en la región que le corresponde a su clase, caso contrario si el
ejemplo fue clasificado correctamente y se encuentra en su región correspondiente  i  0 , es decir:
93
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
 
 1 (w  xi  b)

 i (w,b)  
0
 
w  xi  b  1
 
si w  xi  b  1
si
(2.58)

De igual forma para un ejemplo ( xi , yi ) de la clase "-1", la variable de holgura está definida como la
 
distancia (escalado por la mitad del tamaño del margen) desde el ejemplo al hiperplano w x  b  1 si

el ejemplo xi es negativo y no se encuentra en la región que le corresponde a su clase, caso contrario si
el ejemplo es clasificado correctamente y se encuentra en su región correspondiente i  0 , así:
 
 1 (w xi  b)

i (w,b)  
0
 
w xi  b  1
 
si w xi  b  1
si
(2.59)

De las ecuaciones (2.58) y (2.59) y de la Figura 2.22 se observa que la variable de holgura  i ( w, b) es
 
igual a cero para todos los ejemplos "+1" clasificados correctamente por el hiperplano w  x i  b   1 y
 
para todos los ejemplos "-1" clasificados correctamente por el hiperplano w  x i  b   1 . Por otro lado la


variable de holgura  i ( w, b) tiene una distancia positiva que mide la distancia entre un ejemplo xi y el
 
correspondiente hiperplano w xi  b  yi . Para los ejemplos de la clase "+1" situados en la región
comprendida entre los hiperplanos H y H 1 , y para los ejemplos de la clase "-1" situados en la región
comprendida entre los hiperplanos H y H 2 , la variable de holgura toma valores entre 0 y 1 y no son
considerados como mal clasificados pero tiene una penalización añadida a la función objetivo.

Si algún ejemplo xi está localizado en una región de la clase que no le corresponde como los ejemplos

encerrados en un cuadrado en la Figura 2.22, entonces la variable de holgura es mayor a uno  i ( w, b)  1
y el ejemplo es considerado como clasificado erróneamente, combinando las ecuaciones (2.58) y (2.59)
para la variable de holgura de las dos clases de ejemplos, se tiene:
 
 1 yi (w xi  b)

i (w,b)  
0
 
yi (w xi  b)  1
 
si yi (w xi  b)  1
si
(2.60)
Cuando las variable de holgura son introducidas para cada ejemplo para penalizar aquellos ejemplos que
son mal clasificados o son ejemplos que están situados en las zonas comprendidas entre el hiperplano
H y los hiperplanos paralelos H 1 y H 2 las restricciones que se imponen a la función objetivo son las
siguientes:
94
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
 
w xi  b  1i
 
w xi  b  1 i
si
yi  1
si
yi  1
donde i  0, i  1, . . ., N
(2.61)
Matemáticamente, ambas restricciones de (2.61) equivalen a:
 
yi (w  xi  b)  1  i
(2.62)
Con la formulación de la ecuación (2.62), la labor de encontrar el hiperplano de separación óptimo es
mucho más difícil porque el clasificador está comprometido a dos condiciones opuestas. La primera
condición es que el mejor hiperplano clasificador con el margen más amplio posible garantice un buen
rendimiento en la predicción de nuevos ejemplos que se obtiene con la minimización de la función
objetivo (2.36). La segunda condición es que el hiperplano se separación optimo debe minimizar el
número de errores de clasificación y por tanto minimizar el error de clasificación de los ejemplos que se
traduce en minimizar el número de variables de holgura positiva y a la vez minimizar el valor de cada
variable de holgura.
La segunda condición tiene la tendencia de disminuir el ancho del margen del hiperplano óptimo de
clasificación que es una contradicción a la primera condición.
Una manera sencilla de combinar estas dos condiciones y asignar una penalización a los errores de
clasificación es cambiar la función objetivo (2.36) a ser minimizada introduciendo un término de
regularización que depende de las variables de holgura y que establece un compromiso entre el margen
y la magnitud de las mismas, así:

f (x) 
1  2
|| w ||
2


maximizar el margen
k

N 
C   i 
1 
 i


(2.63)
minimizar error de entrenamie nto
Cabe notar que las SVM están enmarcadas en el principio SRM, que indica que cota superior de
generalización está dada por dos términos como en (2.36), el término que minimiza el error empírico o
error de entrenamiento y el término de complejidad o dimensión VC que en este caso está sujeto al
máximo margen del hiperplano, el mismo que representa que posee la mejor capacidad de separación y
la solución se establece en controlar ambos términos simultáneamente, en este caso por medio de C .
95
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
2.10.2.1 PARÁMETRO C
El término de regularización incluye una constante C que es un parámetro que puede ser ajustado por
el usuario y determina la holgura del margen flexible aumentando o disminuyendo la penalización para
los errores de clasificación.
margen máximo
margen máximo
HSO
+1
+1
-1 -1
-1
-1
-1
+1
-1 -1
-1
0
+1
+1
+1
-1
HSO
+1
"noise"
+1
+1
+1
-1 -1
-1
+1
-1
-1
0
+1
-1
+1
"noise"
-1
-1 -1
-1
-1
a
+1
+1
+1
+1
+1
+1
+1
+1
+1
-1
-1
b
Figura 2.23 Influencia del parámetro C: a) con valor C grande b) con valor de C muy pequeño.
-
Cuando C tiene un valor grande (Figura 2.23a) para cada i diferente de cero, tiene una gran
contribución en la función (2.63) y se asigna una penalidad muy alta a la clasificación de errores
minimizando así el número de ejemplos de entrenamiento mal clasificados a la vez que
disminuye el margen siendo equivalente a una SVM de margen rígido.
-
Si C toma un valor pequeño (Figura 2.23b) para cada i diferente de cero, tiene una muy
pequeña contribución a la función (2.63) y maximiza el margen de modo que el hiperplano de
separación óptimo es menos sensible a los errores del conjunto de aprendizaje y puede que

haya demasiados datos de entrenamiento mal clasificados además que el vector de pesos w
adquiere una norma muy pequeña.
En general el parámetro C tiene que ser seleccionado para el conjunto de datos y manipulado por el
usuario u optimizado por medio de alguna estrategia automática de selección.
Es obvio que utilizando un valor muy grande de C equivale a tener una SVM de margen rígido,
resultando en un buen hiperplano, sin embargo este no es el caso común, por lo que usando una SVM
de margen flexible y optimizando el valor de C es más beneficioso.
96
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
La ecuación (2.63) es un problema de programación convexa y tanto para k  1 o k  2 siguen siendo un
problema de programación cuadrática, con k  1 tiene la ventaja que ninguna variable de holgura  i y
sus multiplicadores de Lagrange no aparecen en la formulación del problema dual de Wolfe.
Con estas consideraciones se establece la formulación primal para un clasificador lineal y errores de
clasificación.
2.10.2.2 FORMULACIÓN PRIMAL
La formulación primal para las SVM lineales de margen flexible, está dada en la siguiente expresión:
Función objetivo:
Sujeto a las restricciones:
N
 1 
Minimizar f ( x )  || w || 2 C   i
2
i 1
 
 yi (w  x  b)  1   i

 i  0
(2.64)
para i  1,..., N
(2.65)
Con C  0 , es parámetro definido por el usuario.
 

La restricción y i ( w  x  b)  1   i significa que cada ejemplo xi es clasificado correctamente o
clasificado incorrectamente pero que se encuentra dentro de la distancia
separación, es decir su error de clasificación se encuentra limitado por
i desde el hiperplano de
i que es mayor a cero.
El problema de optimización de la formulación primal para un clasificador de margen flexible

requiere encontrar los valores de n variables del vector de pesos w y de N variables de holgura
i
 
que definan el hiperplano w  x  b  0 , que puede ser muy costoso computacionalmente si el
conjunto de datos de entrenamiento tiene un gran número de características.
Como en el caso del algoritmo de la SVM lineal de margen rígido, se puede replantear la formulación
primal de la SVM lineal de margen flexible a su formulación dual de Lagrange, matemáticamente
equivalente, pero que presenta menos variables a optimizar.
97
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
2.10.2.3 FORMACIÓN DUAL
Para resolver el problema de optimización cuadrática restringida de la formulación primal, se aplica la

función Langraniana Lp , definiendo los multiplicadores de Lagrange A  (1 , 2 , . . ., N ) para cada

 
restricción y i ( w  x  b)  1   i y los multiplicadores de Lagrange M  ( 1 ,  2 , . . .,  N ) para cada
restricción  i  0 para i  1, . . . , N . Las restricciones (2.65) para poder ser introducidas en la función


Langraniana tienen que ser de la forma g i ( x )  0 y hi ( x )  0 , cambiando la notación se tiene:

 
g i ( x )  1   i  y i ( w  x  b)  0
(2.66)

hi ( x )   i  0
(2.67)
Teniendo en cuenta esta notación y aplicando la función primal Langraniana a la función objetivo (2.64)
y las restricciones (2.66) y (2.67) se tiene:
maximizar
 i , i
 N
 N

  
inf
L
(
w
,
b
,
A
,
M
)

f
(
x
)


g
(
x
)    i hi ( x )

P
i
i

w ,b
i 1
i 1

N
N
N
 
1  2
|| w ||  C   i    i [1   i  y i ( w  x  b )]    i (  i )
i 1
i 1
i 1
2
(2.68)

N
N
N
N
N
N
 
1  2
|| w ||  C   i    i y i ( w  x i )    i y i b    i    i  i    i  i
i 1
i 1
i 1
i 1
i 1
i 1
2
(2.69)
Para encontrar el límite inferior del problema de minimización primal, al igual que en las SVM lineales de
margen rígido, se resuelve el problema dual de Wolfe maximizando la formulación primal LP y
utilizando las condiciones Karush-Kuhn-Tucker (KKT) como restricciones lineales:
a. Condiciones de gradiente:
  
LP ( w, b, A, M )
0

w
  
LP ( w, b, A, M )
0
b
Aplicando las derivadas parciales (2.70) en (2.69) se tiene:
98
  
 L P ( w , b , A, M )
0
 i
(2.70)
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
  
LP ( w, b, A, M )
0

w

 N

w   i y i x i
(2.71)
i 1
  
N
LP ( w, b, A, M )
 0   i y i  0
b
i 1
(2.72)
 

N
N
 L P ( w , b , A, M )
 0  C   i    i  0  C   i   i  0
 i
i 1
i 1
(2.73)
b. Condiciones de Ortogonalidad:
 
 i [ y i ( w  x i  b)  1   i ]  0
para
i  1, . . , N
(2.74)
i  1, . . , N
(2.75)
c. Condición de Factibilidad Primal:
 
yi (w  xi  b) 1   i  0
para
d. Condición de Factibilidad Dual de no Negatividad:
i  0
i  0
i  0
i  i  0
para
(2.76)
i  1, . . , N
Reemplazando las condiciones de gradiente KKT (2.70), se tiene la formulación dual de Wolfe que

equivale a encontrar los multiplicadores  i que maximicen L D ( A) .
Función objetivo:

1N
2 i 1

N

N
N N
i 1
i 1 j 1
 
N
N
N
i 1
i 1
i 1
Maximizar LD ( A)   i yi xi   j y j x j  C  i    i j yi y j xi  x j   i   i  i    i  i
j 1
N
  N
1N N
  i    i j yi y j xi  x j   i (C   i   i )
2 i 1 j 1
i 1
i 1
N
  i 
i 1
 
1 N
 i j yi y j ( xi  x j )
2 i , j 1
(2.77)
99
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
Sujeto a las restricciones:
0 i  C
y
N
 i y i  0
i 1
para i  1, . . . , N
(2.78)
Se observa que la función dual de la SVM de margen flexible es idéntica a la función dual de la SVM de

margen rígido, solamente difiere en el valor de las restricciones. El vector peso w* se obtiene de la
misma forma que en la SVM lineal de margen flexible, utilizando la ecuación (2.71).
El umbral b * es obtenido como en la ecuación (2.54) pero solamente con los ejemplos de
entrenamiento arbitrarios de las dos clases que tienen los multiplicadores de Lagrange comprendidos en
el intervalo: 0   i  C que son los que representan los vectores soporte, la deducción b * de proviene
de las condiciones de KKT, de la ecuación (2.74) y reemplazando el multiplicador  i de la ecuación
(2.73) en la cuarta condición de (2.76), obteniendo:
 
 i [ yi (w  xi  b) 1   i ]  0 ;
(C   i ) i  0
(2.79)
De las ecuaciones anteriores se tiene que la variable de holgura  i  0 sí  i  C , es decir b * será
promediada solamente utilizando aquellos ejemplos que tiene variable de holgura igual a cero y caen
sobre los hiperplanos de separación.

Analizando la relación que existe entre la posición de un ejemplo xi y los correspondientes valores  i ,
i y C de distinguen las siguientes situaciones9.
1.
( i  0;  i  0) : Cuando los multiplicadores de Lagrange  i  0 , los ejemplos de
entrenamiento se encuentran en las regiones que le corresponde a su clase y ninguno de ellos
son vectores soporte y no son importantes para definir el modelo de la SVM, no influyen en la
solución y pueden ser borrados del aprendizaje sin ningún efecto; si  i  0 implica que no
existen errores de clasificación, en esta situación los ejemplos se encuentran clasificados
 
correctamente dentro de sus respectivas regiones w  x i  b  1 para la clase "+1" y
 
w  x i  b  1 para la clase "-1" es decir la distancia desde el hiperplano de separación al

ejemplo es más grande que 1/ || w || .
100
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
2.
(0   i  C; i  0) : En esta situación con  i  0 implica que no existe errores en la clasificación
de los ejemplos que cumplen esta igualdad; para el multiplicador de Lagrange comprendido en
este intervalo 0   i  C indica que se trata de los ejemplos que se encuentran sobre los
 
 
hiperplanos (Figura 2.22) H 2 : w  xi  b  1 y H 1 : w  xi  b  1 , la distancia entre estos

ejemplos y el hiperplano de separación es 1/ || w || , estos son los llamados vectores soporte.
3.
( i  C;0   i  1) : Los ejemplos que cumplen con estas condiciones son clasificados
correctamente por el hiperplano de separación óptima (Figura 2.22), pero son los ejemplos de la
 
clase "+1" que se encuentran en la zona comprendida entre el hiperplano H : w  x i  b  0 y el
 
margen del hiperplano de la región "+1" H 2 : w  xi  b  1 y también son los patrones de la
 
clase "-1" que se encuentran en la zona comprendida entre el hiperplano H : w  x i  b  0 y el
 
margen del hiperplano de la región "-1" H 1 : w  xi  b  1 ; la distancia de esto ejemplos al

hiperplano de separación es más pequeño que 1/ || w || .
4.
( i  C; i  1) : Estos ejemplo son los que están clasificados incorrectamente, los ejemplos de la
 
clase "+1" están situados en la región de la clase "-1" definido por el hiperplano w  x i  b  0
mientras que para los patrones de la clase "-1" se encuentran en la región de la clase "+1"
 
definido por el hiperplano w  x i  b  0 .
De igual forma, para definir el hiperplano óptimo se utiliza la ecuación (2.55) y para la clasificación de

nuevos ejemplos x k se aplica la función signo de la ecuación (2.57) que solo depende de los vectores

soporte y sus respectivos multiplicadores de Lagrange y el valor óptimo de b * , el vector w * no necesita

ser calculado. Cabe mencionar que la dimensión del vector w * no es importante.
2.11 SVMS NO LINEALES
En las dos modelos anteriores de SVMs lineales tiene aplicaciones muy limitadas para problemas en
donde las clases no se sobreponen y el hiperplano de separación puede ser una superficie lineal. En la
Figura 2.24 se puede ver como el conjunto de datos no es linealmente separable como sucede en
problemas de la vida real, no existe una superficie de decisión lineal que pueda separar las dos clases de
datos sin errores, pero se observa en el desarrollo anterior de las SVM lineales con margen flexible para
101
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
datos no linealmente separables que depende de la existencia de un producto escalar o producto punto
en el espacio de entrada (ecuaciones 2.71 y 2.77), que será esencial para tratar este tipo de problemas.
x2
Espacio de entrada
Clase "-1"
Clase "+1"
x1
0
Figura 2.24 Ejemplo de un conjunto de datos no linealmente separable.
En el aprendizaje se quiere tener la capacidad de generalizar a los datos desconocidos, en el caso de
reconocimiento de patrones significa que dado un conjunto de nuevos ejemplos o conjunto de datos de

prueba x X se quiere predecir su correspondiente clase y  {1} , de modo que exista algún sentido
similar a los ejemplos de entrenamiento, en este sentido se necesita introducir conceptos de similitud
entre X e y .
Caracterizar la similitud de las salidas y es fácil en la clasificación binaria en donde ocurren únicamente
dos situaciones, las etiquetas de las salidas pueden ser idénticas o diferentes. La selección de una
medida de similitud para las entradas es un tema de fondo que representa el núcleo de las máquinas de
aprendizaje. Considerando como medida de similitud a la forma9:
K:X X  ,
 
 
( x , x ')  K ( x , x ')
(2.80)
La expresión (2.80) representa un número real caracterizado por su similitud. La función K es conocida
como una función kernel. La medida de similitud de esta forma, generalmente es difícil de estudiar, pero
existe una medida que matemáticamente es más fácil de tratar como lo es el producto escalar o
 
producto punto. Por ejemplo, dado dos vectores x y x '  n el producto punto está definido como:
N 
 

( x  x ' )  [ x ] i [ x ' ] i
i 1
102
(2.81)
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN


Donde [ x]i indica a iésima entrada de x . En donde la interpretación geométrica del producto escalar


es el cálculo del coseno del ángulo entre el vector x y x ' siempre que sean normalizados a longitud 1,


 
además que permite calcular la longitud o norma de un vector x como || x || ( x  x ) . De igual forma
la distancia entre dos vectores es calculado como la longitud del vector diferencia, por tanto si se calcula
el producto escalar equivale a ser capaz de llevar a cabo todas las construcciones que pueden ser
formulados en términos de ángulos, longitud y distancia. Con de fin de ser capaces de utilizar el
producto escalar como una medida de similitud es necesario representar los vectores en algún espacio
de producto escalar, dicho espacio es conocido como espacio de características y está representado por
 h qué no necesariamente coincide con la dimensión  n .
2.11.1 MAPEO DE LOS DATOS DE ENTRADA AL ESPACIO DE CARACTERÍSTICAS
El hiperplano de separación o superficie de decisión en muchos problemas de clasificación podrían no
ser lineales, pero las máquinas de soporte vectorial pueden ser extendidas para manipular datos no
separables linealmente construyendo una superficie de separación no lineal utilizando funciones

características  (x ) . La ampliación de las SVMs a conjuntos de datos no lineales se basa en el mapeo de
las variables de los ejemplos de entrada  n en un espacio de características de dimensión mucho más
alto  h que es un espacio de Hilbert de dimensión finita o infinita y realizar una clasificación lineal en
este espacio de alta dimensión.
Espacio de características R h
Espacio de entrada Rn
x2
Clase "-1"
O(x)
Clase "-1"
Clase "+1"
0
Clase "+1"
x1
Figura 2.25 Los datos en el espacio de entrada son mapeados a un espacio de mayor dimensión donde pueden ser
separados a través de un hiperplano.
103
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
En la Figura 2.25 se considera un conjunto de datos no separables linealmente en el espacio de entrada
en donde no se puede implementar un clasificador lineal y no podrían ser clasificados incluso con las
variables de holgura las SVMs de margen flexible vistas anteriormente pero sí podrían ser clasificados en

un espacio de características en donde con la ayuda de las funciones características  (x ) se transforma
y combina los atributos originales de los ejemplos mapeándolos a un espacio de alta dimensión  h en
donde si pueden ser separados por un hiperplano lineal, ésta propiedad es de vital importancia y puede
ser usada para las SVMs anteriores y generalizarlas para problemas donde los datos no son separables
linealmente.
Considerando un conjunto de N ejemplos de entrenamiento y cada uno con sus respectivas clases




{(x1 , y1 ),( x2 , y 2 ), . . . ( x N , y N )} donde cada x i es un vector con n atributos en el espacio de entrada

 n es decir xi  ( x1 , x 2 , . . . , x n ) . Definiendo un conjunto de funciones características como

1,  2 , . . . ,  h . Cualquier ejemplo es mapeado a un vector real  (x ) de la siguiente forma:

x  ( x1 , x2 , . . . , xn )




  ( x )  (1 ( x ), 2 ( x ) . . . , h ( x ))
(2.82)
Luego de realizar el mapeo de los N ejemplos de entrenamiento en un conjunto de características, se
obtiene los puntos en el espacio de características  h :



{( ( x1 ), y1 ), ( ( x2 ), y2 ), . . . ( ( x N ), y N )}
(2.83)

Si las funciones de características  (x ) fueron seleccionadas apropiadamente para mapear el conjunto
de entrenamiento (inicialmente no separables linealmente), se espera que el conjunto (2.83) pueda ser
separable linealmente en el espacio de características aplicando la formulación de las SVMs lineales. De
la misma forma se espera que este enfoque conduzca a la solución de un problema de optimización con

restricciones lineales de desigualdad en el espacio  h . Si se sustituye los vectores x por sus vectores

características  (x ) en la SVM de margen flexible, el problema de optimización es similar a (2.64) con
las restricciones de (2.65) y la función de decisión para nuevos ejemplos (2.57) estará determinado por:



 N SV

f ( xk )  sign    i0 yi [ ( xi )  ( xk )]  b *
 i 1

104
(2.84)
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
La función (2.84) que es un hiperplano de decisión (clasificador lineal) en el espacio de características
 h creará una hipersuperficie de separación no lineal en el espacio de entrada  n . En la Figura 2.26,
se presenta un ejemplo de un conjunto de datos que no son linealmente separables en el espacio de
entrada y que pueden ser separados en un espacio de características.
Figura 2.26 Los datos en el espacio de entrada x1 , x 2 son mapeados a una función característica x12 .
El conjunto de datos consta de 9 puntos ubicados en un espacio de R 2 de coordenadas x1 , x 2 en
donde los puntos rojos pertenecen a la clase "+1" y los puntos azules pertenecen a la clase "-1", en el
espacio de entrada estos ejemplos no pueden ser separados por un clasificador lineal. Las funciones
características son combinaciones de los datos de entrada, así se aumenta una coordenada x12 , después
de la transformación se representan en un espacio de mayor dimensión, es decir R 3 . Adhiriendo la
superficie x12 como una función característica, se mapea los datos de entrada sobre esta superficie
cóncava y se puede observar que los ejemplos de la clase "+1" quedan en la parte inferior mientras que
los ejemplos de la clase "-1" se ubican en la parte superior, con esta forma ya puede construir un
hiperplano que separe las clases (existe un infinito hiperplanos) como se puede ver en la Figura 2.27, la
intersección entre el espacio de características y el hiperplano (plano) de separación definen las
fronteras de decisión, que son dos líneas rectas en el espacio de entrada.
105
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
Figura 2.27 Hiperplano de separación en el espacio de características y frontera de decisión.
No existe un procedimiento que indique que tipo de funciones características son las más adecuadas
para una separación óptima, además existe otro problema al momento de seleccionar la dimensión del
espacio de características debido a que computacionalmente puede ser intratable si el número de
características es muy grande, incluso el espacio de características podría ser infinito. Afortunadamente


en la función (2.84) existe el término  ( xi )  ( xk ) , que es una propiedad muy importante para los
clasificadores no lineales ya que solo es suficiente conocer el producto escalar y no es necesario conocer

en forma explícita las funciones  (x ) .
2.11.2 FUNCIONES KERNEL PARA SVM
Transformar el espacio de entrada a un espacio de características de más alta dimensión usando las

funciones  (x ) y permitir la clasificación es la esencia de las SVMs pero lo que ahora se busca es

eliminar el producto escalar de las funciones  (x ) que puede conducir a un espacio demasiado alto,
para ello se introduce una nueva clase de funciones especiales llamados funciones kernel o funciones
núcleo, que permiten calcular el producto escalar en el espacio definido por el conjunto de datos de
entrenamiento, es decir en el espacio de entrada en lugar de hacerlo en el espacio de características 8.
Una función kernel es:
 


K ( xi , x j )   ( xi )  ( x j )
106
Donde
 
K ( xi , x j ) :  n  R n  
(2.85)
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
La expresión (2.85) se puede definir sólo bajo ciertas condiciones, sea K una función simétrica positiva
en el espacio de entrada, puede representar un producto escalar en el espacio de características si
satisface las condiciones de Mercer98 (Vapnik, 1995):

 


K ( xi , x j )   ak k ( xi )  k ( x j ) ,
ak  0
k 1
 

  
 K ( x i , x j ) g ( x i ) g ( x j ) dx i dx j  0
g  L 2 ( R n )
(2.86)
(2.87)
Donde g () es cualquier función con una norma L2 finita en el espacio de entrada, es decir una función
 
para la cual  g 2 ( x ) d x   . Las condiciones de Mercer, según la teoría de Hilbert-Schmidt (Courant y
 
Hilbert, 1953), caracterizan a las funciones simétricas aceptables K ( xi , x j ) (Mercer, 1909).

Como ejemplo, sea un vector x i  ( x1 , x 2 )   2 y sean las funciones características de dicho vector



 
 ( x )  ( x12 , x 22 , 2 x1 x 2 ) . La función kernel correspondiente a partir de las funciones características es:
 


 
K ( xi , x j )   ( xi )  ( x j )  ( xi  x j ) 2
(2.88)
Entre las funciones kernel utilizadas frecuentemente en el reconocimiento de patrones por medio de las
SVMs se presentan a continuación:

Kernel lineal: El producto escalar definen a este kernel. Es utilizado generalmente como una
prueba de no linealidad en el conjunto de datos de entrenamiento, así como cuando el conjunto
de datos es disperso.
 
 
K ( xi , x j )  xi  x j

(2.89)
Kernel polinomial: Este es un método simple y eficiente para modelar conjunto de datos no
separables linealmente.
 
 
K ( xi , x j )  ( p  xi  x j ) d
p  , d  
(2.90)
Tiene como desventaja que mientras aumenta el grado del polinomio d la hipersuperficie de
decisión se hace más compleja, ajustándose cada vez más a los datos, lo que conlleva a un
sobreajuste.

Kernel Gaussiano RBF: Son las más utilizadas y recomendadas cuando no existe información del
comportamiento de los datos, la salida del kernel es dependiente de la distancia euclidiana
107
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
 
|| xi  x j || 2 donde uno será un vector soporte y el otro un dato de prueba. El parámetro libre 
determinará el área de influencia que este vector soporte tiene sobre el espacio de datos
aumentando o disminuyendo el ancho de la campana y puede optimizarse utilizando técnicas de
validación cruzada.
 
 || xi  x j ||2 
 

K ( xi , x j )  exp  
2 2 

 0
(2.91)

Kernel Exponencial: Son kernel utilizados para cuando el hiperplano acepta discontinuidades.
 
 
 || x i  x j || 
(2.92)
K ( x i , x j )  exp  
 0

2 2 


Kernel Sigmoidal: Utiliza la función tangente hiperbólica, con una forma sigmoide, muy utilizada
como función de transferencia en redes neuronales artificiales.
 
 
K ( x i , x j )  tanh( sx i  x j  r ) s, r  
(2.93)
En la Figura 2.28 es la representación gráfica del ejemplo planteado en la Sección 2.11.1 utilizando una
función kernel polinomial (2.90) con p  0 y d  2 . Los datos fueron mapeados a un espacio de
características en donde pudieron ser separados fácilmente por un plano.
 


 

 
 
El kernel polinomial (2.88) es K ( x i , x j )   ( x i )   ( x j )  ( x i  x j ) 2 y la función  ( x )  ( x12 , x 22 , 2 x1 x 2 ) .
Figura 2.28 Representación del mapeo de de los datos en un espacio de características utilizando una función
kernel polinomial de grado 2.
108
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
2.11.3 SVM NO LINEALES DE MARGEN RÍGIDO
En la Figura 2.29, se muestra la estructura de un clasificador no lineal de una máquina de soporte

vectorial, la capa de entrada está representada por los vectores soporte x i para i  1, . . . , N SV y por los

ejemplos del conjunto de prueba x k que son transformados y mapeados a un espacio de características
por el producto escalar de la función kernel con cada uno de los vectores soporte. Los valores
proporcionados por el kernel seleccionado se multiplican con los multiplicadores de Lagrange formado
por todos aquellos multiplicadores diferente de cero, y la salida es un clasificador no lineal (2.84), en
donde el producto escalar de las funciones características es reemplazado por la función kernel
 
K ( xi , x j ) . Las SVMs no lineales de margen rígido son similares a las presentadas en la Sección 2.10.1 en

cuanto en su formulación matemática, únicamente difiere en que los vectores x i son reemplazados por

sus funciones características  ( x i ) y luego el producto escalar de dos funciones características es
reemplazado por una función kernel.
Figura 2.29 Estructura de las máquinas de soporte vectorial no lineales, para datos no separables linealmente.
De este modo la función de decisión para un clasificador SVM no lineal de margen rígido, está definido
por los vectores soporte con sus correspondientes multiplicadores de Lagrange  i  0 y la función
 
kernel K ( xi , x j ) :

 
 N SV

f ( x k )  sign    i0 y i K ( xi  x k )  b *
i

1


(2.93)
109
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
2.11.4 SVM NO LINEALES DE MARGEN FLEXIBLE
Como ya se ha mencionado anteriormente, la mayor parte de los casos los problemas de aplicación de
las SVMs se enfoca a resolver problemas en donde las clases se traslapan sobre la otra clase, datos que
presentan ruidos en su medición, datos mal etiquetados, inconsistencias, datos dispersos y más, para lo
cual las máquinas de soporte vectorial no lineales de margen flexible, es un modelo robusto y eficiente,
su formulación es obtenido de forma similar a la SVM lineal de margen flexible de la Sección 2.10.2, en
donde se introdujo la variable de holgura  i para ser más flexible y penalizar los errores debido a las
causas de error ya mencionadas y un término C para controlar la capacidad del modelo de la máquina
por parte del usuario. Usualmente el valor de C se determina con técnicas de validación cruzada
tratando de optimizar la cota superior de generalización descrita en el principio de SRM. La función de
decisión para esta máquina es similar a (2.93).
2.12 ALGORITMO DE LA SVM
En la Figura 2.30 está representado los pasos de cómo se procesa el algoritmo de una SVM para hallar la
función de decisión o clasificador a partir de un conjunto de datos de entrenamiento y que permita
asignar la etiqueta correcta a cualquier ejemplo del conjunto de datos de prueba.
Figura 2.30 Algoritmo simplificado para encontrar un clasificador a través de la SVM.
110
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
En la figura anterior están esbozados en forma muy general los pasos para obtener la función de
decisión de un problema de clasificación utilizando las máquinas de soporte vectorial, en forma
resumida estos pasos son:
1. Determinar el tipo de problema e identificar la información q priori como separabilidad del
conjunto de datos, dimensionalidad, rango, entre otros, que serán de importante ayuda para la
elección del modelo de SVM a aplicar, así como de su función kernel y demás parámetros.
2. No existe un procedimiento para determinar la función kernel a utilizar por lo que su elección se
hace en un proceso de prueba y error, ajustando parámetros de los kernel disponibles y
3. Se construye la matriz kernel
H
comparando resultados.
, llamada matriz Hessiana que debe ser definida semi-positiva
que garantiza la convexidad del problema y por tanto la existencia de la solución, esta matriz
H
está formada por algunos términos de la función objetivo de la formulación dual de Wolfe
 
(2.48).
i, j  y i y j K ( xi  x j )
4. Se aplica el algoritmo de optimización mínimo secuencial SMO (propuesto por Platt, 1999 99) a la
matriz Hessiana para hallar los multiplicadores  (bloque de procesos del centro y la derecha de
la Figura 2.30). La función objetivo a maximizar esta dado por la ecuación (2.48) y (2.49) y su
formulación cambia para el aprendizaje, así:

1
Wd ( A)  f T    T
2
H
Maximizar

sujeto a y T   0 ,   0
Donde se utiliza el vector unitario f  [1, 1, . . , 1]T
5. Durante la optimización se verifica la condición de terminación, si ésta no se ha cumplido aún se
procede a una nueva iteración. La condición de terminación generalmente se establece con un
valor menor a un umbral predeterminado.
6. Finalmente, con los valores óptimo de  y sus correspondientes vectores soporte se construye
la función de decisión, que permitirá la clasificación correcta de nuevos ejemplos.
2.13 EJEMPLO DE APLICACIÓN DE LAS SVMS
Para ilustrar la capacidad de las máquinas de soporte vectorial SVM de margen flexible para construir
hipersuperficie no lineales, se considera el conjunto de datos de la Tabla 2.2.
111
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
Dato
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
x1
1.0
0.6
0.3
0.4
-0.1
-0.2
-0.4
-0.5
-0.9
-0.7
-0.4
-0.1
-0.3
0.2
0.2
0.4
0.6
0.6
0.5
0.9
x2
0.0
0.2
0.5
0.9
0.0
0.6
0.8
0.3
0.4
-0.1
-0.2
-0.5
-0.8
-0.5
-0.8
-0.9
-0.4
-0.3
-0.3
-0.1
Clase
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Dato
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
x1
1.2
1.0
1.3
0.9
0.9
0.2
-0.7
-0.7
-1.0
-1.3
-1.2
-1.6
-1.3
-1.0
-0.8
-0.3
0.1
0.7
1.1
1.1
x2
0.1
0.6
0.8
1.0
1.1
1.3
1.1
0.8
0.6
0.6
0.1
0.5
-0.5
-0.7
-1.0
-1.0
-1.2
-1.0
-1.0
-0.5
Clase
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
Tabla 2.2 Conjunto de datos linealmente no separables, utilizados modelar una SVM de margen flexible.
La Tabla 2.2 contiene 40 muestras con dos atributos x 1 y x 2 , es decir el espacio de representación de
los datos de entrada es bidimensional  2 , la función subyacente f (x) es una circunferencia (con línea
entrecortada) de radio 1 centrada en el origen. Las muestras en el interior de la circunferencia se les
asignó la clase (etiqueta) "+1" y están representadas por un asterisco (*) de color verde, mientras a las
muestras del exterior de la circunferencia a la clase (etiquetas) "-1" y están representadas por el signo
más (+) de color rojo, como se puede apreciar en la Figura 2.31, los datos se encuentran dispersos y
lógicamente utilizando una hiperplano no podrían ser separados. Para resolver este problema, se
utilizará una SVM no lineal de margen flexible, se aplicarán varios kernel de los ya estudiados
anteriormente y se realizará una comparación de los resultados
El conjunto de datos fue divido en un conjunto de entrenamiento y un conjunto de prueba de 30 y 10
muestras respectivamente, en cada gráfica existe la leyenda indicando las muestras tomadas para el
entrenamiento y las muestras tomadas para la clasificación, así como también los vectores soporte
están dentro de un círculo indicando que en base a dichos vectores se construye el clasificador.
112
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
1.5
1
Clase "-1"
0.5
0
Clase "+1"
-0.5
-1
-1.5
-1.5
-1
0.5
0
1
0.5
1.5
Figura 2.31 Algoritmo simplificado para encontrar un clasificador a través de la SVM.
Hay que recordar que la función kernel que se utilice permite construir un hiperplano de clasificación
óptima en un espacio de características de dimensión mucho más alta, en donde los datos pueden ser
separados linealmente, pero en el espacio de entrada el hiperplano toma la forma de una
hipersuperficie.
En la Figura 2.32, se utilizó un kernel lineal (2.89), lógicamente no es un buen clasificador, ya que de
inicio el problema no es lineal, en el entrenamiento se tomaron a todas las muestras como vectores
soporte N SV  30 , el clasificador no es capaz de discriminar los dos tipos de muestras, lo que conlleva a
que durante la fase de prueba existan muchas muestras mal clasificadas.
1.5
1
0.5
0
-0.5
-1
-1.5
-2
-1 (training)
-1 (classified)
1 (training)
1 (classified)
Support Vectors
-1.5
-1
-0.5
0
0.5
1
1.5
Figura 2.32 Modelo del clasificador SVM con kernel lineal.
113
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
1.5
1.5
1
1
0.5
0.5
0
0
-0.5
-0.5
-1
-1.5
-2
-1 (training)
-1 (classified)
1 (training)
1 (classified)
Support Vectors
-1.5
-1
-1
-0.5
0
0.5
1
1.5
-1.5
-2
-1 (training)
-1 (classified)
1 (training)
1 (classified)
Support Vectors
-1.5
-1
-0.5
0
0.5
1
1.5
Figura 2.33 Modelo del clasificador SVM no lineal con kernel polinomial. Izq. Polinomio de grado 2. Der. Polinomio
de grado 5.
En la Figura 2.33 se muestra un modelo clasificador SVM aplicando un kernel polinomial (2.90), como
era de esperar el polinomio de grado 2 (gráfica de la izquierda) hace una correcta separación de las
clases y se aproxima mucho a la función subyacente original utilizando un correcto número de vectores
soporte N SV  12 (6 vectores soporte por cada clase). El problema de este kernel es que si el grado del
polinomio aumenta, el clasificador se ajusta demasiado a cada muestra provocando un sobreajuste y
disminuyendo la capacidad de predicción. En el kernel polinomial de grado 5 (gráfica de la derecha) los
vectores soporte disminuyen N SV  8 pero la capacidad de predicción va disminuyendo, aumentando
los errores en la clasificación (existen más muestras mal clasificadas).
Las muestras (dentro de un círculo) son los vectores soporte que definen el modelo de la SVM y pueden
ser usados para predecir la pertenencia de nuevas muestras. Las muestras de las dos clases que no están
dentro de un círculo, en ambas gráficas no son importantes para definir el modelo de la SVM y pueden
ser eliminados del conjunto de entrenamiento sin que la solución sea afectada. La misma observación se
puede aplicar sobre otros modelos que implementen otros kernels.
En la Figura 2.34 se utilizó un kernel Gaussiano RBF (2.91) para modelar la SVM, hay que recordar que la
función Gaussiana crea abultamientos o hundimientos sobre las muestras a manera de campanas y el
parámetro de ajuste  lo que hace es controlar el ancho de las campanas, valores demasiados
pequeños (gráfica de la izquierda) crea una forma de islas sobre cada muestra, en casos en donde las
clases estañan desbalanceadas, estas islas se forman sobre la clase con menos muestras, en este caso
toma a todas las muestras de entrenamiento como vectores soporte N SV  30 además se puede
114
MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN
observar que existirán muchas muestras de prueba mal clasificadas, en el otro caso, cuando  aumenta
demasiado (gráfica de la derecha) tiende a comportarse como un kernel lineal, y por tanto vuelve
aumentar los vectores soporte N SV  30 , pero si este parámetro es ajustado correctamente puede ser
un buen clasificador como se muestra en la Figura 2.36 (gráfica de la derecha).
1.5
1.5
1
1
0.5
0.5
0
0
-0.5
-0.5
-1
-1.5
-2
-1 (training)
-1 (classified)
1 (training)
1 (classified)
Support Vectors
-1.5
-1
-1
-0.5
0
0.5
1
1.5
-1.5
-2
-1 (training)
-1 (classified)
1 (training)
1 (classified)
Support Vectors
-1.5
-1
Figura 2.34 Modelo del clasificador SVM no lineal con kernel RBF. Izq. para
-0.5
0
0.5
1
1.5
  0.1 . Der. para   3
El parámetro C es un valor que debe ser ajustado por el usuario, su finalidad es ajustar el margen del
clasificador, en la Figura 2.35 y 2.36 se varía este parámetro junto con un kernel Gaussiano RBF, si tanto
 como C son elegidos correctamente por algún método de validación cruzada, resulta en un modelo
con una buena generalización.
1.5
1.5
1
1
0.5
0.5
0
0
-0.5
-0.5
-1
-1.5
-2
-1 (training)
-1 (classified)
1 (training)
1 (classified)
Support Vectors
-1.5
-1
-1
-0.5
0
0.5
1
1.5
-1.5
-2
-1 (training)
-1 (classified)
1 (training)
1 (classified)
Support Vectors
-1.5
-1
-0.5
0
0.5
1
1.5
Figura 2.35 Modelo del clasificador SVM no lineal con kernel RBF con   0.1 pero variando C que controla el
ancho de margen del clasificador. Izq. C  10 . Der. C  100
115
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
En la Figura 2.35, se mantiene fijo el parámetro  y se varía C , el modelo de SVM resultante en ambos
casos es bastante bueno, con la diferencia que cuando un valor pequeño (gráfica de la izquierda) el
margen es más amplio, y hay muchos más vectores soporte que caen dentro de ese margen N SV  16 así
como puede que existan muchas muestras de prueba mal clasificadas. Por otro lado, cuando C se va
incrementando (grafica de la derecha) el margen disminuye, así como el número de vectores soporte
N SV  12 , aunque lo más aconsejable es tener un margen amplio.
1.5
1.5
1
1
0.5
0.5
0
0
-0.5
-0.5
-1
-1.5
-2
-1 (training)
-1 (classified)
1 (training)
1 (classified)
Support Vectors
-1.5
-1
-1
-0.5
0
0.5
1
1.5
-1.5
-2
-1 (training)
-1 (classified)
1 (training)
1 (classified)
Support Vectors
-1.5
-1
-0.5
0
0.5
1
1.5
Figura 2.36 Modelo del clasificador SVM no lineal con kernel RBF, variando C que controla el ancho de margen
del clasificador. Izq.   0.1 y C  1000. Der.   2 C  32 .
Finalmente, en la Figura 2.36 utilizando un valor de C bastante elevado lo que se logra es reducir aún
más los vectores soporte N SV  10 pero el margen habrá disminuido mucho más. Mediante una
validación cruzada se obtuvo los valores de  y C (figura de la derecha), cuyo modelo logra clasificar
correctamente las muestras de prueba, se aproxima mucho a la función subyacente utilizando un bajo
número de muestras como vectores de soporte N SV  14 sin llegar a disminuir del todo su margen.
En conclusión, utilizar un kernel Gaussiano es muy recomendable cuando los parámetros de ajuste son
optimizados por una validación cruzada, los kernel polinomial son una buena opción siempre y cuando
el grado del polinomio no sea elevado para evitar el sobreajuste, los kernel lineal debería utilizarse en
aquellos problemas donde se tiene indicios de que los datos puedan ser separados linealmente, cuando
los datos están totalmente sobrepuestos entre clases o cuando los atributos de los datos son demasiado
grandes, en ese caso no hace falta mapear a un espacio de características de mayor dimensión para
separarlos con ningún kernel no lineal, será suficiente probar con un kernel lineal.
116
CAPÍTULO 3
TÉCNICAS Y HERRAMIENTAS UTILIZADAS
La Máquina de Soporte Vectorial SVM, a pesar de ser una un modelo de aprendizaje que lleva algunos
años siendo desarrollada desde la década de los 70's por V. Vapnik y sus colaboradores introduciendo
fundamentos y generalizando estudios anteriores para los problemas de clasificación, no fue hasta 1998
cuando realmente empezó a despertar interés cuando fue presentado el modelo de SVM de margen
flexible, que estaba diseñada para tratar problemas reales. En la actualidad el modelo se encuentra en
desarrollo continuo con muy buenos resultados de aplicación en diferentes áreas de la ciencia y la
ingeniería, lo que ha llevado a implementar multitud de paquetes software, incluyendo algunas
herramientas gráficas para representaciones en 2D.
Este capítulo está dedicado a recoger todas las técnicas y herramientas que se utilizaron para el
tratamiento de la información, a manera de recoger los procedimientos que fueron empleados en el
transcurso de la investigación, iniciando con una explicación de la librería LIBSVM con sus herramientas
y luego se citan las Toolbox de MATLAB empleadas así como las funciones.
3.1 LIBRERÍA LIBSVM
La librería LIBSVM100 desarrollada por C. Chang y C. Lin en la National University of Taiwan (ANEXO 1), es
un paquete software completo y con muchos scripts que permite experimentar fácilmente con
diferentes funciones kernel y trabajar con miles de datos y con miles de atributos (características o
variables), soporta problemas de clasificación y regresión. Esta complementada con herramientas como
117
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
ayuda a la partición del conjunto de datos en forma aleatoria (conjunto de entrenamiento y conjunto de
prueba), otra herramienta como la validación cruzada para la selección de parámetros para el modelo
clasificador y normalización de los atributos. Implementa el algoritmo de optimalización SMO con una
eficiencia muy buena. Para utilizar algunas herramientas es necesario instalar PYTHON y GNUPLOT, el
primero es un lenguaje de programación con una sintaxis bastante legible e interpretativa, el segundo es
un programa que genera graficas en formato de imagen y será muy útil para determinar rangos en
ajuste de algunos parámetros que pueden someterse a una validación cruzada. El código fuente de los
scripts se encuentran desarrollados en C/C++, también tiene interface para utilizarlo con MATLAB.
Para entrenar el modelo de la SVM se utilizará Python en la pantalla Command promp de Windows
mientras que para el procesamiento de los datos se utilizará MATLAB. A continuación se indican algunas
herramientas de LIBSVM.
1. Formato de los datos:
Phyton admite los datos como vectores en el siguiente formato:
<etiqueta> <índice1>:<atributo1> <índice2>:<atributo2>. . . . .
Cada línea contiene una muestra, para la clasificación de dos clases <etiqueta> puede tomar
el valor de "+1" o "-1" indicando la clase a la que pertenece cada muestra del conjunto de
entrenamiento. Para el conjunto de prueba la etiqueta es utilizada para predecir la exactitud en
la clasificación. El par <índice>:<atributo> indica cada uno de los atributos de las
muestras; <índice1> es un número que inicia en 1 hasta el número total de muestras en forma
ascendente, <atributo> debe ser un número real. Para comprobar que los archivos se
encuentren en este formato se puede comprobar con el siguiente comando:
> python checkdata.py [Archivo]
Donde: [Archivo]: es el nombre del fichero que se desea analizar y que contiene el conjunto
de datos que serán utilizados para el entrenamiento y la prueba. Si los datos se encuentran en
el formato correcto en pantalla la salida es 0 cuando no hay errores caso contrario la salida es 1.
2. Selección de subconjuntos (subset.py):
Cuando se tiene el archivo con los datos en el formato adecuado, Phyton ofrece un programa
útil que divide el conjunto de datos en subconjunto, es decir ayuda a seleccionar el conjunto de
118
TÉCNICAS Y HERRAMIENTAS UTILIZADAS
entrenamiento y el conjunto de prueba garantizando que exista la misma distribución de las
clases, usando el siguiente comando:
>python subset.py [Archivo][-s][Número][][Entren][Prueba]
Donde:
[-s]: es el método de selección de los datos para cada subconjunto; -s 1, para una selección
aleatoria; -s 0, para una selección estratificada (por defecto).
[Número]: para indicar cuantas muestras se desea que conformen [Entren], las demás
muestras son almacenados en [Prueba].
[Entren]: es el nombre del conjunto de entrenamiento.
[Prueba]: es el nombre del conjunto de prueba.
3. Normalizado o escalado de los datos (svm-scale):
Como en la mayoría de técnicas de aprendizaje para mejorar la estabilidad numérica del
aprendizaje, es aconsejable normalizar los valores numéricos de los atributos antes de aplicar la
SVM, por ejemplo escalándolo de [0,1], [1,-1] (normalizando a media=0 y varianza=1), es
necesario que tanto el conjunto de entrenamiento y el conjunto de prueba se encuentren
escalados al mismo rango, para esto se utiliza los siguientes comandos:
>svm-scale [-l][-u][-s][Rango][Entren] > [Entren.escala]
>svm-scale [-r][Rango][Prueba] > [Prueba.escala]
Donde:
EL primero comando normaliza el conjunto de entrenamiento y el segundo comando normaliza
el conjunto de prueba utilizando el mismo rango del conjunto de entrenamiento.
[-l]: límite inferior de la escala, puede ser -l -1 ó –l 0.
[-u]: límite superior de la escala; -u 1.
[-s]: guarda los factores del escalado del conjunto de entrenamiento en [Rango].
[-r]: lee los factores de [Rango] para escalar el conjunto de prueba.
[Rango]: Archivo en donde se guardan los factores del escalado.
[Entren.escala]: nuevo archivo con los datos de entrenamiento escalados.
[Prueba.escala]: nuevo archivo con los datos de prueba escalados.
119
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
4. Para el entrenamiento (svm-train):
Para obtener el modelo de la SVM, se tiene que entrenar con las muestras del conjunto de
entrenamiento aplicando diferentes kernel y ajustando varios parámetros, el comando es el
siguiente:
>svm-train [Tipo_svm][Tipo_kernel][Parámetros][Entren.escala]
Donde:
[Tipo_svm]: selecciona el tipo de SVM (por defecto -s 0).
-s 0: para seleccionar la SVM de clasificación binaria.
[Tipo_kernel]: para seleccionar la función kernel (por defecto -t 2).
 
 
-t 0: kernel lineal K ( x i , x j )  x i  x j
 
 
-t 1: kernel polinomial K ( x i , x j )  ( p  x i  x j ) d
 



-t 2: kernel Gaussiano RBF K ( x i , x j )  exp   || x i  x j || 2

  1/ 2 2
[Parámetros]: parámetros de ajuste que especifican los valores del kernel utilizado.
-d: ajusta el grado del kernel polinomial (por defecto 3).
-g: ajusta el valor de 
en la función kernel RBF (por defecto 1/número de
atributos).
-r: ajusta el coeficiente p del kernel polinomial (por defecto 0).
-c: ajusta el parámetro C de control del margen del clasificador (por defecto 1).
Luego del entrenamiento, la máquina genera un modelo del clasificador y lo guarda en un nuevo
archivo [Entren.escala.model] para utilizarlo posteriormente para la clasificación de las
muestras del conjunto de prueba. En la pantalla devuelve algunos datos importantes como:
obj: es el valor objetivo óptimo del problema dual SVM.
rho: es el término bias  b * en la función de decisión.
nSV: es el número de vectores de soporte.
nBSV: es el número de vectores de soporte que se encuentran acotados por el margen.
5. Para la prueba (svm-predict):
120
TÉCNICAS Y HERRAMIENTAS UTILIZADAS
Con el modelo de clasificador, solo queda por comprobar cuan eficiente resulta para generalizar
los datos del conjunto de entrenamiento, para ello se utiliza el siguiente comando:
>svm-predict [Prueba.escala][Entren.escala.model][Prueba.predict]
El comando svm-predict genera el resultado de la clasificación y lo guarda en un archivo
[Prueba.predict] que contiene a las muestras de prueba con las etiquetas de la clase a las
que según el modelo pertenecen, además se muestra en pantalla el porcentaje de error
cometido en la clasificación y el número de muestras mal clasificados.
6. Selección de parámetros (grid.py):
Una herramienta muy útil cuando se utiliza el kernel Gaussiano RBF para modelar la SVM es el
comando grid.py, éste utiliza una técnica de validación cruzada (cv) sobre las muestras del
conjunto de entrenamiento para estimar la exactitud de cada combinación de parámetros (  y
C ) en un rango especificado y ayuda a decidir los mejores parámetros para el problema.
Durante el entrenamiento existe la opción de dibujar el contorno de la validación cruzada
usando el software gnuplot. Esto se logra con el siguiente comando de línea:
>grid.py [Opciones_Grid][Entren.escala]
Entre las opciones disponibles [Opciones_Grid] en la selección de parámetros se tiene:
-log2c {inicio, fin, paso}: ajusta el rango del parámetro C y crea un mallado en ese
intervalo, para reducir o ampliar la finura del mallado se modifica el paso. Cada iteración está
dada por rango_c = 2^ {inicio,..., inicio + k*paso,..., fin} (los valores por defecto -5, 15, 2).
-log2g {inicio, fin, paso}: especifica el rango de los valores del parámetro  y crea un
mallado en ese intervalo, para reducir o ampliar la finura del mallado se modifica el paso.
rango_g = 2^ {inicio,..., inicio + k*paso,..., fin} (los valores por defecto 3, -15, -2).
-v n: los datos son separados n partes y bajo parámetros dados cada parte es validada usando
el modelo con las restantes partes (por defecto n=5)
-gnuplot {path}: cuando se desea graficar el contorno de la validación cruzada del ajuste de
los parámetros se puede ocupar esta opción junto con el path del ejecutable gnuplot.exe, la
gráfica se guarda en un archivo tipo imagen (por defecto dataset.png).
121
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
3.2 FUNCIONES DE MATLAB
Para el tratamiento de los datos y obtención de atributos o características a partir de las señales
obtenidas durante las pruebas se utilizan varias Toolbox y funciones de MATLAB que serán utilizadas en
el Capítulo 4 y 5 para indicar la metodología de los distintos ensayos durante las fases de entrenamiento
y clasificación de las muestras utilizando el algoritmo de las máquinas de soporte vectorial. A
continuación se exponen las herramientas utilizadas.
3.2.1 TOOLBOX DE ESTADÍSTICA DE ORDEN SUPERIOR HOSA
En esta Sección se hace un breve análisis de las herramientas de estadística de orden superior HOSA
(Higher-Order Spectral Analysis) que proporciona las funciones necesarias para estimar características
de orden superior y que más adelante serán utilizadas en un script para la caracterización de los datos
obtenido en las pruebas del temblor realizado a los pacientes. Por ahora solamente se hará mención de
la utilidad de éstas herramientas y la sintaxis utilizada en el comando de línea de Matlab.
La importancia de estas herramientas estadísticas conocidas también como cumulantes o momentos y
sus correspondientes transformadas de Fourier como poliespectros, ayuda a obtener información sobre
la amplitud de un proceso así como su fase y difieren de los métodos estadísticos de segundo orden
porque éstas son ciegas a la fase. Son herramientas eficientes en aplicaciones reales en donde las
señales o procesos a tratar son no lineales y no Gaussianos, extrayendo más información que la
contenida intrínsecamente en su función de autocorrelación. Permiten eliminar el ruido blanco o
coloreado aditivo Gaussiano del espectro de potencia desconocida, extraer información debido a las
desviaciones de un proceso Gaussiano, detectar y caracterizar las propiedades no lineales de las
señales101. Así, éstas técnicas son muy útiles ya que se considera que las señales obtenidas de las
pruebas realizadas a los pacientes son series temporales que están contaminadas por ruido proveniente
de varias fuentes como las condiciones físicas y psicológicas de los pacientes, así como en la forma en
que estas señales fueron obtenidas y la precisión de los dispositivos utilizados para ello.
Las técnicas derivada de la estadística de orden superior son el Biespectro, que es el espectro de tercer
orden definido por la transformada de Fourier de los cumulantes de tercer orden; y el Triespectro que es
el espectro de cuarto orden que corresponde a la transformada de Fourier de los cumulantes de cuarto
122
TÉCNICAS Y HERRAMIENTAS UTILIZADAS
orden, hay que tener en cuenta que el espectro de potencia PSD, puede ser considerado como el
espectro de segundo orden dentro de HOSA.
La estadística de orden superior se representa en el dominio temporal. Sea g ( k ) un proceso real,
discreto, estacionario no Gaussiano cuyos momentos existen hasta un orden n , entonces un momento
de orden n se define como:
m n (k 1 , k 2 , . . . , k n 1 )  E{g(k)  g(k  k 1 )  . . . .  g(k  k n 1 )}
k, k 1 , k 2 . . . , k n 1  0,  1,  2,  3, . . . .
Donde
Y E{.} representa al operador Esperanza estadísticas, donde el momento de orden n solo depende de
los desplazamientos temporales de k, k 1 , k 2 . . . , k n 1 .
Entonces el momento de segundo orden pertenece a la función de correlación clásica:
m 2 (k1 )  E{g(k) g(k  k1 )}
El momento de tercer orden viene representado por:
m 3 (k 2 )  E{g(k)  g(k  k 1 )  g(k  k 2 )}
Y se procede de la misma forma para establecer momentos de orden superior.
Los espectros de orden superior se representan en el dominio de la frecuencia y se obtienen al aplicar la
transformada de Fourier multidimensional Fn [.] sobre la estadística de orden superior. Para un orden n
los espectros se definen como:
S n ( w 1 , w 2 , . . . , w n 1 )  Fn [ m n ( k 1 , k 2 , . . . , k n 1 ]
El espectro de segundo orden, Espectro de Potencia o Densidad Espectral de Potencia se define como:

S 2 ( w 1 )   m 2 ( k 1 )  e  j( w 1k 1 )
k1  
Donde | w 1 |  y m 2 (k 1 ) corresponde a la secuencia de correlación del proceso x ( k ) .
123
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
El biespectro representa la contribución del producto medio de tres componentes de Fourier y donde
una frecuencia es la suma de las otras dos, se define como:
S3 (w 1 , w 2 ) 

 c 3 (k 1 , k 2 )  e
k1 , k 2  
 j( w 1k 1  w 2 k 2 )
Donde | w1 | , | w 2 | , | w1  w 2 |  y c 3 (k1 , k 2 ) es la secuencia de cumulantes de tercer orden
del proceso x ( k ) .
La misma secuencia se utiliza para calcular el triespectro. Hay que tener en cuenta que los espectros
para un orden n  3 están en función de sus cumulantes.
Las funciones utilizadas en Matlab de las técnicas para el análisis del espectro de orden superior son:
Para calcular el biespectro utilizando el método directo basado en la FFT, se utiliza la función bispecd,
su sintaxis es la siguiente:
[Bspec, waxis] = bispecd (X, NFFT, WIND, SEGSAMP, overlap)
X representa la serie temporal. NFFT es la longitud de la muestra que se quiere representar. WIND
define las especificaciones de la ventana para el dominio de frecuencia. SEGSAMP son las muestras por
segmento y OVERLAP es el porcentaje de solape de las secciones de la muestra.
Bspec es el biespectro estimado. waxis es el vector de frecuencias asociadas a las filas y columnas de
Bspec.
El triespectro se calcula con la función trispect con la siguiente sintaxis:
[Tspec, waxis] = trispect (MA, AR, NFFT, F3);
MA y AR son las series temporales. NFFT es la longitud de la muestra que se representa (el valor por
defecto es 512). F3 es la frecuencia fija del tercer argumento (el valor por defecto es 0 y el rango
nominal es [-0.5, 0.5]).
Tspec es el triespectro de un modelo auto regresivo de media movil ARMA. waxis es el vector de
frecuencia asociados con las filas/columnas del Trispect.
124
TÉCNICAS Y HERRAMIENTAS UTILIZADAS
3.2.2 TOOLBOX DE PROCESAMIENTO DE SEÑALES PSD
Una de las herramientas más utilizada de la Toolbox de procesamiento de señales es la función de
Densidad Espectral de Potencia PSD, para el análisis de señales en frecuencia. La PSD mide la potencia
promedio de una señal versus su frecuencia y muestra las periocidades de un proceso o sistema.
En el apartado anterior se indicó que el PSD es el momento y espectro de segundo orden y su
representación tanto en el dominio del tiempo como en el de frecuencia.
La función pwelch es una forma funcional de PSD que estima la Densidad Espectral de Potencia a
través del método Welch, su sintaxis en Matlab es:
[Pxx, W] = pwelch(X, WINDOW, NOVERLAP, NFFT)
Donde: Pxx es la distribución de potencia por unidad de frecuencia. W: Es el vector de frecuencias
normalizadas en la que se estima el PSD, tiene unidades de rad/muestra.
X es la señal en tiempo discreto a transformar. WINDOW indica el tipo de ventana a utilizar, la ventana
por defecto (Hamming) tiene una atenuación de 42,5 dB. NOVERLAP indica el porcentaje de
solapamiento de las secciones de la muestras, el valor por defecto es del 50%. NFFT especifica el
número de puntos FFT utilizados para calcular la estimación de PSD, NFFT=2^(floor(log2(n)))
donde n es el tamaño de la muestra.
3.2.3 TOOLBOX DE ESTADÍSTICA ACP
El Análisis de Componentes Principales ACP, es una herramienta de la Toolbox de Estadística que tiene
por objetivo reducir la dimensión de un conjunto de variables conservando la mayor cantidad que sea
posible. El ACP permite visualizar la correlación que existe entre un número determinado de muestras
(observaciones) en función de la relación de sus variables (atributos), gira las coordenadas de los datos
originales a nuevas coordenadas haciendo los datos lo más "planos" como sea posible y genera una
nueva matriz con el mismo número de variables, llamados componentes principales.
Cada componente principal es una transformación lineal de todo el conjunto de datos original. Los
coeficientes de los componentes principales se calculan de forma que el primer componente principal
contiene la varianza máxima (se puede pensar tentativamente como la "máxima información"). El
125
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
segundo componente principal se calcula que tiene la segunda máxima varianza y lo más importante
que no está correlacionado linealmente con el primer componente principal. Los otros componentes
principales muestran una varianza menor y no están correlacionadas con el resto de componentes
principales.
Los componentes principales es una combinación de las variables originales que tiene máxima varianza,
para su cálculo se considera un conjunto de n muestras de p variables dispuestos en una matriz A de
dimensión n  p , las filas contienen las muestras y las columnas contienen las variables y donde la
media de cada uno de sus variables es cero y su matriz de covarianza está dada por S  (1/ n ) A' A . Lo
que se desea es encontrar un espacio de dimensión m más reducida tal que m  p , tratando de no
distorsionar la información inicial. Si se representa el primer componente principal como102:
z1  Aa 1
Si las variables originales tienen de media igual a cero, entonces también z1 también tendrá de media
igual a cero, entonces su varianza será:
1
1
z '1 z  a'1 A' Aa 1  a'1 Sa 1
n
n
Maximizando la expresión anterior con los multiplicadores de Lagrange, de donde derivado e igualando
a cero se tiene:
Sa 1 a 1
Lo que significa que a1 es un eigen vector de la matriz S asociado el eigen valor  que corresponde a la
varianza de z1 , es decir, que el eigen vector asociado al mayor eigen valor de S corresponde al primer
componente principal. La matriz A tiene el mismo rango p de la matriz S existiendo entonces tanto
variables como componentes principales. Para aplicar el ACP la base de datos debe ser una matriz
normalizada Z de media 0 y varianza 1, lo que se logra con la función score:
Z = zscore(A)
A es la matriz formada por las muestras (filas) y los atributos numéricos (columnas).
Los componentes principales se obtienen con la función pca:
126
TÉCNICAS Y HERRAMIENTAS UTILIZADAS
[COEFF, SCORE, LATENT] = pca (Z)
COEFF es una matrix pxp, cada columna contiene los coeficientes para un componente principal, las
columnas están en orden decreciente de la varianza del componente. SCORE contiene los componentes
principales reales, es la representación de Z en el espacio de componentes principales. Cada columna
corresponde a las observaciones (muestras) y cada columna a los componentes. LATENT contiene la
varianza de los componentes principales.
Para calcular la varianza acumulada contenida en cada componente principal se utiliza:
cumsum (var(SCORE)) / sum(var(SCORE))
3.2.4 COEFICIENTE DE CURTOSIS
Empleando el coeficiente Curtosis se puede determinar la concentración de los datos que se encuentran
más cerca a la media de la distribución independientemente del valor que tome su varianza. El
coeficiente de Curtosis está basado en el cuarto momento con respecto a la media. Si se determina que
los datos están concentrados alrededor de la media se puede aplicar la distancia de Mahalanobis para
determinar aquellos vectores atípicos de las muestras pertenecientes a una clase o que pertenecen a la
otra clase y que podrían provocar errores en la clasificación con la SVM. El coeficiente de Curtosis viene
dado por la fórmula:
n
k
n    xi  x m 
2
i 1
  x  x 2 
m
 i

 i 1

n
2
3
Donde xi es cada uno de los valores; n número de datos y xm media aritmética. Si k  0 los datos se
distribuyen de forma normal y se denomina mesocúrtica, si k  0 la distribución es más empinada que la
curva normal se denomina leptocúrtica, si k  0 la distribución es más aplanada que la curva normal y se
denomina platicúrtica. En Matlab se utiliza la función kurtosis:
k= kurtosis(X)
Donde X es la matriz de datos de entrada y k contiene un vector fila con los coeficientes de Curtosis para
cada columna.
127
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
3.2.5 DISTANCIA DE MAHALANOBIS
La distancia de Mahalanobis es una forma de determinar la similitud entre dos variables aleatorias
multidimensional y ayuda a la detección de valores atípicos; y está definida como:
 
 
 
d m2 ( x , y )  ( x  y ) T  1 ( x  y )


Donde:  es la matriz de covarianza entre x e y , 1 es su inversa.
Además, su importancia radica en ofrecer medidas de distancia en un espacio invariante ante los
cambios de escala (no depende de las unidades de medida) en el que se corrigen las correlaciones entre
las variables; es decir, su valor disminuye a medida que aumenta la correlación entre las variables. Se
puede hacer algunas observaciones:
1.) Si las variables no están correlacionadas r  0 la distancia de Mahalanobis coincide con la distancia
euclídea normalizada.
2.) Si la varianza de las variables son iguales a 1 (matriz identidad) o si la distancia de Mahalanobis es
calculada en el espacio de los componentes principales, ambas coinciden con la distancia euclídea.
Aunque Matlab tiene su propio script para calcular distancia de Mahalanobis, en esta ocasión se prefirió
crear un código aparte que mostró mejores resultados para esta investigación en particular. Para el
cálculo de esta distancia se utilizó la matriz SCORE obtenida en el espacio de los componentes
principales (se utilizó 2 componentes principales) y el código es el siguiente:
Se obtiene la matriz de covarianza con la función:
Y = cov (SCORES)
Luego la matriz inversa de la matriz de covarianza Y, con la función:
Yi = inv(Y)
El valor medio de las muestras con la función:
Amean= mean (SCORES)
Se obtiene el tamaño de la matriz SCORE:
[n m] = size (SCORES)
La distancia de cada muestra al valor medio:
d1 = (SCORES –repmat (Amean, [n 1]))
Finalmente, se obtiene la distancia de Mahalanobis:
d2
128
=
sqr
(diag
(d1*Yi*d1'))
CAPÍTULO 4
FUENTE DE LOS DATOS. PREPARACIÓN DE LAS MUESTRAS
Uno de los objetivos de la presente investigación se enfoca al área de la salud, en ayudar en el
diagnóstico de pacientes que sufren algún tipo de trastorno en el movimiento mediante técnicas
basadas en el aprendizaje automático y la toma de decisiones en tareas de clasificación. En el Capítulo 1
se indicó que el temblor es una de las enfermedades neurológicas más frecuentes de los trastornos del
movimiento y con propósitos de este estudio se lo había dividido en: temblor fisiológico, como el
temblor normal que presentan todo tipo de persona y que en la mayoría de personas es imperceptible;
y temblor patológico, como el temblor de los pacientes en donde predominan las alteraciones en forma
y velocidad de sus movimientos, entre estos están el temblor esencial (TE) y el temblor provocado por la
enfermedad de Parkinson (EP). Hasta el momento se ha hecho referencia a las herramientas y las
técnicas las cuales serán de gran ayuda para conseguir este objetivo, pero antes de utilizarlos se
menciona la fuente de los datos y la preparación de las mismas en base a conseguir los mejores
atributos (medidas) que caractericen a cada una de las muestras, obtenidas durante las pruebas
realizadas a los pacientes a través de un novedoso sistema llamado DIMETER que utiliza un dispositivo
háptico llamado PHAMToN.
4.1 PRUEBAS PARA EVALUAR EL TEMBLOR
La base de datos fue obtenida a través de varias pruebas realizadas a los pacientes con temblor esencial
y enfermedad de parkinson del Hospital Ramón y Cajal y el Hospital La Princesa de Madrid-España,
mediante un sistema denominado DIMETER, capaz de generar un entorno virtual para el paciente
(aplicación de fuerzas) y transmitir información entre ellos a través del sentido del tacto al manipular
129
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
objetos virtuales, el sistema realiza el sensado de la posición en 3 dimensiones (a lo largo de los ejes X,
Y, Z) efectuando respectivamente la retroalimentación de fuerzas, sobre el movimiento realizado por la
mano o dedo del paciente, éstos datos posteriormente permitirá realizar una identificación e
interpretación del temblor y establecer técnicas para el diagnóstico de pacientes. El sistema DIMETER
consta de un software, un ordenador y un dispositivo periférico llamado PHAMToN.
El PHAMToN, es un dispositivo electromecánico de interfaz háptica que permite la interacción del ser
humano en un ambiente de visualización virtual. Es un dispositivo dotado de sensores de posición y
velocidad angular en sus articulaciones, y de motores que crean las fuerzas de retorno hacia el sistema
kinestésico (sensaciones de movimiento originados por el músculo, tendones y uniones) para simular la
sensación de tocar, manipular, sentir, crear o coger, es decir la interacción con objetos virtuales, sólidos
o deformables como por ejemplo, una esfera, una línea, un punto, una herramienta, etc. El usuario no
solo envía información al ordenador a través del PHAMToN sino que también puede recibir información
del ordenador y ser percibida en forma de sensación.
Son dispositivos que funcionan bajo el control de impedancia con respecto a su entrada/salida, es decir
el usuario mueve el dispositivo (desplazamiento) y si es necesario el dispositivo reacciona con una fuerza
La información del temblor de cada paciente fue obtenida a través de un conjunto de pruebas y
procedimiento supervisados por expertos médicos e ingenieros quienes guían a los pacientes durante su
ejecución. El paciente sentado frente a la pantalla de un ordenador coloca su dedo en un dedal acoplado
en el extremo del brazo articulado del PHAMToN y se le muestra en la pantalla un modelo de objeto
virtual, que consiste en una serie de "patrones" que el paciente tiene que ejecutar, similar a lo mostrado
en la Figura 4.1, el sistema captura los datos a una frecuencia de 100 muestras de segundo,
posteriormente son guardados en un ficheros de texto, ficheros que contiene información como la
posición y las fuerzas en cada uno de los 3 ejes que permitirá bajo un procesamiento adecuado
caracterizar el temblor. Las pruebas realizadas utilizan objetos virtuales en 2D y 3D y están divididas en
pruebas estáticas, cinéticas y dinámicas.
En las pruebas estáticas, el paciente conserva una postura inmóvil mientras ejecuta la prueba. Las
pruebas cinéticas al paciente se le indica que mueva su mano ejecutando el patrón que se le presenta en
la pantalla. Las pruebas dinámicas crean las fuerzas que se opondrán al movimiento de ejecución del
patrón. El sentido de dividir las pruebas está dirigido a encontrar mejores características discriminantes
para lograr clasificar los temblores, así un paciente con EP cuando su actividad muscular está ausente
130
FUENTE DE LOS DATOS – PREPARACIÓN DE LAS MUESTRAS
presenta un temblor de reposo y mientras realiza las pruebas estáticas se pretende que éste
comportamiento se distinga de los pacientes con TE. De igual manera con las pruebas cinéticas un
paciente con TE aumenta su temblor cuando cambia su postura o realiza un movimiento especialmente
cuando trata de alcanzar un objetivo (temblor intencional), y las pruebas dinámicas en las que se utilizan
fuerzas que se oponen al movimiento y con ello atenúan al temblor. Cabe indicar que la fidelidad de las
pruebas depende de muchos factores entre estos: la edad del paciente, de si ese encuentra bajo
medicación, del su estado físico, del estado de ánimo y predisposición del paciente, consumo de drogas,
si tiene otras enfermedades, progreso de la enfermedad e incluso de la experticia de quien supervisa las
pruebas.
Exactamente estas condiciones complejas del mundo real son las que hacen posible que se creen
algoritmos y procedimientos computacionales, cada vez más potentes que logren encontrar solución a
los problemas a los que se enfrenta el ser humano.
Figura 4.1 Espacio de trabajo. Ordenador, Dispositivo háptico PHAMToN y paciente.
La base de datos proporcionada por el tutor sobre la que se origina la investigación consta de las
muestras realizadas a 23 pacientes con la enfermedad de parkinson, 7 pacientes con temblor esencial y
20 pacientes que fueron diagnosticados con temblor fisiológico, cada uno realizó varias pruebas con los
patrones virtuales sobre sus dos manos, en algunos casos se realizaron en dos sesiones y cuando lo
consideraron factible se hicieron las pruebas sobre una mano, la más afectada y en ocasiones la misma
prueba dos veces, con lo que más adelante se necesita examinar cada uno de los ficheros para evitar
información incompleta o duplicada.
131
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
4.2 OBTENCIÓN DE PATRONES
Cada una de las pruebas que realizan los pacientes siguiendo el modelo de una figura virtual mostrada
en la pantalla del ordenador, constituyen las muestras o patrones y que fueron diseñados de forma que
cada paciente las pueda ejecutar, se consideraron patrones simples como hacer un punto o una línea
hasta patrones más complejos como una espiral o una sinusoide, con el fin de obtener la mayor
información relacionada a cómo el temblor actúa cuando al paciente realiza un movimiento voluntario.
Existen 19 patrones divididos en cinéticos, estáticos y dinámicos. Durante las pruebas se registra la
posición de la mano en los 3 ejes X, Y, Z con respecto al tiempo y a las coordenadas de referencia del
PHAMToN. El paciente verá simulado sus movimientos por medio de un cursor en la pantalla. Las
gráficas de los patrones fueron obtenidos del trabajo desarrollado por [88] y son citados en el presente
trabajo de investigación porque son la fuente de la base de datos para ser analizados.
4.2.1 PATRONES ESTÁTICOS
Existen dos pruebas realizadas con este patrón, registrados como PT1 y PT2 en los ficheros, el paciente
no realiza ninguna acción de movimiento con la mano, permanece inmóvil con el dedo en el dedal
durante las pruebas, especialmente orientados a los pacientes con parkinson para evaluar su temblor de
reposo.
Patrón 1 (PT1): En esta prueba el paciente permanece sentado frente a la pantalla en donde visualiza
una diana como la presentada en la Figura 4.2 y con el codo descansando sobre un apoyo y formando un
ángulo de 90 grados entre el brazo y el antebrazo mantiene esa postura durante el periodo de prueba.
Figura 4.2 Patrón 1 y 2 de las pruebas estáticas.
132
FUENTE DE LOS DATOS – PREPARACIÓN DE LAS MUESTRAS
Patrón 2 (PT2): El paciente mantiene estirado su brazo apuntando el centro de la diana mostrada en la
pantalla (Figura 4.2), indicando el área de color rojo, con el fin de capturar el temblor de postura en los
pacientes con TE que tienden a temblar más cuando adquieren una postura contraria a la dirección de la
gravedad (brazos extendidos), aunque a la vez resulte complicado en pacientes con EP quienes
presentan rigidez en sus músculos lo que impide que puedan extender el brazo en su totalidad.
4.2.2 PATRONES CINÉTICOS
Son doce patrones utilizados en las pruebas cinéticas denominadas desde PT3 hasta PT14 en los ficheros
de cada muestra, éstos son patrones ideados y diseñados para capturar el comportamiento del temblor
cuando el paciente trata de alcanzar un objeto (temblor intencional) sin ninguna fuerza que lo restrinja.
Existen patrones dirigidos a realizar el movimiento en una dirección y otros más complicados en dos
direcciones, tanto en 2D como en 3D, que miden la capacidad del paciente para realizar la tarea. Los
pacientes deben seguir la figura presentada en la pantalla mediante un cursor, iniciando desde el punto
A hasta el punto B y luego regresar. Las medidas que se toman es la desviación con respecto a la
trayectoria del patrón. Entre estos patrones se tiene:
El patrón 3 (PT3), es una línea recta horizontal como la mostrada en la Figura 4.3, el movimiento es de
izquierda a derecha. El patrón 4 (PT4), es una línea inclinada como la mostrada en la Figura 4.4, el
movimiento es de abajo hacia arriba.
Figura 4.3 Patrón 3.
Figura 4.4 Patrón 4.
El patrón 5 (PT5), es una línea inclinada como la mostrada en la Figura 4.5, el movimiento es de arriba
hacia abajo. El patrón 6 (PT6), es una línea recta vertical, el movimiento es de abajo hacia arriba, está
representado en la Figura 4.6.
133
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
Figura 4.5 Patrón 5.
Figura 4.6 Patrón 6.
El patrón 7 (PT7), es una elipse como la mostrada en la Figura 4.7, los datos registrados de la posición
van a estar variando en dos direcciones con respecto a los X e Y.
Figura 4.7 Patrón 7.
Figura 4.8 Patrón 8.
Figura 4.9 Patrón 9.
El patrón 8 (PT8), es una espiral de Arquímedes, como la indicada en la Figura 4.8 el objetivo es seguir la
trayectoria desde el exterior hacia el centro. El patrón 9 (PT9), también es una espiral a diferencia de la
anterior, el camino de la trayectoria es más estrecho, se muestra en la Figura 4.9. El patrón 10 (PT10), es
134
FUENTE DE LOS DATOS – PREPARACIÓN DE LAS MUESTRAS
una sinusoide, el paciente tiene que seguir la trayectoria (línea negra) que va desde el punto A hasta el
punto B como se muestra en la Figura 4.10. El patrón 11 (PT11) se muestra en la Figura 4.11 al igual que
la anterior es una sinusoide pero de amplitud variable, iniciando en el punto A con una amplitud mayor
y conforme se acerca al punto B la amplitud disminuye. En todos éstos patrones los datos registrados
son la posición en el plano X e Y, además requieren del paciente mayor concentración para coordinar
sus movimiento mientras realiza las pruebas.
Figura 4.10 Patrón 10.
Figura 4.11 Patrón 11.
Para los patrones 12, 13 y 14 se construyó una estructura con las dimensiones que se indican en la
Figura 4.12 se trata de dos varillas sobre las que se coloca una goma elástica, se pueden dar diferentes
configuraciones para obtener patrones en 3D.
Figura 4.12 Estructura utilizada en patrones 12, 13 y 14.
Figura 4.13 Patrón 12.
El patrón 12 (PT12) es una línea recta horizontal como se indica en la Figura 4.13, el patrón 13 (PT13) es
una línea recta tiene con la configuración que se muestra en la Figura 4.14 y el patrón 14 (PT14) es tal
como se muestra en la Figura 4.15, una línea transversal.
135
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
Figura 4.14 Patrón 13.
Figura 4.15 Patrón 14.
4.2.3 PATRONES DINÁMICOS
Los patrones incluidos en las pruebas dinámicas son similares a los utilizados en las pruebas estáticas y
cinéticas, pero en este caso el sistema genera las fuerzas que tratarán de oponerse al movimiento de la
mano del paciente percibiendo una sensación de colisión con un objeto virtual por lo que éste tendrá
que realizar un mayor esfuerzo para ejecutarlas. Para calcular las fuerzas que siente el paciente se
determina por la ley de elasticidad de Hooke.
Cabe destacar que cuando se aplican fuerzas externas al temblor en reposo (pacientes con EP) tiende a
atenuarse en gran medida, por lo que se considera que ayudará como una prueba determinante para
diferenciar del resto de temblores.
El patrón 15 (PT15) es similar al patrón 2; el patrón 16 (PT16) y el patrón 17 (PT17) utiliza el patrón 3
pero con diferentes valores de fuerzas; el patrón 18 (PT18) es similar al patrón 8 y finalmente el patrón
19 (PT19) es igual al patrón 13 (en 3 dimensiones y con aplicación de fuerzas).
4.3
FILTRADO Y CARACTERIZACIÓN DEL TEMBLOR
Entre los futuros desarrollos presentados por los trabajos anteriores, siguiendo la misma línea y
objetivos de la investigación, propusieron buscar nuevas técnicas de optimización para lograr mejorar
los resultados obtenidos. La máquina de soporte vectorial, es una herramienta robusta y eficaz con muy
buenos resultados en la aplicación de tareas de clasificación en problemas de la vida real y que ayudará
a conseguir el objetivo planteado, clasificar entre las distintas clases de patologías del temblor. En base
136
FUENTE DE LOS DATOS – PREPARACIÓN DE LAS MUESTRAS
que este trabajo de investigación es una continuación de trabajos anteriores, muchos de los fragmentos
son citados nuevamente, con el fin de dar continuidad y ser más explícitos en los nuevos métodos y
procedimientos de los ensayos que se realizaron.
Muchos esfuerzos fueron realizados por C. Rubio en su trabajo [85], tratando de encontrar la parte
invariante del temblor y creando un filtro que tenga la capacidad de eliminar el temblor que acompaña
al movimiento. Los datos de las muestras de los pacientes (Sección 4.2) fueron analizadas mediante un
tipo de red neuronal artificial llamada perceptrón multicapa MLP.
Varias pruebas fueron realizadas en el dominio del tiempo y en el dominio de la frecuencia
(transformadas de Fourier) para filtrar las series temporales de las pruebas realizadas, a pesar de haber
modificado varios parámetros como: el número de vectores de entrenamiento, el número de épocas, el
número de neuronas en la capa oculta y de la capa de salida; la red no fue capaz de aprender, de forma
que para cualquier muestra nueva presentado a la red su salida era la misma. Otro método utilizado fue
que la red neuronal sea quien ayude a definir los parámetros para crear el filtro, pero esto no condujo a
resultados satisfactorios, el error mínimo alcanzado fue del 20%.
Con estos antecedentes, la labor fue orientada a conseguir medidas que caractericen al temblor. El uso
de estadísticas de segundo orden PSD, no fue suficiente para lograr discriminar los tipos de temblor
debido a que la densidad de poder espectral y la frecuencia del temblor se encuentran en rangos muy
similares. Pero existe un factor muy importante a ser tomando en cuenta y es que muchas de las
muestras pueden estar contaminadas de ruido provenientes de varios factores, así se está en presencia
de un proceso no lineal y no Gaussiano, por lo que se optó utilizar las herramientas de estadística de
orden superior HOSA, los espectros de tercer y cuarto orden llamados biespectros y triespectros,
respectivamente, que son capaces de detectar y caracterizar las propiedades no lineales de una señal.
Como se mencionó, lo que se busca es caracterizar cada tipo de temblor y que posteriormente sirva
para diferenciarlos, para ello se aplicó las estadísticas de segundo orden PSD y los espectros de orden
superior HOSA para extraer medidas de cada una de las pruebas. Hay que recordar que cada prueba fue
obtenida siguiendo la trayectoria de un patrón determinado y la información fue registrada por el
sistema DIMETER a una frecuencia de 100 muestras por segundo a través del dispositivo háptico
PHAMToN, cuya precisión es de 0.03 mm, lo que significa que durante las pruebas la posición de mano
del paciente será registrado con una alta precisión.
137
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
4.3.1 FILTRADO DEL TEMBLOR
Para iniciar con la extracción de medidas se contó inicialmente con una base de datos de 93 muestras
válidas, donde los pacientes realizaron la mayor cantidad de pruebas (las pruebas de cada mano se
considera una muestra), de las cuales:

10 pertenecen a los 7 pacientes con temblor esencial,

47 corresponden a 23 pacientes con temblor parkinsoniano, y

36 que pertenecen a 20 pacientes con temblor fisiológico.
Las series temporales de las pruebas realizadas necesitan ser filtradas, para ellos se emplea un filtro
digital paso alto para eliminar las componentes del movimiento sobre la trayectoria de algunos patrones
como las espirales o las sinusoides y también eliminar las tensiones de offset. El rango de frecuencia en
la que se produce el temblor en pacientes con EP y TE según lo indicado en el Capítulo 1, éste se
encuentra entre generalmente en un rango de 3-12Hz, por lo que es conveniente que todas las
frecuencias menores sean descartadas.
Se construyó un script en Matlab con la función butter que permite diseñar un filtro digital paso alto
Butterworth de orden N y devuelve en el vector B (numerador) y en el vector A (denominador) de
longitud N+1 los coeficientes del filtro:
[B, A] = butter (N, Wn, 'high')
Donde: N=7;
Wn: es la frecuencia normalizada definida como fcutoff/fNyq; fcutoff=3Hz; fNyq= Fs/2;
Fs=100Hz es la frecuencia de muestreo. 'high': diseña el filtro paso alto.
Una vez diseñado el filtro digital paso alto, se filtran las señales que ingresan en forma de vectores,
como cada prueba varía en duración, se estableció que cada vector de entrada tenga un periodo de
observación de aproximadamente 10 segundos, posteriormente se filtró cada señal utilizando la función
filtro, pasando los datos de cada muestra en el vector x por el filtro descrito por los vectores A y B:
X = filtro (B, A, x)
Donde: X es la señal filtrada.
138
FUENTE DE LOS DATOS – PREPARACIÓN DE LAS MUESTRAS
4.3.2 CARACTERIZACIÓN DEL TEMBLOR
El temblor esencial (TE) y la enfermedad de parkinson (EP), se encuentran entre los trastornos de
movimiento más frecuentes, el solapamiento entre los síntomas y signos conlleva a que clínicamente
sean confundidos por ser patologías muy similares (temblor) y más aún cuando se habla del hecho de
que una sea el factor de riesgo para la otra. Si bien la EP presenta el típico temblor de reposo, también
se expresa como un temblor postural muy similar al del TE y es una de las causas que dificulta el
diagnóstico. Una forma de temblor postural en la EP es el temblor reemergente y se manifiesta tras un
periodo de latencia al mantener una postura en concreto presentando y es muy similar al temblor de
reposo parkinsoniano, especialmente en su frecuencia. Otros síntomas como la depresión, la fatiga, la
pérdida de peso y el deterioro cognitivo también relacionan a ambas patologías.
Con respecto al tratamiento, ambas patologías tiene caminos distintos, las terapias y medicamentos
utilizados para tratar la EP no funcionan para tratar el TE y viceversa; si un médico diagnostica
erróneamente la enfermedad de un paciente puede someterlo a tratamientos equivocados. Éstos
antecedentes reafirman el objetivo de esta investigación, caracterizar al temblor de forma que logren
ser diferenciados y mediante técnicas de aprendizaje automático contribuir al diagnóstico.
En el trabajo realizado por C. Rubio [85] se logró encontrar medidas para caracterizar el temblor.
Utilizando la densidad espectral de potencia PSD con el método de Welch se obtuvo 9 medidas y con los
espectros de orden superior: biespectro y triespectro se obtuvo 10 y 7 medidas respectivamente (el
código utilizado en Matlab es el indicado en la Sección 3.2.1 y 3.2.2).
El código del programa utilizado en [85] tuvo que ser ligeramente modificado con el que se obtuvo
vectores con 26 medidas (atributos numéricos), a partir de las series temporales de cada prueba. En la
Tabla 4.1 se indica las medidas y su formulación.
Una vez obtenidas las medidas de todas las pruebas, se debe hacer una inspección minuciosa de la base
de datos en búsqueda de información faltante, de hecho se pudo comprobar que no todos los pacientes
realizaron todas las pruebas o al menos en la base de datos no se encontraron algunos registros,
optando por separarlos ya que la matriz de datos (formados por los muestras y sus atributos) que servirá
como entrada para entrenar la máquina de soporte vectorial debe en lo posible evitar datos
incompletos.
139
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
Durante el procesamiento de los datos se pudo encontrar en las muestras, atributos con valores cero o
valores muy pequeños que el algoritmo LIBSVM los redondeaba a cero, al momento de normalizarlos no
existía un máximo ni un mínimo provocando advertencias. Otra circunstancia que se observó es que
existían pruebas realizadas dos veces por el paciente con la misma mano, se optó por conservar la que
tenía la mayor cantidad de pruebas.
Un problema que ya se puedo visualizar para el caso de la clasificación entre las muestras EP y TE, fue el
desbalance en número. Las muestras de la EP fueron 5 veces más que las muestras de TE, más adelante
se indica bajo que análisis se basó para disminuir esta relación. Las SVMs tienen esa desventaja, que en
la clasificación de dos clases cuando éstas están desbalanceadas, la clase mayoritaria tiende a prevalecer
y cuando se presenta un nuevo patrón de cualquier clase tiende a ser asignado a la clase mayoritaria.
Descripción de la medida
Fórmula
1. Máximo valor de PSD.
max (PSD)
2. Máximo de la frecuencia de PSD.
fmax (PSD)
3. Número de muestras del espectro para valores de PSD por encima del 0.72%.
N0.72% (PSD)
4. Número de muestras del espectro para valores de PSD por encima del 2.42%.
N2.42% (PSD)
5. Número de muestras del espectro para valores de PSD por encima del 95.3%.
N95.3% (PSD)
6. Momento de primer orden de PSD (media).
m1 (PSD)
7. Momento de segundo orden de PSD (varianza).
m2 (PSD)
8. Momento de cuarto orden de PSD.
m4 (PSD)
9. Momento de quinto orden de PSD.
m5 (PSD)
10. Suma de los valores de la diagonal del biespectro.
S (diag|bisp|)
11. Suma de los valores del biespectro.
S (|bisp|)
12. Suma de los logaritmos de los valores de la diagonal del biespectro.
S (log(diag|bisp|))
13. Suma de los logaritmos de los valores del biespectro.
S (log(|bisp|))
14. Momento de primer orden de la diagonal del biespectro.
m1 (diag|bisp|)
15. Momento de segundo orden de la diagonal del biespectro.
m2 (diag|bisp|)
16. Momento de primer orden del logaritmo de la diagonal del biespectro.
m1 (log(diag|bisp|))
17. Valor máximo de la diagonal del triespectro.
max (diag|trisp|)
18. Suma normalizada de los valores de la diagonal del triespectro.
Sr (diag|trisp|)
19. Momento de primer orden de la diagonal del triespectro.
m1 (diag|trisp|)
20. Momento de segundo orden de la diagonal del triespectro.
m2 (diag|trisp|)
21. Momento de tercer orden de la diagonal del triespectro.
m3 (diag|trisp|)
22. Número de muestras de la diagonal del biespectro por encima del 0.29%.
N0.29% (diag|bisp|)
23. Número de muestras de la diagonal del biespectro por encima del 4.3%.
N4.3% (diag|bisp|)
24. Número de muestras de la diagonal del triespectro por encima del 0.15%.
-6
N0.15% (diag|trisp|)
25. Número de muestras de la diagonal del triespectro por encima del 5.6x10 %.
N5.6e-6% (diag|trisp|)
26. Momento de quinto orden de la diagonal del biespectro.
m5 (diag|bisp|)
Tabla 4.1 Caracterización de temblor como vectores de 26 medidas. La fuente de esta tabla es [85].
140
FUENTE DE LOS DATOS – PREPARACIÓN DE LAS MUESTRAS
4.4 NORMALIZADO Y ESTANDARIZADO DE LOS DATOS
Debido a la naturaleza de las medidas "atributos numéricos" y sus distintas magnitudes, es necesario
escalarlos o estandarizarlos para poder ser utilizados en los distintos procedimientos que se desarrollan
en esta investigación. En primer lugar se hacen unas definiciones:

Normalizado de un vector significa dividir par una norma del vector para hacer la longitud
euclidiana del vector igual a uno. Muchas veces normalizar se refiere al cambio de escala por el
valor mínimo y el rango del vector de modo que todos los elementos se encuentren entre [0,1] o
[-1,1] y aunque el rendimiento es el mismo, el tiempo de cálculo puede ser diferente. Para los
datos con muchas entradas cero, el escalado [0,1] mantiene la dispersidad de los datos de
entrada y por lo tanto puede ahorrar el tiempo

Estandarizar de un vector significa restar el valor medio de los datos a cada uno de sus
componentes y luego dividirlo para la desviación estándar y así se obtiene una variable aleatoria
de media cero y desviación estándar uno.
El normalizado de los datos será necesario para la fase de aprendizaje y clasificación con los conjunto de
entrenamiento y prueba, respectivamente. El estandarizado se aplicará sobre la matriz compuesta por
las muestras y sus atributos para el análisis de los componentes principales.
Tanto en el normalizado como en el estandarizado, involucra un escaldo de los datos, por ofrecer las
siguientes ventajas:

Evitar que los atributos de rangos numéricos altos prevalezcan sobre los de rangos numéricos
más pequeños.

Evitar dificultades numéricas durante el cálculo, debido a que los valores del kernel depende de
un producto escalar de los vectores características, atributos con valores muy altos podrían
causar problemas numéricos.

La fase de aprendizaje es más rápida.
Hay que tener en cuenta que el método de escalado se calcula a partir de los datos del conjunto de
entrenamiento. Los datos de prueba deben escalarse en el mismo rango que los datos de
entrenamiento. En la librería LIBSVM (Sección 3.1) se indica las funciones utilizada para el normalizado
de los datos de entrada para la SVM. Para este trabajo e investigación todos los datos fueron escalados
en el rango [0,1].
141
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
4.5 SELECCIÓN DEL MODELO DE SVM
Las máquinas de soporte vectorial tienen su esencia en la selección de la función kernel o función núcleo
 


K ( x i , x j )   ( x i )   ( x j ) que hace un mapeo de los datos entrada desde un espacio donde no son
separables linealmente a un espacio de características de mayor dimensión en donde pueden ser
separados linealmente. Encontrar las funciones sobre las que se mapea en el espacio de características
es un gasto computacional muy grande (incluso de la dimensión puede ser infinita), afortunadamente
dentro de la función objetivo las SVMs existe un producto escalar (producto punto) que puede ser
calculado en el espacio de las entradas. Por otro lado una función kernel debe satisfacer ciertas
condiciones lo que ha dado lugar a que su número sea limitado, entre los kernel que han dado buenos
resultados se encuentran el kernel lineal, kernel Gaussiano RBF, kernel polinomial y kernel sigmoidal
(para mayores detalles, véase la Sección 2.11.2).
Para que las SVMs puedan ser utilizadas como técnica de aprendizaje en problemas reales, debe ser
considerada en la forma que permite un grado de error en la clasificación a la vez que se penaliza los
errores, es decir la SVM no lineal de margen flexible que implementa el parámetro de regularización C
que es un parámetro que debe ser ajustado por el usuario y determina la holgura del margen flexible
aumentando o disminuyendo la penalización para los errores de clasificación (Sección 2.10.2.1).
4.5.1 SELECCIÓN DE LA FUNCIÓN KERNEL
En el ejemplo de aplicación de la Sección 2.13, se dejó de manifiesto que utilizar kernel Gaussiano RBF
conduce a buenos resultados siempre y cuando los parámetros sean seleccionados en base a un
procedimiento de validación cruzada. Un punto clave es que la función kernel mantiene sus valores en
 
un rango 0  K ( xi , x j )  1 disminuyendo la dificultad numérica.
Además, un kernel lineal es un caso particular de kernel Gaussiano RBF (Keerthi y Lin, 2003)103 dado que
un kernel lineal con un parámetro de penalidad C tiene el mismo funcionamiento que el kernel
~
Gaussiano RBF con algunos parámetros (C , ) , es decir, si  2   y C   2 C . Del mismo modo, el
kernel sigmoidal se comporta como un kernel Gaussiano RBF para ciertos parámetros (Lin y Lin, 2003) 104,
aunque en general su uso es evitado, al parecer la función kernel sigmoidal podría en ciertas
circunstancias no ser una matriz definida semi positiva que es una de las condiciones para que sea
considerado como una función kernel (en su formulación no existe el producto escalar de dos vectores).
142
FUENTE DE LOS DATOS – PREPARACIÓN DE LAS MUESTRAS
La función kernel polinomial presenta dificultades numéricas, los valores de la función kernel
 
 
( p  xi  x j  1) d tiende a infinito, mientras los valores ( p  xi  x j  1) d tiende a cero cuando el grado d
es alto. Otra limitante es que existen muchos más parámetros para ajustar.
4.5.2 SELECCIÓN DE PARÁMETROS. VALIDACIÓN CRUZADA-MALLA DE BÚSQUEDA
Para entrenar la SVM, el usuario tiene que especificar los parámetros del kernel y el término de
regulación C . La librería LIBSVM (Sección 3.1) contiene una herramienta útil para comprobar una
cuadrícula de parámetros y encontrar el valor de los parámetros a través de una validación cruzada con
la más alta precisión.
Como se indicó en la sección anterior, el kernel Gaussiano RBF es el más indicado para iniciar con el
entrenamiento de la SVM y es el utilizado para en esta investigación ya que solo existen 2 parámetros
que necesitan ser ajustados. La forma que emplea la LIBSVM para el kernel Gaussiano RBF es:
 
 
K ( xi , x j )  exp  || xi  x j || 2 
Donde:   1/ 2 2 según la expresión (2.91). Con este kernel los valores de (C , ) tienen que ser
ajustados. El intervalo de C o  y el espacio de la cuadrícula de la malla pueden ser proporcionados por
el usuario o se pueden utilizar los que vienen predeterminados, formando una malla de búsqueda. El
objetivo es encontrar el punto de la malla (C , ) que dado una parte del conjunto de entrenamiento
encuentre la combinación de los parámetros para los cuales durante la clasificación de dicho conjunto
provoquen el menor error. Luego, los parámetros encontrados son utilizados para entrenar todo el
conjunto de entrenamiento y generar el modelo final.
Para encontrar (C , ) se tiene que dividir el conjunto de entrenamiento en (C , ) en n subconjuntos
de igual tamaño, secuencialmente un subconjunto es probado usando el clasificador entrenado en los
restantes subconjuntos n - 1 . De esta forma, cada instancia de todo el conjunto de entrenamiento es
sometido a prueba una vez. La precisión de la validación cruzada indica el porcentaje de datos que son
correctamente clasificados. La Figura 4.16 muestra la idea de la validación cruzada.
143
subconjunto de subconjunto
entrenamiento de validación
subconjunto
de validación
subconjunto de
entrenamiento
Validación Cruzada
conjunto de
entrenamiento
conjunto
de
prueba
Base
de
Datos
conjunto de
entrenamiento
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
Figura 4.16 Implementación de la "malla de búsqueda" utilizando un bucle anidado de validación cruzada para
encontrar la combinación de los parámetros C y  para el menor error en la clasificación.
El procedimiento de validación cruzada puede prevenir problemas de sobreajuste. Se ha encontrado que
tratando secuencias de crecimiento exponencial de C y  es un método práctico para identificar
buenos parámetros, por ejemplo C  2 5 ,2 3 , . . ,215 y   2 15 ,2 13 , . . ,2 3 . Este método evita hacer una
búsqueda exhaustiva de parámetros por aproximaciones o heurística, la LIBSVM brinda la posibilidad de
graficar los resultados como la mostrada en la Figura 4.17, la zona enmarcada de color verde indica la
mayor exactitud del procedimiento de validación cruzada (en este ejemplo, la exactitud es 92.3077%) y
representa los parámetros (C , ) que pueden ser utilizados para generar el modelo del clasificador.
144
FUENTE DE LOS DATOS – PREPARACIÓN DE LAS MUESTRAS
Figura 4.17 Malla de búsqueda gruesa para una validación cruzada de 5 veces,  log 2 ( C )   5,15 , 2 y
 log 2 ( )  3,  15 ,  2 . El resultado indica que
C  0.5 y   8
También sirve para identificar el rango de los parámetros y de ser necesario cambiarlos generando un
mallado más fino, que proporcionará parámetros de ajuste más exactos durante la validación cruzada
como la mostrada en la Figura 4.18 (del ejemplo anterior aumentó la exactitud a 93.8462%). Para más
detalles de la nomenclatura utilizada en el programa de la LIBSVM, refiérase al ítem 6 de la Sección 3.1.
Figura 4.18 Malla de búsqueda más fina para una validación cruzada de 10 veces,  log 2(C )  3,3,1 y
 log 2 ( )  5,  1,  1 . El resultado indica que
C 1.0 y   8 .
El kernel Gaussiano RBF es el más utilizado en las máquinas de soporte vectorial, siendo ahora muy
conveniente realizar un análisis del comportamiento del clasificador SVM cuando los parámetros C y
 2 (siendo   1/ 2 2 ) toman valores muy grandes o muy pequeños, ayudando a una buena
compresión para emplear estrategias heurísticas más eficientes cuando el usuario se encuentra en la
ardua labor de buscar el valor de los parámetros que produzcan pequeños errores de generalización. A
continuación se indica algunos comportamientos asintóticos del clasificador SVM con un kernel
Gaussiano RBF y en la Figura 4.19 se hace una representación gráfica105:

Un subajuste severo hace que los datos de entrada sean asignados a la clase mayoritaria en los
siguientes casos:
a. Cuando  2 se mantiene fijo y C  0 ;
145
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
b. Cuando  2  0 y C se fija a un valor suficientemente pequeño; y
c. Cuando  2   y C se mantiene fijo.

Un grave sobreajuste crea pequeñas regiones a manera de islas alrededor de las muestras de
entrenamiento de la clase minoritaria y el resto del espacio de datos se clasifica como la clase
mayoritaria, esta circunstancia ocurre cuando:
d. Cuando  2  0 y C se fija en un valor muy grande.

También se produce un sobreajuste, no tan extremo como en el caso anterior, el clasificador
SVM separa estrictamente las muestras de entrenamiento en la siguiente condición:
e. Cuando  2 se mantiene fijo y C   .

Un caso particular se presenta cuando el kernel Gaussiano RBF se comporta como un kernel
lineal, en la siguiente situación:
~
~
~
f. Cuando  2   y C  C 2 cuando C se mantiene fijo ( C parámetro de penalización).
1
1
1
0.5
0.5
0.5
0
a.
0.5
1
5*
1
c.
0
0.5
*
log
0.5
0
a.
1
-5
* -2 * 0
0
*
1
2
4
6 *
0
1
1
0.5
0.5
0.5
a.
0.5
1
0
1
log C 0.5
*
1
0
f.
0.5
2
0
*
0.5
1
b.
0.5
1
0
e.
0.5
1
d.
0.5
1
Figura 4.19 Representación gráfica del comportamiento de los parámetros de un clasificado SVM con un kernel
Gaussiano RBF. Se considera un conjunto de datos con 11 ejemplos de la clase "+1" que es la clase mayoritaria
(cuadrados) y 7 ejemplo de de la clase "-1" que representan la clase minoritaria (triángulos). La gráfica central
146
FUENTE DE LOS DATOS – PREPARACIÓN DE LAS MUESTRAS
tiene en su entorno asteriscos (*) indicando para las correspondientes gráficas el comportamiento del clasificador
para distintos casos de combinación de C y  .
Cuando el número de atributos es mucho más grande que el número de muestras, puede que no exista
la necesidad de mapearlos a un espacio de características de alta dimensión, es decir el mapeo no lineal
no mejorará el rendimiento y lo más recomendable es utilizar un kernel lineal y solo existiría un
parámetro por buscar C . Se puede utilizar la validación cruzada implementada en el kernel Gaussiano
RBF para encontrar el valor de C al utilizar un kernel lineal, ajustando un falso  , es decir
 log 2( )  1, 1, 1 .
También se puede utilizar un kernel polinomial, existen tres parámetros de ajuste C , p y d (expresión
(2.90)). Desafortunadamente, la técnica utilizada en el kernel Gaussiano RBF no se puede aplicar para
encontrar los valores de éstos parámetros, pero del mismo modo la idea es hacer cuantas
combinaciones sea necesario hasta encontrar la mayor exactitud en la clasificación. En la Tabla 4.2 se da
un ejemplo de las distintas combinaciones que se puede probar siempre y cuando se considere p  0 .
Parámetro C
Grado del
polinomio
d
(0.1, 1)
(0.1, 2)
(0.1, 3)
(0.1, 4)
(0.1, 5)
(1, 1)
(1, 2)
(1, 3)
(1, 4)
(1, 5)
(10, 1)
(10, 2)
(10, 3)
(10, 4)
(10, 5)
(100, 1)
(100, 2)
(100, 3)
(100, 4)
(100, 5)
(1000, 1)
(1000, 2)
(1000, 3)
(1000, 4)
(1000, 5)
Tabla 4.2 Combinación de parámetros para elegir un modelo de SVM con kernel polinomial.
En conclusión, la selección del kernel y el ajuste de sus parámetros son la parte esencial para obtener el
modelo de la SVM y no es una tarea fácil, se tiene que trabajar con estrategias heurísticas, entrenando
muchas veces la SVM hasta obtener el mínimo error en la generalización. Trabajar con un kernel
Gaussiano tiene sus ventajas, de acuerdo a las consideraciones hechas se puede intuitivamente hacer un
juicio de si las soluciones no están siendo sobre ajustadas o sub ajustadas y cómo pueden ser evitadas
manejando el parámetro de regularización C que juega un papel muy importante si se toma en cuenta
que las SVM están enmarcadas dentro del principio de minimización del riesgo estructural SRM. Un
kernel polinomial puede ser utilizado, evitando grados demasiado altos para evitar el sobreajuste.
Finalmente un kernel lineal puede ser probado, teniendo en cuenta que el número de atributos de los
datos disponibles es alto, y anteriormente ya se indicó que para esta consideración utilizar un kernel
lineal puede generar buenos resultados.
147
CAPÍTULO 5
ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS
5.1 METODOLOGÍA DE LOS ENSAYOS
El objetivo de la investigación está encaminado en la búsqueda de un procedimiento para obtener un
modelo clasificador de la máquina de soporte vectorial (SVM) capaz de contribuir en el diagnóstico de
las patologías sobre pacientes con temblor fisiológico, temblor esencial (TE) y enfermedad de parkinson
(EP), utilizando para ello los datos obtenidos de las pruebas realizadas a los pacientes con el sistema
DIMETER y su posterior caracterización utilizando diferentes técnicas y herramientas matemáticas para
su tratamiento y análisis.
La tarea de clasificación implica separar una base de datos en conjuntos de entrenamiento y prueba.
Cada elemento dentro del conjunto de entrenamiento contiene un vector con varios atributos y una
etiqueta de clase asignada. La finalidad de la SVM es producir un modelo basado en los datos de
entrenamiento que ayude a predecir la etiqueta de los datos de prueba dados únicamente sus atributos.

El conjunto de entrenamiento está formado por los pares vector-etiqueta ( xi , y i ) para i  1 . . .N donde

x i   n e y i  {1,1} N , n es el espacio de entrada de n atributos. Las SVMs requieren la solución
del siguiente problema de optimalización (Sección 2.9):
Función objetivo:

Minimizar f ( x ) 
1  2
|| w ||
2 


maximizar el margen
Sujeto a las restricciones:


 y i ( w   ( x i )  b)  1   i

i  0

N
C  i
i 1

min. error entrenamiento
para i  1,..., N
149
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
Con C  0 , como parámetro definido por el usuario, es una penalidad para el término de error. Los

vectores de entrenamiento x i son mapeados a un espacio de alta dimensión por una función  . La SVM
encuentra un hiperplano de separación lineal con máximo margen en este espacio de alta dimensión. La
formulación dual de los multiplicadores de Lagrange brindan solución a las restricciones de desigualdad
(Sección 2.10.2.3) y permite utilizar una función kernel (Sección 2.11.2) que calcula un producto escalar
en el espacio de entrada en lugar de calcularlo en el espacio de alta dimensión que conllevaría a un
gasto computacional muy elevado.
La metodología utilizada durante el proceso de investigación se basa en 4 hipótesis en las que se
realizaron diferentes tratamientos de los datos, con el propósito de obtener vectores que caractericen al
temblor, entre estas a citar:
Hipótesis 1. Análisis del temblor mediante curvas de ajuste.
Hipótesis 2. Análisis de la amplitud y frecuencia del temblor.
Hipótesis 3. Análisis del temblor con técnicas de estadística de segundo orden PSD y espectros de
orden superior HOSA.
Hipótesis 4. Análisis del temblor con las técnicas de PSD, HOSA y el método de los componentes
principales ACP.
Posterior al análisis realizado en cada hipótesis, los datos obtenidos en forma de vectores son sometidos
a una tarea de clasificación y reconocimiento de patrones (Sección 2.8) con la técnica de aprendizaje
automático inducido por las máquinas de soporte vectorial. El software utilizado es la librería LIBSVM
(Sección 3.1) que contiene todas las herramientas necesarias para entrenar la SVM.
5.1.1 ENTRENAMIENTO DE LA SVM CON LIBSVM
A continuación se indica el procedimiento utilizado para la clasificación mediante la SVM y la obtención
del modelo del clasificador:
1. Formato de la base de datos.
150
1.1.
Transformación de los datos en el formato de la librería LIBSVM.
1.2.
Partición de los datos disponibles en los conjuntos de entrenamiento y prueba.
1.3.
Normalizado de los conjuntos de entrenamiento y prueba.
ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS
2. Fase de aprendizaje de la SVM.
2.1.
Selección de la función kernel.
2.2.
Validación cruzada para la selección de parámetros de ajuste.
2.3.
Entrenamiento de la SVM.
2.4.
Obtención del modelo clasificador/función de decisión.
3. Fase de prueba del modelo clasificador.
3.1.
Clasificación de los vectores del conjunto de prueba utilizando el modelo clasificador.
3.2.
Validación del modelo clasificador de la SVM.
4. Registro de los resultados.
5.1.1.1 FORMATO DE LA BASE DE DATOS
Con el conjunto de datos disponibles previamente procesados obtenidos de cada hipótesis deben ser
transformados al formato de la librería de LIBSVM (Sección 3.1.1) y hacer una partición aleatoria de la
base de datos en los conjuntos de entrenamiento y prueba. En el trabajo [88] sugieren utilizar una
relación del 80% y 20% pero en esta investigación tras una serie de pruebas realizadas se optó por
utilizar una relación muy similar, el 70% de las muestras para el conjunto de entrenamiento y el 30%
para las muestras del conjunto de prueba (Sección 3.1.2). Para evitar dificultades numéricas y acelerar el
proceso de aprendizaje los datos fueron normalizados a un rango [0,1] teniendo en cuenta que el
escalado se efectuó sobre el conjunto de entrenamiento, los datos de prueba fueron escalados al mismo
rango que los datos de entrenamiento (literal 3 de la Sección 3.1).
5.1.1.2 FASE DE APRENDIZAJE DE LA SVM
Debido a que los datos no son linealmente separables en el espacio de entrada, para la clasificación con
la SVM se utiliza el algoritmo presentado en la Sección 2.11, en donde se transforman los datos
utilizando los kernels: lineal, polinomial y Gaussiano RBF; la selección del kernel es el punto clave para
conseguir un buen modelo del clasificador (Sección 3.1.6 y Sección 4.5). El ajuste de los parámetros
libres de cada uno de los kernel ( , d , p ) y el parámetro de penalización (C ) se lleva a cabo mediante
una búsqueda heurística. La selección de la combinación de parámetros que genere el modelo de la
SVM con el menor error es a través de la validación cruzada de n-veces.
151
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
Hay que recordar que durante la validación cruzada el conjunto de entrenamiento se divide en n-veces
( n  5, 10) para una malla de búsqueda gruesa y fina con el fin de obtener los mejores parámetros de
ajuste. Utilizando la mejor combinación de los parámetros provenientes de la validación cruzada se
entrena la SVM sobre todo el conjunto de entrenamiento y se genera un modelo de clasificador o
función de decisión (Sección 3.1.4). El modelo contiene aquellas muestras más representativas llamados
vectores soporte, que contribuyen a la creación de la frontera de decisión y determinan el ancho del
margen del clasificador.
En la Sección 4.5.2 se dio algunos aspectos importantes que se debe tener en cuenta para entrever el
comportamiento del clasificador de si existe un sobreajuste o un subajuste según el valor que tomen los
parámetros buscados, el número de vectores soporte también juega un rol importante. Un número
elevado de vectores soporte en comparación al número de muestras de entrenamiento explícitamente
indica que existe un sobreajuste, mientras un número menor de vectores soporte pronostica una buena
generalización y por tanto un bajo error en la clasificación.
5.1.1.3 FASE DE PRUEBA DEL MODELO CLASIFICADOR
Cabe indicar que el modelo fue generado para mejorar el resultado sobre las muestras del conjunto de
entrenamiento y lo que se espera es que el modelo clasifique con el menor error posible las muestras
del conjunto de prueba su correspondiente clase o categoría, debido a que ambos conjuntos fueron
producidos a partir de un proceso aleatorio.
El modelo del clasificador, predice las etiquetas de las muestras de prueba y las separa comparando con
alguna similitud con las muestras del conjunto de entrenamiento. A partir de esta comparación se
realiza la validación del modelo que establece la capacidad de predecir y tomar decisiones correctas
cuando al sistema se le presente nuevas muestras.
Para validar el modelo se puede utilizar medidas que cuantifican su desempeño sobre los dos conjuntos
de entrenamiento y prueba, es decir el error cometido durante la clasificación mediante una matriz de
confusión o la curva ROC (acrónimo de Receiver Operating Characteristic, o Característica Operativa del
Receptor) cuya interpretación es la representación de la razón de verdaderos positivos (VPR) frente a la
razón de falsos positivos (FPR) según varía el umbral de discriminación (modelo) del clasificador.
152
ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS
5.1.1.4 REGISTRO DE LOS RESULTADOS
Cada hipótesis planteada tiene un procedimiento específico con el objeto de conseguir diferentes
atributos que caractericen a los vectores utilizados en el entrenamiento y en la obtención del modelo
clasificador de la SVM, para cada hipótesis los resultados cuentan con dos ensayos principales:
A. Clasificar entre pacientes con temblor fisiológico vs. pacientes con temblor patológico.
B. Clasificar entre pacientes con temblor patológico es decir, pacientes con temblor esencial vs.
pacientes con la enfermedad de parkinson.
Los resultados son registrados en una tabla en la que se compara el error cometido por el modelo del
clasificador de la SVM con diferentes kernel durante la fase de aprendizaje y la fase de clasificación, así
como el número de vectores soporte y los valores utilizados de los parámetros de ajuste obtenidos a
partir de la validación cruzada para el kernel Gaussiano RBF o un ajuste manual del parámetro de
regulación (C ) para los kernel polinomial y lineal.
5.2 HIPÓTESIS 1. ANÁLISIS DEL TEMBLOR MEDIANTE CURVAS DE AJUSTE
Utilizando la herramienta cftool (Curve Fitting tool) de Matlab se crearon curvas de ajuste dependiendo
del patrón y del tipo de prueba: estáticas, cinéticas o dinámicas (Sección 4.2), utilizadas en la obtención
de las muestras de los pacientes con temblor fisiológico y temblor patológico.
Se analizó la desviación provocada por el temblor de la mano del paciente durante el movimiento
realizado al seguir la trayectoria de los patrones. En este caso la única magnitud utilizada como atributo
es la raíz del error cuadrático medio (RMSE) con el fin de constatar el rendimiento y la robustez de las
máquinas de soporte vectorial manipulando problemas reales no lineales y generando funciones
discriminantes en las tareas de clasificación de dos clases. Las curvas fueron creadas y ajustadas en los
ejes X, Y, Z o según el plano en donde fue posible generarlas.
5.2.1 PROCEDIMIENTO
1. Las muestras que conforman el conjunto de datos y el porcentaje de partición para los
conjuntos de entrenamiento y prueba se indica en la siguiente tabla:
153
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
Base de datos (muestras)
Temblor
fisiológico
36
Porcentaje de partición (%)
Temblor patológico
Temblor
Enfermedad de
esencial (TE)
Parkinson (EP)
10
47
Conjunto de
muestras de
entrenamiento
Conjunto de
muestra de
prueba
70
30
2. Cada una de las muestras de entrada a la SVM son vectores característicos conformados por el
atributo RMSE que mide la desviación provocada por el temblor de la mano del paciente sobre
el eje o el plano en el que se ejecutan las siguientes pruebas:
Prueba
Eje / plano
PT1 PT1 PT1 PT2 PT2 PT2 PT3 PT5 PT5 PT6 PT10 PT15 PT15 PT15 PT16 PT17
x
y
z
x
y
z
y
xy yx yx
xy
x
y
z
y
y
3. En las Figura 5.1 se observa las curvas de ajuste que fueron implementadas, se puede identificar
como el temblor actúa durante la trayectoria del patrón en los pacientes. Las curvas (líneas,
sinusoides) de color rojo indica la trayectoria que debía seguir la mano del paciente durante la
prueba. Los puntos de color negro indican la posición de la mano del paciente capturado por el
sistema DIMETER durante el tiempo de ejecución de la prueba.
-
Las gráficas a., b., c., e., corresponden a las pruebas PT1, PT2, PT3 y PT6 respectivamente,
fueron ajustadas a una línea recta horizontal y  b , de igual forma las pruebas PT15, PT16 y
PT17 fueron ajustadas a una línea recta horizontal.
-
La gráfica d. corresponde a la prueba cinética PT5 y fue ajustada a una línea inclinada
y  0.65 x  140 .
-
La gráfica f. es la representación de la prueba PT10 y fue ajustadas a una serie truncada de
Fourier y  a0  a1  cos(x  w)  b1  sen(x  w) .
PT1_y
160
290
150
y
y
y vs. N
170
295
140
285
130
280
0
500
1000
N
Figura 5.1a.
154
PT2_y
y vs. N
300
1500
2000
120
0
200
400
600
800
1000
N
1200
Figura 5.1b.
1400
1600
1800
2000
ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS
250
PT3_y
160
200
150
140
y
y
PT5_xy
y vs. x
y vs. N
150
100
130
50
120
0
500
1000
N
1500
-150
-100
Figura 5.1c.
x
0
50
100
150
Figura 5.1d.
15
PT6_yx
PT10_xy
y vs. x
170
x vs. y
10
160
y
5
x
-50
0
150
140
-5
130
-10
50
100
y
150
200
120
-200
250
-150
-100
Figura 5.1e.
Figura 6.1
-50
x
0
50
100
150
Figura 5.1f.
Ajuste de las muestras de un paciente de TEMBLOR ESENCIAL.
4. Al igual que en el paso anterior, en la Figura 5.2 y Figura 5.3 se indica como las muestras de los
pacientes con la EP y temblor fisiológico son ajustados a una curva, para medir la desviación de
la trayectoria provocada por el temblor en la mano del paciente.
PT1_y
y vs. N
300
295
150
290
145
y
y
PT2_y
y vs. N
155
285
140
280
135
275
270
0
100
200
300
400
500
N
Figura 5.2a.
600
700
800
900
1000
130
0
200
400
600
N
800
1000
1200
Figura 5.2b.
155
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
PT3_y
150
PT5_xy
y vs. x
y vs. N
200
150
140
y
y
145
135
100
130
125
50
0
500
1000
N
1500
2000
-150
2500
-100
-50
Figura 5.2c.
50
100
150
Figura 5.2d.
10
PT6_yx
x vs. y
8
PT10_xy
y vs. x
165
160
6
155
4
2
150
0
145
y
x
0
x
-2
140
-4
135
-6
130
-8
125
50
100
150
y
200
250
-150
-100
-50
Figura 5.2e.
Figura 6.2
0
x
50
100
150
Figura 5.2f.
Ajuste de las muestras de un paciente con la ENFERMEDAD DE PARKINSON. Las muestras y las
curvas de ajuste son las mismas que las utilizadas en la Figura 5.1.
401
145
PT1_y
y vs. N
PT2_y
y vs. N
144
400.5
400
y
y
143
142
141
399.5
140
399
139
0
200
400
600
800
N
1000
1200
Figura 5.3a.
156
1400
1600
1800
0
200
400
600
800
N
Figura 5.3b.
1000
1200
1400
1600
ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS
144
PT3_y
y vs. N
PT5_xy
y vs. x
250
142
200
y
y
140
138
150
100
136
50
134
0
200
400
N
600
800
-250
1000
-200
-150
Figura 5.3c.
-100
-50
x
0
50
100
150
Figura 5.3d.
0
160
PT6_yx
x vs. y
PT10_xy
y vs. x
155
-0.2
150
-0.4
y
x
145
-0.6
140
135
-0.8
130
-1
40
60
80
100
120
140
y
160
180
200
220
240
-150
-100
Figura 5.3e.
Figura 6.3
-50
0
x
50
100
150
Figura 5.3f
Ajuste de las muestras de un paciente con la TEMBLOR FISIOLÓGICO. Las muestras y las curvas
de ajuste son las mismas que las utilizadas en la Figura 5.1.
5. Con las medidas obtenidas de las curvas de ajuste, se formó una matriz de 93 vectores x 16
atributos para la clasificación de temblor fisiológico vs. temblor patológico, y una matriz de 57
vectores x 16 atributos para la clasificación del TE vs. EP.
6. Ambas matrices fueron entrenadas según el procedimiento de la Sección 5.1.1, se dio el formato
correspondiente a los datos, se entrenó la máquina SVM con los parámetros de ajuste sobre el
conjunto de datos de entrenamiento, se obtuvo el modelo del clasificador y finalmente se
realizó la clasificación con el conjunto de datos de prueba.
7. Los parámetros de ajuste para diferentes kernel y el error obtenido durante el entrenamiento y
la clasificación son tabulados y presentados a continuación:
157
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
TABLA 5.1 CLASIFICACIÓN TEMBLOR FISIOLÓGICO VS. TEMBLOR PATOLÓGICO.
Selección del modelo
Función Kernel
Mallado
Gaussiano RBF
-log2c -5,15,2
-log2g 3,-15,-2
2
3
Polinomial
Lineal
Fase de Entrenamiento
Nº Val.
Cruzada
Parámetros de ajuste
Modelo del Clasificador
bias (b)
Resultados
Nº vectores Error de Error de
soporte, VS entrenam. prueba
C
gama (ϒ)
5
2
8
-0.86
50
7.69%
3.57%
4
8
2
-1.72
27
9.23%
3.57%
-
-
64
-
0.33
53
-
0.00%
-
-
64
-
-0.90
53
-
35.71%
-log2c -5,15,2
5
8
-
3.14
32
9.23%
7.14%
Conjunto de entrenamiento (70%): 65 muestras;
Conjunto de prueba (30%): 28 muestras. Temblor fisiológico "+1", Temblor patológico "-1".
TABLA 5.2 CLASIFICACIÓN TE VS. EP.
Selección del modelo
Función Kernel
Mallado
Gaussiano RBF
-log2c -5,15,2
-log2g 3,-15,-2
2
-
3
Polinomial
Lineal
Fase de Entrenamiento
Nº Val.
Cruzada
Parámetros de ajuste
Modelo del Clasificador
bias (b)
Resultados
Nº vectores Error de Error de
soporte, VS entrenam. prueba
C
gama (ϒ)
5
128
0.125
3.38
21
17.50%
11.76%
10
32
0.5
1.60
23
15.00%
17.65%
-
0.1
-
1.00
18
-
11.76%
-
-
0.1
-
1.00
17
-
11.76%
-log2c -5,15,2
5
0.03125
-
1.00
21
20.00%
11.76%
Conjunto de entrenamiento (70%): 40 muestras;
Conjunto de prueba (30%): 17 muestras. TE "+1", EP "-1".
5.2.2 ANÁLISIS DE LOS MODELOS DEL CLASIFICADOR
-
Se comprobó la robustez de la SVM como método utilizado para tareas de clasificación en
problemas no lineales con datos contaminados de ruido, como suele ser frecuente cuando se
trata de seres humanos cuyas condiciones físicas y psicológicas influyen en gran medida en la
complejidad de la tarea.
-
En la Tabla 5.1, existen dos modelos. El primero modelo clasificador es el obtenido con un kernel
Gaussiano RBF que utilizando 27 vectores soporte (VS) logró reducir el error en la predicción de
los vectores de prueba hasta el 3.57%. En el segundo caso el modelo utilizó una kernel
polinomial de grado 2 con un error de prueba del 0%, en contradicción utiliza 53 VS, un número
demasiado alto que hace intuir que existe sobreajuste. De esta forma se puede indicar que el
primer modelo es el mejor, con un porcentaje de error pequeño y pocos VS asegurará una
buena generalización.
-
En la Tabla 5.2, el modelo del clasificador con un kernel polinomial de grado 3 genera un error
de predicción sobre los vectores de prueba de 11.76% con 17 VS. Un kernel lineal o un
158
ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS
Gaussiano RBF proporcionan la misma tasa de error pero el número de VS aumenta. Se
comprobó modelos con grados más altos del kernel polinomial, consecuentemente los VS
empezaron a aumentar al igual que el error.
-
Finalmente, según en las Figuras 5.1, 5.2 y 5.3 se observa que existe gran diferencia entre las
muestras de los pacientes con temblor patológico y temblor fisiológico, la SVM genera un
clasificador que logra diferenciar entre ambos temblores con sólo un atributo (RMSE). Por otro
lado, si se compara las muestras de TE y EP ambas presentan similitudes y la SVM no logra
diferenciarlos completamente, a pesar que el error de prueba no es tan elevado los esfuerzos
seguirán en encontrar atributos que caractericen mejor a ambas patologías; el desbalance en
número de las muestras de TE y EP también es una desventaja.
5.3 HIPÓTESIS 2. ANÁLISIS DE LA AMPLITUD Y FRECUENCIA DEL TEMBLOR
El temblor es un movimiento muscular oscilatorio, involuntario y rítmico, que implica movimientos de
balanceo de una o más partes del cuerpo. El término oscilatorio, indica que el temblor es un movimiento
repetido de un lado a otro entorno a una posición, cuya trayectoria va desde una posición extrema a la
otra. Tratando de encontrar una forma de caracterizar al temblor de forma que sus atributos sean más
determinantes para diferenciarlos, se analizó la amplitud y la frecuencia con la que se produce el
movimiento oscilatorio del temblor. En la Figura 5.4 se muestra el rango de frecuencias del temblor para
las patologías en cuestión:
F r e c u e n c ia
D IA G N Ó S T IC O
A p a re ce e n :
r e p o s o p o s tu r a a c c ió n in te n c ió n
T e m b lo r
F is io ló g ic o
T e m b lo r
E s e n c ia l
T e m b lo r
P a r k in s o n ia n o
0
fr e c u e n c ia s
com ún
ra ra
5
10
r a n g o d e fre c u e n c ia s
b a ja
m e d ia
a lta
Figura 6.4
15
Hz
r e q u ie re
p u e d e e s ta r
p re s e n te
d ia g n ó s tic o
p r o p io d e l
te m b lo r
Rango de frecuencias del temblor.
159
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
La frecuencia puede ser un buen discriminante cuando se trata de diferenciar entre el temblor
fisiológico y temblor parkinsoniano según el rango de frecuencia indicado en la Figura 5.4. El
solapamiento del rango de frecuencias entre el temblor fisiológico y temblor esencial cuando adquieren
una postura o un movimiento de acción hace que la frecuencia no sea un buen diferenciador. Del mismo
modo, existe un solapamiento del rango de frecuencias entre el temblor esencial y el temblor
parkinsoniano cuando se adquiere una posición de reposo, una postura o se realiza un movimiento de
intención. Si bien la EP presenta el común temblor de reposo también muestra un temblor postural
similar al TE llamado temblor reemergente, que se presenta tras de un periodo de latencia al mantener
una postura en concreto que a su vez es muy similar al temblor de reposo parkinsoniano, complicando
el diagnóstico del TE en pacientes que presentan síntomas parkinsonianos y a la vez haciendo más difícil
y compleja la tarea de clasificación entre éstas dos clases.
En este estudio se implementa también la amplitud como un atributo que ayude a la caracterización del
temblor. En los temblores patológicos el rango de amplitud del movimiento es más amplio en
comparación con el temblor fisiológico, pero nuevamente hay que tener en cuenta que estos atributos
son dependientes del estado físico y psicológico del paciente a la hora de realizar las pruebas.
5.3.1 PROCEDIMIENTO
1. Para obtener la amplitud y la frecuencia de cada una de las muestras se implementó un script en
Matlab "AmplitudFrecuencia.m", el código se adjunta en el ANEXO 2. Para calcular la frecuencia
se tomó de referencia la frecuencia de muestreo del sistema DIMETER (100 muestras por
segundo). La amplitud se calculó como el promedio de la distancia entre el valor máximo y valor
mínimo en cada movimiento alternante del temblor.
2. Las muestras que conforman el conjunto de datos y el porcentaje de partición para los
conjuntos de entrenamiento y prueba se indica en la siguiente tabla, las muestras de la EP
fueron reducidos en comparación a los utilizados en la hipótesis 1 para balancear los datos, en
especial en la clasificación entre TE y EP.
Base de datos (muestras)
Temblor
fisiológico
36
160
Temblor patológico
Temblor
Enfermedad de
esencial (TE)
Parkinson (EP)
10
30
Porcentaje de partición (%)
Conjunto de
muestras de
entrenamiento
Conjunto de
muestra de
prueba
70
30
ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS
3. Cada una de las muestras de entrada a la SVM son vectores característicos conformados por los
atributos de frecuencia y amplitud en los ejes X, Y, Z, con todas las pruebas. Las pruebas
utilizadas se basa en el análisis realizado por [88] que sugiere las siguientes:
Prueba
PT1 PT2 PT3 PT5 PT6 PT8 PT9 PT10 PT11 PT15 PT16 PT17 PT18
4. La matriz de entrada para la SVM se formó de 76 vectores x 78 atributos (6 atributos por cada
prueba) para la clasificación de temblor fisiológico vs. temblor patológico, y una matriz de 40
vectores x 78 atributos para la clasificación del TE vs. EP.
5. Para entrenar la SVM y seleccionar el modelo del clasificador se empleó el procedimiento
descrito en la Sección 5.1.1.
6. Los parámetros de ajuste de los distintos kernel utilizados y la tasa de error cometido durante el
entrenamiento y predicción se presentan en la siguientes tablas:
TABLA 5.3 CLASIFICACIÓN TEMBLOR FISIOLÓGICO VS. TEMBLOR PATOLÓGICO.
Selección del modelo
Función Kernel
Mallado
Gaussiano RBF
-log2c 0,15,1
-log2g 0,-15,-1
2
-
3
-log2c -5,15,2
Polinomial
Lineal
Fase de Entrenamiento
Nº Val.
Cruzada
Parámetros de ajuste
Modelo del Clasificador
bias (b)
Resultados
Nº vectores Error de Error de
soporte, VS entrenam. prueba
C
gama (ϒ)
5
128
0.003906
-0.98
14
1.89%
4.35%
10
64
0.003906
-0.93
17
1.89%
4.35%
-
128
-
1.12
24
-
0.00%
-
1024
-
0.97
29
-
0.00%
5
2
-
2.24
14
24.53%
4.35%
Conjunto de entrenamiento (70%): 53 muestras;
Conjunto de prueba (30%): 23 muestras. Temblor fisiológico "+1", Temblor patológico "-1".
TABLA 5.4 CLASIFICACIÓN TE VS. EP.
Selección del modelo
Función Kernel
Mallado
Gaussiano RBF
-log2c -5,15,2
-log2g 3,-15,-2
2
-
3
Polinomial
Lineal
Fase de Entrenamiento
Nº Val.
Cruzada
Parámetros de ajuste
Modelo del Clasificador
bias (b)
Resultados
Nº vectores Error de Error de
soporte, VS entrenam. prueba
C
gama (ϒ)
5
32
0.0078125
-0.42
13
10.71%
8.33%
10
8
0.015625
-0.20
15
10.71%
8.33%
-
256
-
1.49
14
-
8.33%
-
-
256
-
1.09
14
-
25.00%
-log2c -5,15,2
5
0.03125
-
1.35
15
25.00%
16.67%
Conjunto de entrenamiento (70%): 28 muestras;
Conjunto de prueba (30%): 12 muestras
7. Con el fin de comprobar el desempeño de la SVM con un conjunto de entrada más amplio, se
realizó un ensayo para clasificar TE y EP incrementando los vectores de entrada, para tal efecto
se consideró a cada prueba con sus 6 atributos como un vector, formando la matriz de entrada
para la SVM con 472 vectores x 6 atributos (frecuencia y amplitud por cada eje X, Y, Z).
161
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
8. EL entrenamiento de la SVM siguió el procedimiento de la Sección 5.1.1.
9. Los parámetros del modelo clasificador obtenido para diferentes kernel, así como los valores del
error generado en el entrenamiento y la prueba se resumen en la siguiente tabla:
TABLA 5.5 CLASIFICACIÓN TE VS. EP.
Selección del modelo
Función Kernel
Mallado
Gaussiano RBF
-log2c -5,15,2
-log2g 3,-15,-2
-
Polinomial
Lineal
2
3
Fase de Entrenamiento
Nº Val.
Cruzada
Parámetros de ajuste
Modelo del Clasificador
bias (b)
Resultados
Nº vectores Error de Error de
soporte, VS entrenam. prueba
C
gama (ϒ)
5
512
0.125
13.47
123
15.76%
9.15%
10
32
0.5
3.22
125
16.36%
9.86%
-
512
-
1.46
125
-
9.86%
-
-
512
-
1.09
131
-
13.38%
-log2c -5,15,2
5
8
-
2.12
128
16.36%
9.15%
Conjunto de entrenamiento (70%): 330 muestras;
Conjunto de prueba (30%): 142 muestras. TE "+1", EP "-1".
5.3.2 ANÁLISIS DE LOS MODELOS DEL CLASIFICADOR
-
El error en la clasificación entre temblor fisiológico y temblor patológico de la Tabla 5.3, dan
cuenta que con la frecuencia y la amplitud se pueden lograr el objetivo, encontrar un
clasificador SVM que diferencie ambas temblores y los clasifique correctamente. Utilizando un
kernel polinomial de grado 2 se logra el 0% de error de prueba con 24 VS, por otro lado un
clasificador con kernel Gaussiano RBF genera un error del 4.35% con solo 14 VS. Se puede
sacrificar la precisión del kernel polinomial por una buena generalización proporcionada por el
kernel Gaussiano RBF con pocos VS.
-
La clasificación entre TE y EP sigue presentando dificultad, un aspecto que afecta es el
desbalance que existe entre el número de muestras de ambas patologías, las muestras EP son
más numerosas, cuando existe un desbalance considerable la SVM asigna a los vectores de
prueba a la clase mayoritaria. La Tabla 5.4 señala que el mejor modelo utiliza un kernel
Gaussiano con un error de predicción del 8.33% con 13 VS.
-
En el segundo ensayo para clasificar entre TE y EP se incrementó el número de vectores de
entada a la SVM, cada prueba realizada por cada paciente se tomó como un vector, el error de
predicción mínimo logrado por el modelo clasificador fue del 9.15%, Tabla 5.5, muy similar al
error cometido con el anterior modelo con el 8.33% de error. Sin embargo, el hecho de
incrementar los vectores de entrada disminuyendo los atributos no disminuyó el error, lo que
plantea la necesidad de buscar nuevos atributos que al incrementar el número de vectores de
entrenamiento mejore la predicción y disminuya el error en la clasificación.
162
ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS
5.4 HIPÓTESIS 3. ANÁLISIS DEL TEMBLOR CON TÉCNICAS DE ESTADÍSTICA DE
SEGUNDO ORDEN PSD Y ESPECTROS DE ORDEN SUPERIOR HOSA
Hasta el momento el algoritmo de aprendizaje implementado por las máquinas de soporte vectorial ha
demostrado ser eficiente y robusto ante problemas complejos no lineales y contaminados con ruido,
proporcionando resultados mucho mejores que en trabajos realizados anteriormente en la misma línea
de investigación.
La dificultad no está en generar un clasificador con el método de la SVM sino en que los atributos que
caracterizan al temblor sean los adecuados. La correcta elección de los atributos aporta mayor potencia
para crear una característica determinante que ayude a diferenciar los distintos tipos de temblores. Con
esta premisa y buscando nuevos atributos se ocupó el planteamiento realizado por [85] en lo que
concierne al filtrado y caracterización del temblor mediante: técnicas de estadística de segundo orden
PSD que mide la densidad espectral de potencia promedio de una señal versus su frecuencia; y técnicas
derivadas de las estadísticas de orden superior HOSA como son los espectros de tercer y cuarto orden
llamados biespectros y triespectros, respectivamente, que son capaces de detectar y caracterizar las
propiedades no lineales de una señal (Sección 3.2.1 y 3.2.2).
El filtrado y la obtención de los atributos para la caracterización de las muestras se consiguió con el
procedimiento explicado en la Sección 4.3, el programa fue reutilizado de [85] y actualizado a las nuevas
versiones de Matlab y archivados con el nombre resultadosPT.m y características.m en el ANEXO 3.
Existe un problema de desbalance, entre la cantidad de muestras de EP que es mucho mayor que las
muestras de TE, siendo un factor para que el error incremente durante el proceso de aprendizaje y
clasificación. El clasificador SVM durante la fase de aprendizaje genera una región mucho mayor para la
clase mayoritaria (EP) lo que hace susceptible a que durante la fase de clasificación las muestras de
prueba de cualquiera de la dos clases se ubique en esta región, haciendo que las muestras de la clase
minoritaria (TE) sean clasificadas erróneamente. Para evitar este grave problema y tratar de disminuir
las muestras de la EP conservando las más representativas se utilizó el Análisis de Componentes
Principales ACP (Sección 3.2.3) que es una herramienta muy versátil y útil para la reducción de datos,
permitiendo visualizar, determinar y rechazar muestras ruidosas, mal etiquetadas, valores atípicos,
incongruentes o excepcionales.
163
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
La visualización en el espacio de los 2 primeros componentes principales (plano) permitió la
comprensión del comportamiento de los datos y observar la forma de la distribución.
Para identificar las muestras de comportamiento anormal de las que se pueden prescindir para
disminuir el conjunto de EP, evitando excluir aquellas muestras que se encuentran bien caracterizadas
se aplicó la distancia de Mahalanobis, como una forma de determinar la similitud o disimilitud entre las
muestras (Sección 3.2.5) con respecto a una clase. Aplicar la distancia de Mahalanobis resulta muy útil
cuando se conoce la forma de la distribución de los datos representados, se puede estudiar la varianza
que existe entre los datos más dispersos y los menos alejados con respecto a su media. Dependiendo de
la forma de la distribución los datos más alejados o dispersos de la media podría representar valores
atípicos que pueden ser los generadores del error en la clasificación y que posiblemente pueden ser
retirados, para esta identificación se emplea el coeficiente de Curtosis (Sección 3.2.4) que indica cuan
concentrados están los datos respecto a una distribución de probabilidad normal (campana de Gauss).
5.4.1 PROCEDIMIENTO
1. Las 13 pruebas que se utilizaron para la obtención de los atributos son las sugerida por [88] que
mediante experimentos determinó que las pruebas con las que se obtiene un mínimo error son:
Prueba
PT1 PT2 PT3 PT5 PT6 PT8 PT9 PT10 PT11 PT15 PT16 PT17 PT18
2. Se generó los vectores con 26 atributos con los scripts resultadosPT.m y características.m: 9
obtenidos con el espectro de potencia PSD, 10 mediante el biespectro y 7 correspondientes al
triespectro. La Tabla 4.1 muestra la descripción y formulación de las 26 medidas aplicadas.
3. Las muestras iniciales que conforman el conjunto de datos sobre los que se generan los
atributos se indican en la siguiente tabla:
Base de datos (muestras)
Temblor
fisiológico
36
Temblor patológico
Temblor
Enfermedad de
esencial (TE)
Parkinson (EP)
10
47
4. Antes de continuar, dentro de los temblores patológicos se percibió un desbalance muy notorio
de datos entre el TE (10) y la EP (47), para reducir esa relación se utilizó el análisis de
componentes principales para visualizar el comportamiento de las muestras y en lo posible
164
ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS
descartar los valores atípicos. El ACP descrito en la Sección 3.2.3 requiere de la matriz A, que en
este caso está formada por las 57 muestras del temblor patológico (filas), con sus 26 atributos
por cada prueba (columnas). La matriz A es normalizada a media 0 y varianza 1, usando la media
y la desviación estándar a lo largo de cada columna de A, la salida del ACP es la matriz SCORE
que contiene la transformación lineal de los datos originales en un nuevo sistema de
coordenadas donde cada columna de la matriz SCORE son los nuevos ejes o componentes
principales y están ordenados en forma descendente según desciende su varianza.
5. Generalmente, los primeros componentes principales poseen la varianza más alta, se podría
decir que contienen la mayor información, para efectos de visualización de los datos tanto de TE
como de la EP se seleccionó las dos primeras componentes más significativas y se representó los
datos en el plano como se muestra en la Figura 5.5. La línea azul representa el nuevo eje o
primer componente principal en el nuevo sistema de coordenadas (se obvió representar los
demás ejes para lograr visualizar la posición de cada muestra).
-3
x 10
v1
3
2
Componente 2
1
0
x3 x8
x2
-1
x9 x10
x1
x7
-2
x6
-3
x5
-4
x4
-5
-1
0
1
2
3
4
Componente 1
5
6
7
8
-3
x 10
Figura 6.5
Representación de las muestras patológicas en el espacio de los componentes principales. Los
puntos rojos indican la distribución de las muestras de la EP; los puntos verdes muestran la distribución de las
muestras del TE las mismas que están etiquetadas con x1 hasta x10.
165
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
6. En la Figura 5.8 está enmarcado con una circunferencia las muestras de EP forman una nube de
puntos mayormente concentrada con algunos puntos dispersos. Las muestras de la EP se
encuentran muy dispersas. Se aplicó el coeficiente de Curtosis para analizar el grado de
concentración que presentan los valores alrededor de la zona central de la distribución. Cuando
el coeficiente k>0 se tiene una distribución leptocúrtica o "apuntada". El coeficiente k es mucho
mayor en las muestras de EP y es sobre ésta que se experimentó descartando aquellas muestras
dispersas con el fin de lograr un área más definida por ésta clase.
COEFICIENTE CURTOSIS (k)
1er Componente 2do Componente
Muestras de TE
6.44
2.10
Muestras de EP
37.41
12.96
7. La distancia de Mahalanobis permitió identificar aquellas muestras dispersas de EP respecto a su
centroide según el procedimiento de la Sección 3.2.5. En la siguiente tabla muestra la distancia
de Mahalanobis de todas las muestras de EP con respecto a su media, existen algunas distancias
altas (marcadas con azul) que indican una cierta disimilitud, son muestras atípicas que fueron
retiradas tras ser analizadas.
DISTANCIA DE MAHALANOBIS
1
0.391
9
0.135
17
0.156
25
0.504
33
3.872
41
0.246
2
0.342
10
0.208
18
0.511
26
5.276
34
0.398
42
0.505
3
0.422
11
3.525
19
0.340
27
0.211
35
0.352
43
0.679
4
0.389
12
0.201
20
0.288
28
0.697
36
0.431
44
0.846
5
0.456
13
0.293
21
0.227
29
0.740
37
0.270
45
0.383
6
0.235
14
0.241
22
0.918
30
0.565
38
0.261
46
0.754
7
0.542
15
0.316
23
0.333
31
0.464
39
0.775
47
0.575
8
0.175
16
0.402
24
0.648
32
0.443
40
0.111
8. La Figura 5.6 representa la ubicación de las muestras de EP y TE con respecto a sus centroides
representados con un "*" azul y marrón respectivamente, antes de retirar los valores atípicos.
En la Figura 5.7 muestra la ubicación de los datos luego de la sustracción, claramente se puede
distinguir que la distribución de las muestras de EP (puntos rojos) es más densa, mientras que
las muestras de TE (puntos verdes) tienen una distribución dispersa.
166
ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS
30
0.8
Muestras Temblor Esencial
Muestras Temblor Parkinsoniano
Centroides
0.7
10
0.6
0
0.5
-10
0.4
-20
0.3
-30
0.2
-40
-50
-10
Figura 6.6
Distancia de Mahalanobis
20
0.1
0
10
20
30
40
50
60
70
Representación de las muestras de temblor patológico con valores atípicos.
60
Muestras Temblor Esencial
1.1
Muestras Temblor Parkinsoniano
Centroides
1
0.9
20
0.8
0.7
0
0.6
0.5
-20
0.4
-40
Distancia de Mahalanobis
40
0.3
0.2
-60
-10
Figura 6.7
0
10
20
30
40
50
60
70
Representación de las muestras de temblor patológico sin valores atípicos.
9. Cada vez que se retiraron muestras se realizó un nuevo ACP y un nuevo cálculo de la distancia
de Mahalanobis debido a que la extracción de datos provoca un cambio sobre el valor medio y la
desviación estándar sobre la matriz de entrada del ACP. Con el método anterior se obtuvo un
número de muestras más proporcionales de cada tipo de temblor. Las muestras pertenecen a
los pacientes enunciados en el ANEXO 4:
TEMBLOR
FISIOLÓGICO
34
TEMBLOR
PATOLÓGICO
56
TEMBLOR
ESENCIAL
9
TEMBLOR
PARKINSONIANO
27
10. Para entrenar la SVM y clasificar las muestras del conjunto de prueba para todos los ensayos se
siguió el procedimiento detallado en la Sección 5.1.1.
167
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
11. Para la clasificación del temblor fisiológico y temblor patológico la matriz de entrada a la SVM
constó de 90 muestras y 26 atributos para cada una de las pruebas. Los parámetros del modelo
clasificador y el error cometido en el entrenamiento y prueba son los siguientes:
TABLA 5.6 CLASIFICACIÓN TEMBLOR FISIOLÓGICO VS. TEMBLOR PATOLÓGICO.
Selección del modelo
Función Kernel
Mallado
Gaussiano RBF
-log2c -5,15,2
-log2g 3,-15,-2
-
Polinomial
Lineal
Fase de Entrenamiento
Nº Val.
Cruzada
Modelo del Clasificador
Parámetros de ajuste
bias (b)
Resultados
Nº vectores Error de Error de
soporte, VS entrenam. prueba
C
gama (ϒ)
5
512
0.000488281
2.68
35
9.38%
0.00%
10
512
0.00012207
2.79
39
7.81%
0.00%
-
512
-
1.08
35
-
7.41%
-
-
512
-
1.19
41
-
11.11%
-log2c -5,15,2
5
32
-
1.28
35
35.94%
3.70%
2
3
Conjunto de entrenamiento (70%): 63 muestras; Conjunto de prueba (30%): 27 muestras. Temblor fisiológico "+1", Temblor patológico "-1".
12. La clasificación entre TE y EP presenta mayor dificultad debido a que el temblor presenta
características muy similares en ambos tipos, por lo que ensayó con varias configuraciones de
los datos con el objetivo de identificar los atributos (PSD, biespectro, triespectro) y las pruebas
(cinéticas, estáticas, dinámicas) que mejor caracterizan a cada tipo de temblor. Las
configuraciones realizadas se presentan en la siguiente tabla:
PRUEBAS CINÉTICAS PRUEBAS DINÁMICAS
(7) PT3, PT5, PT6, PT8, (4) PT15, PT16, PT17,
PT9, PT10, PT11.
PT18.
9/27
7/27
525
300
PRUEBAS
EST.+CIN.+DIN. (13)
PRUEBAS ESTÁTICAS
(2) PT1, PT2
Muestras TE/EP
Atributos (25)
9/27
975
9/27
150
Tabla 5.7
Tabla 5.8
Tabla 5.9
Tabla 5.10
Muestras TE/EP
Atributos (25)
106/341
75
18/54
75
63/189
75
25/98
75
Tabla 5.11
Tabla 5.12
Tabla 5.13
Tabla 5.14
13. Cabe indicar que para entrenar la SVM se decidió eliminar el atributo 22 debido a que algunas
pruebas no permitía un normalizado por presentar un mismo valor lo que provocaba confusión
a la SVM (atributos con valor cero). Según la configuración a ser analizada cada vector
característico consta de 25 atributos por cada prueba en sus tres ejes X, Y, Z.
14. Los parámetros del modelo de la SVM y la tasa de error para las cuatro primeras configuraciones
se presentan a continuación, en donde se considera un conjunto de muestras reducido, con una
cantidad de atributos mucho más grande que el número de muestras:
168
ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS
TABLA 5.7 CLASIFICACIÓN TE VS. EP PARA LAS 13 PRUEBAS.
Selección del modelo
Función Kernel
Mallado
Gaussiano RBF
-log2c -5,15,1
-log2g 3,-15,-1
2
-
3
Polinomial
Lineal
Fase de Entrenamiento
Nº Val.
Cruzada
Parámetros de ajuste
Modelo del Clasificador
bias (b)
Resultados
Nº vectores Error de Error de
soporte, VS entrenam. prueba
C
gama (ϒ)
5
16
0.001953125
-0.37
18
15.38%
0.00%
10
64
0.0078125
-0.33
22
15.38%
0.00%
-
128
-
-1.34
15
-
9.09%
-
-
256
-
-0.97
15
-
9.09%
-log2c -5,15,2
5
1
-
-1.87
16
23.08%
9.09%
Conjunto de entrenamiento (70%): 25 muestras;
Conjunto de prueba (30%): 11 muestras. TE "+1", EP "-1".
TABLA 5.8 CLASIFICACIÓN TE VS. EP CON 2 PRUEBAS ESTÁTICAS.
Selección del modelo
Función Kernel
Mallado
Gaussiano RBF
-log2c 0,15,1
-log2g -4,-15,-1
2
-
3
Polinomial
Lineal
Fase de Entrenamiento
Nº Val.
Cruzada
Parámetros de ajuste
Modelo del Clasificador
bias (b)
Resultados
Nº vectores Error de Error de
soporte, VS entrenam. prueba
C
gama (ϒ)
5
64
0.000976565
-0.25
18
20.00%
18.18%
10
16
0.00390625
-0.21
19
20.00%
18.18%
-
16
-
0.83
18
-
18.18%
-
-
128
-
0.81
19
-
18.18%
-log2c -5,15,2
5
0.03125
-
0.71
18
24.00%
18.18%
Conjunto de entrenamiento (70%): 25 muestras;
Conjunto de prueba (30%): 11 muestras . TE "+1", EP "-1".
TABLA 5.9 CLASIFICACIÓN TE VS. EP CON 7 PRUEBAS CINÉTICAS.
Selección del modelo
Función Kernel
Mallado
Gaussiano RBF
-log2c -5,15,2
-log2g 3,-15,-2
2
-
3
Polinomial
Lineal
Fase de Entrenamiento
Nº Val.
Cruzada
Parámetros de ajuste
Modelo del Clasificador
bias (b)
Resultados
Nº vectores Error de Error de
soporte, VS entrenam. prueba
C
gama (ϒ)
5
8
0.0078125
-0.08
17
12.00%
0.00%
10
64
0.0078125
-0.06
17
12.00%
0.00%
-
64
-
-0.43
15
-
0.00%
-
-
256
-
-0.37
16
-
0.00%
-log2c -5,15,2
5
0.03125
-
-0.49
16
24.00%
9.09%
Conjunto de entrenamiento (70%): 25 muestras;
Conjunto de prueba (30%): 11 muestras. TE "+1", EP "-1".
TABLA 5.10 CLASIFICACIÓN TE VS. EP CON 4 PRUEBAS DINÁMICAS.
Selección del modelo
Función Kernel
Mallado
Gaussiano RBF
-log2c 0,15,1
-log2g -4,-15,-1
2
-
3
Polinomial
Lineal
Fase de Entrenamiento
Nº Val.
Cruzada
Parámetros de ajuste
Modelo del Clasificador
bias (b)
Resultados
Nº vectores Error de Error de
soporte, VS entrenam. prueba
C
gama (ϒ)
5
128
0.000488281
-0.03
16
17.39%
9.09%
10
32
0.001953215
-0.03
16
17.39%
18.18%
-
2
-
0.97
16
-
0.00%
-
-
64
-
0.86
19
-
9.09%
-log2c -5,15,2
5
0.03125
-
0.57
16
21.74%
18.18%
Conjunto de entrenamiento (70%): 23 muestras;
Conjunto de prueba (30%): 11 muestras. TE "+1", EP "-1".
169
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
15. Posteriormente, en los siguientes cuatro ensayos cada prueba fue considerada como un vector
de entrada a la SVM, incrementando el número de muestras a la vez que se disminuyó el
número de atributos. En este punto se encontró algunas pruebas vacías o no realizadas por los
pacientes y se optó por retirarlas.
16. Los modelos obtenidos para el clasificador SVM con diferentes kernel y con sus respectivos
parámetros, así como la tasa de error durante las fases de entrenamiento y prueba se presenta
en las siguientes tablas:
TABLA 5.11 CLASIFICACIÓN TE VS. EP PARA LAS 13 PRUEBAS.
Selección del modelo
Función Kernel
Mallado
Gaussiano RBF
-log2c -5,15,2
-log2g 3,-15,-2
2
-
3
Polinomial
Lineal
Fase de Entrenamiento
Nº Val.
Cruzada
Parámetros de ajuste
Modelo del Clasificador
bias (b)
Resultados
Nº vectores Error de Error de
soporte, VS entrenam. prueba
C
gama (ϒ)
8
0.5
-0.18
134
11.18%
7.46%
10
4
1
-0.06
158
11.18%
9.70%
-
1024
-
1.13
105
-
8.21%
-
-
1024
-
0.27
117
-
9.70%
-log2c -5,15,1
-
4
-
2.45
101
-
10.45%
5
Conjunto de entrenamiento (70%): 313 muestras;
Conjunto de prueba (30%): 134 muestras. TE "+1", EP "-1".
TABLA 5.12 CLASIFICACIÓN TE VS. EP CON 2 PRUEBAS ESTÁTICAS.
Selección del modelo
Fase de Entrenamiento
Nº Val.
Cruzada
Parámetros de ajuste
Modelo del Clasificador
Nº vectores Error de Error de
soporte, VS entrenam. prueba
Función Kernel
Mallado
Gaussiano RBF
-log2c 0,10,1
-log2g-2,-8,-1
5
16
0.015625
-0.14
32
22.00%
13.64%
10
64
0.00390625
-0.21
30
22.00%
13.64%
2
-
-
128
-
0.41
32
-
13.64%
3
-log2c -5,15,1
-log2g 1,1,1
-
512
-
0.66
33
-
13.64%
5
0.03125
-
0.80
29
26.00%
18.18%
Polinomial
Lineal
C
Conjunto de entrenamiento (70%):50 muestras;
gama (ϒ)
bias (b)
Resultados
Conjunto de prueba (30%): 22 muestras. TE "+1", EP "-1".
TABLA 5.13 CLASIFICACIÓN TE VS. EP CON 7 PRUEBAS CINÉTICAS.
Selección del modelo
Fase de Entrenamiento
Nº Val.
Cruzada
Parámetros de ajuste
Mallado
Gaussiano RBF
-log2c -5,15,2
-log2g 3,-15,-2
5
32
0.125
0.67
55
10.23%
2.63%
10
256
0.03125
1.94
51
9.09%
3.95%
2
-
-
1024
-
-0.13
54
-
5.26%
3
-
-
1024
-
-0.66
63
-
7.89%
-log2c -5,15,2
5
2
-
0.08
57
21.02%
6.58%
Lineal
C
Conjunto de entrenamiento (70%): 176 muestras;
gama (ϒ)
bias (b)
Resultados
Nº vectores Error de Error de
soporte, VS entrenam. prueba
Función Kernel
Polinomial
170
Modelo del Clasificador
Conjunto de prueba (30%): 76 muestras. TE "+1", EP "-1".
ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS
TABLA 5.14 CLASIFICACIÓN TE VS. EP CON 4 PRUEBAS DINÁMICAS.
Selección del modelo
Fase de Entrenamiento
Nº Val.
Cruzada
Parámetros de ajuste
Modelo del Clasificador
Función Kernel
Mallado
Gaussiano RBF
-log2c -5,15,2
-log2g 3,-15,-2
5
512
0.0078125
1.25
38
12.79%
8.11%
10
2048
0.001953125
-0.48
38
13.95%
8.11%
2
-
-
512
-
0.82
42
-
8.11%
3
-
-
2048
-
0.29
42
-
8.11%
-log2c -5,15,2
5
2
-
1.73
38
18.60%
10.81%
Polinomial
Lineal
gama (ϒ)
C
Conjunto de entrenamiento (70%): 86 muestras;
bias (b)
Resultados
Nº vectores Error de Error de
soporte, VS entrenam. prueba
Conjunto de prueba (30%): 37 muestras. TE "+1", EP "-1".
5.4.2 ANÁLISIS DE LOS MODELOS DEL CLASIFICADOR
-
La clasificación entre el temblor fisiológico y temblor patológico con los atributos de PSD,
biespectro y triespectro, proporcionaron un tasa de error del 0% con un número de VS=35,
indicando que con estos atributos quedan caracterizados correctamente ambos temblores.
-
De los primeros cuatro ensayos realizados para clasificar el TE y EP con un número de atributos
mucho más amplio que el número de muestras; del primer ensayo se deduce que una
combinación de todas las pruebas caracterizan a las muestras de ambas clases con una tasa de
error en la clasificación del 0%, al igual que si se utiliza solamente las pruebas cinéticas. Las
pruebas estáticas a pesar de estar enfocadas a caracterizar el temblor parkinsoniano, no logra
diferenciarlo, provocado un error en la clasificación del 18.18% para el mejor modelo de la SVM.
Por otro lado, las pruebas dinámicas en las que se aplicaron fuerzas virtuales para oponerse al
movimiento del temblor a lo largo de la trayectoria del patrón de prueba no logran caracterizar
a ambos temblores, sin embargo la SVM consigue clasificarlos correctamente con un modelo
que emplea un kernel polinomial de grado 2.
-
En las cuatro últimas configuraciones en donde el número de vectores son cada una de las
muestras de cada prueba es más amplio que el número de atributos; en todos los casos la tasa
de error es bastante aceptable en comparación al tamaño de los conjuntos de TE y EP, las
pruebas cinéticas proporcionan el mínimo error de clasificación de 2.63%. Una vez más las
pruebas estáticas siguen proporcionando el mayor error en la predicción.
-
Finalmente, una combinación de todas las pruebas estáticas, cinéticas, dinámicas o únicamente
las pruebas cinéticas son las que logran caracterizar y diferenciar ambos temblores. En todos los
ensayos se observa un ligero incremento del número de los vectores soporte, convendría que
171
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
estos fuesen menor de manera que garanticen una mejor generalización. La razón por la que las
pruebas estáticas no auguran un error aceptable se debe a un tipo de temblor parkinsoniano,
llamado temblor reemergente que se origina tras de un periodo de latencia al mantener una
postura y que es muy similar al TE.
5.5 HIPÓTESIS 4. ANÁLISIS DEL TEMBLOR CON EL MÉTODO DE COMPONENTES
PRINCIPALES ACP
El análisis de los componentes principales es una técnica exploratoria que permite observar la relación
que existe entre los datos y reducir la dimensionalidad de la matriz de datos originales con el propósito
de evitar los atributos redundantes o con poca información que fueron obtenidos a través de las
técnicas de estadística de PSD, biespectro y triespectro para la caracterización del temblor;
Los primeros componentes principales contienen la mayor información de todos los atributos, es decir
se puede reemplazar los 26 atributos de la Hipótesis 3 por una dimensión menor en el espacio de los
componentes principales. Se realizó varios ensayos entre las pruebas estáticas, cinéticas, dinámicas y en
conjunto con el fin de mejorar los resultados obtenidos en los ensayos anteriores en cuanto a la
generalización y a disminuir el error de predicción son conjuntos de muestras más grandes.
La SVM fue entrenada con los componentes principales que contiene el mayor porcentaje de varianza.
También se hizo uso del coeficiente de Curtosis y de la distancia de Mahalanobis para identificar
posibles muestras atípicas debido a errores de medición, etiquetados, ruido, excepciones e
incongruencias y retirarlas del análisis.
5.5.1 PROCEDIMIENTO
1. Las pruebas utilizadas fueron las sugeridas por el trabajo realizado por [88] y adicionalmente se
adhirió la prueba PT13 con el fin de incrementar las muestras.
Prueba
PT1 PT2 PT3 PT5 PT6 PT8 PT9 PT10 PT11 PT13 PT15 PT16 PT17 PT18
2. Los atributos fueron los obtenidos en la Hipótesis 3 que son las 26 medidas correspondientes al
espectro de potencia PSD, al biespectro y triespectro descritos en la Tabla 4.1.
172
ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS
3. Con el mismo método de la distancia de Mahalanobis y el coeficiente de Curtosis empleados en
la Hipótesis anterior, se seleccionaron las muestras más representativas de cada tipo de
temblor, hay que tener en cuenta que el limitado número de muestras del temblor esencial fue
un aspecto crucial para la clasificación con la SVM, se trató de mantener las muestras
disponibles de este temblor y reducir las muestras del temblor parkinsoniano para la
clasificación entre ambas clases. El número de muestras de cada temblor fueron las siguientes:
TEMBLOR
FISIOLÓGICO
34
TEMBLOR
PATOLÓGICO
56
TEMBLOR
ESENCIAL
9
TEMBLOR
PARKINSONIANO
27
4. Definidas las pruebas, los atributos y las muestras de cada tipo de temblor, cada conjunto a
clasificar es sometido al análisis de componentes principales (Sección 3.2.3), de donde se obtuvo
la matriz SCORE que es la representación de la matriz original en el espacio de los componentes
principales, las filas corresponden a cada una de las muestras y las columnas a los componentes.
5. El número de componentes a elegir depende de la varianza que existe entre uno y otro
componente, en la siguiente tabla se indica un ejemplo en donde se utilizó los 6 primeros
componentes, la información contenida es del 90.89%. El componente principal 1 contiene la
máxima información con un 38.46%, la segunda un 16.64% y así sucesivamente hasta el
componente 6 que contiene un 5.05% de la información, los demás componentes no son
tomados en cuenta debido a que contienen muy poca información y con ello se evita un gasto
computacional causados por manejar datos con una dimensión mayor.
Componente
Principal
Varianza
acumulada
Diferencia de
la varianza
1
2
3
4
5
6
38.46% 55.11% 68.55% 78.18% 85.84% 90.89%
16.64% 13.44%
9.63%
7.66%
5.05%
….
26
27
28
….
99.33% 99.99% 100.00%
….
0.02%
0.01%
0.00%
6. La matriz de entrada a la SVM se formó con el número de muestras y los componentes
principales seleccionados.
7. Para entrenar la SVM y clasificar las muestras del conjunto de prueba para todos los ensayos se
siguió el procedimiento de la Sección 5.1.1.
8. Para la clasificación del temblor fisiológico y temblor patológico los parámetros del modelo
clasificador y el error cometido en el entrenamiento y prueba fueron los siguientes:
173
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
TABLA 5.15 CLASIFICACIÓN TEMBLOR FISIOLÓGICO VS. TEMBLOR PATOLÓGICO.
Selección del modelo
Función Kernel
Mallado
Gaussiano RBF
-log2c -5,15,2
-log2g 3,-15,-2
2
-
3
Polinomial
Lineal
Fase de Entrenamiento
Nº Val.
Cruzada
Parámetros de ajuste
Modelo del Clasificador
bias (b)
Resultados
Nº vectores Error de Error de
soporte, VS entrenam. prueba
C
gama (ϒ)
5
8
0.5
1.36
36
9.52%
0.00%
10
32
0.5
1.90
28
7.94%
0.00%
-
512
-
0.28
27
-
7.41%
-
-
2048
-
-0.51
26
-
3.70%
-log2c -5,15,2
5
8
-
2.01
33
9.52%
14.81%
Conjunto de entrenamiento (70%): 63 muestras; Conjunto de prueba (30%): 27 muestras. Temblor fisiológico "+1", Temblor patológico "-1".
9. Se realizó algunos ensayos para la clasificación entre TE y EP que es la tarea que ha presentado
mayor complejidad especialmente cuando se cuenta con conjuntos de muestras grandes. En la
siguiente tabla se indica el conjunto de muestras utilizados para cada ensayo:
9/27
100/310
PRUEBAS
ESTÁTICAS
(2) PT1, PT2
14/43
Tabla 5.16a
Tabla 5.16b
Tabla 5.17
PRUEBAS
EST.+CIN.+DIN. (13)
Muestras TE/EP
PRUEBAS CINÉTICAS
(8) PT3, PT5, PT6, PT8,
PT9, PT10, PT11. PT13.
69/184
PRUEBAS DINÁMICAS
(4) PT15, PT16, PT17,
PT18.
32/90
Tabla 5.18
Tabla 5.19
10. Los parámetros del modelo clasificador de la SVM para distintos kernel y la tasa de error
cometido tanto en el entrenamiento como en la prueba se resumen en las siguientes tablas:
TABLA 5.16A CLASIFICACIÓN TE VS. EP PARA LAS 14 PRUEBAS.
Selección del modelo
Fase de Entrenamiento
Nº Val.
Cruzada
Parámetros de ajuste
Modelo del Clasificador
Nº vectores Error de Error de
soporte, VS entrenam. prueba
Función Kernel
Mallado
Gaussiano RBF
-log2c -5,15,2
-log2g 3,-15,-2
5
512
0.5
-0.09
5
0.00%
0.00%
10
1024
0.25
-0.10
5
0.00%
0.00%
2
-
-
1024
-
-17.53
4
-
0.00%
3
-
-
1024
-
-13.53
4
-
0.00%
-log2c -5,15,2
5
512
-
-30.23
5
0.00%
0.00%
Polinomial
Lineal
C
Conjunto de entrenamiento (70%): 25 muestras;
gama (ϒ)
bias (b)
Resultados
Conjunto de prueba (30%): 11 muestras. TE "+1", EP "-1".
TABLA 5.16B CLASIFICACIÓN TE VS. EP PARA LAS 14 PRUEBAS.
Selección del modelo
Función Kernel
Mallado
Gaussiano RBF
-log2c -5,15,2
-log2g 3,-15,-2
-
Polinomial
Lineal
2
3
Fase de Entrenamiento
Nº Val.
Cruzada
Parámetros de ajuste
bias (b)
Resultados
Nº vectores Error de Error de
soporte, VS entrenam. prueba
C
gama (ϒ)
5
8192
0.5
-6.50
73
11.50%
4.07%
10
4096
2
-0.85
67
9.76%
3.25%
-
2048
-
-9.76
71
-
4.88%
-
-
2048
-
-11.47
71
-
6.50%
-log2c -5,15,1
-
512
-
-7.27
83
12.20%
6.50%
Conjunto de entrenamiento (70%):287 muestras;
174
Modelo del Clasificador
Conjunto de prueba (30%): 123 muestras. TE "+1", EP "-1".
ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS
TABLA 5.17 CLASIFICACIÓN TE VS. EP CON 2 PRUEBAS ESTÁTICAS.
Fase de Entrenamiento
Selección del modelo
Nº Val.
Cruzada
Parámetros de ajuste
Modelo del Clasificador
Nº vectores Error de Error de
soporte, VS entrenam. prueba
Función Kernel
Mallado
Gaussiano RBF
-log2c -5,15,2
-log2g 3,-15,-2
5
2048
0.5
12.24
15
12.50%
0.00%
10
1024
0.25
18.33
17
10.00%
0.00%
2
-
-
128
-
-5.95
20
-
0.00%
3
-log2c -5,15,1
-log2g 1,1,1
-
256
-
-4.37
19
-
0.00%
5
64
-
-13.95
19
20.00%
0.00%
Polinomial
Lineal
C
Conjunto de entrenamiento (70%):40 muestras;
gama (ϒ)
bias (b)
Resultados
Conjunto de prueba (30%): 17 muestras. TE"+1", EP "-1".
TABLA 5.18 CLASIFICACIÓN TE VS. EP CON 8 PRUEBAS CINÉTICAS.
Fase de Entrenamiento
Selección del modelo
Función Kernel
Mallado
Gaussiano RBF
-log2c -5,15,2
-log2g 3,-15,-2
2
-
3
Polinomial
Lineal
Nº Val.
Cruzada
Parámetros de ajuste
Modelo del Clasificador
bias (b)
Resultados
Nº vectores Error de Error de
soporte, VS entrenam. prueba
C
gama (ϒ)
5
512
8
-2.98
27
7.91%
0.00%
10
1024
8
-2.69
27
7.91%
0.00%
-
512
-
-12.09
54
-
6.58%
-
-
512
-
-6.45
54
-
6.58%
-log2c -5,15,1
5
8192
-
-18.82
50
8.47%
9.21%
Conjunto de entrenamiento (70%): 177 muestras;
Conjunto de prueba (30%): 76 muestras. TE "+1", EP "-1".
TABLA 5.19 CLASIFICACIÓN TE VS. EP CON 4 PRUEBAS DINÁMICAS.
Fase de Entrenamiento
Selección del modelo
Nº Val.
Cruzada
Parámetros de ajuste
Modelo del Clasificador
Nº vectores Error de Error de
soporte, VS entrenam. prueba
Función Kernel
Mallado
Gaussiano RBF
-log2c -5,15,2
-log2g 3,-15,-2
5
2048
0.0078125
5.45
35
18.82%
10.81%
10
2048
0.00390625
2.60
36
18.82%
10.81%
2
-
-
4096
-
0.09
33
-
8.11%
3
-
-
8192
-
0.31
36
-
8.11%
-log2c -5,15,2
5
2
-
0.75
40
20.00%
16.22%
Polinomial
Lineal
C
Conjunto de entrenamiento (70%): 85 muestras;
gama (ϒ)
bias (b)
Resultados
Conjunto de prueba (30%): 37 muestras. TE "+1", EP "-1".
11. Con el propósito de analizar si las pruebas por sí solas logran clasificar eficazmente, se entrenó
la SVM con un kernel Gaussiano RBF que en la mayoría de ensayos anteriores proporcionó un
error bajo. Existe una desventaja, el conjunto de las muestras del temblor esencial es reducido,
pero se pretendió comprobar el rendimiento de la SVM para estos nuevos ensayos. A
continuación se expone los modelos del clasificador SVM con sus respectivos parámetros, el
número de vectores soporte y el error durante la predicción de las etiquetas de las muestras del
conjunto de prueba:
175
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
TABLA 5.20 CLASIFICACIÓN TE VS. EP CON CADA PRUEBA.
Muestras
PT1
PT2
PT3
PT5
PT6
PT8
Pruebas
Cinéticas
PT9
PT10
PT11
PT13
PT15
Pruebas PT16
Dinámicas PT17
PT18
Pruebas
Estáticas
Conjunto (muestras) de:
TE
EP
Entrenam.
Prueba
6
8
8
10
9
9
8
8
9
10
7
7
5
7
26
17
26
23
24
25
27
25
26
15
27
25
16
24
22
18
24
23
23
24
24
23
24
18
23
22
14
21
10
7
10
10
10
10
11
10
11
7
11
10
7
10
Parámetros de ajuste
C
gama (ϒ)
32
32
128
512
8
2048
512
8192
32768
512
2
512
512
2048
Nº vectores
soporte, VS
Error de
prueba
6
6
9
7
7
8
9
6
6
11
13
11
9
6
0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
18.18%
10%
0%
0%
0.0625
0.5
0.0078125
0.5
0.5
0.03125
0.0078125
0.03125
0.0078125
0.0078125
8
0.078125
0.0078125
0.03125
5.5.2 ANÁLISIS DE LOS MODELOS DEL CLASIFICADOR
-
El análisis de componentes principales sobre los datos obtenidos a partir de las estadísticas de
segundo orden y orden superior, consiguió reducir la dimensionalidad de los atributos y
comprimir la información más relevante en unas pocas variables sin perder la información inicial
dentro de un nuevo sistema de coordenadas, lo importante es que cada componente principal
no tienen correlación entre ellos y al ser linealmente independientes se seleccionó los
componentes con mayor varianza (diferente en cada uno de los casos), con lo que se obtuvo
que el entrenamiento de la SVM sea más rápido generando un ahorro computacional muy
importante en comparación con las hipótesis anteriores que consumían mucho tiempo en el
cálculo computacional, superando así los problemas de trabajar con la alta dimensionalidad de
los vectores de entrada.
-
Los componentes principales con mayor varianza fueron capaces de sintetizar toda la
información y caracterizar muy bien a los diferentes tipos de temblor, evitando la ardua labor de
identificar que atributos (PSD, biespectro, triespectro) son lo que caracterizaban a las pruebas
estáticas, cinéticas o dinámicas.
-
La generalización de la SVM con el ACP mejoró mucho, el error en la predicción de las etiquetas
de las muestras del conjunto de prueba fue del 0% en la mayoría de los ensayos.
-
El número de vectores soporte disminuyó, debido a una buena capacidad de generalización lo
que garantizó que no exista el indeseado sobreajuste, además que indican que el modelo
176
ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS
clasificador de la SVM generada a partir de las muestras de entrenamiento es lo suficientemente
hábil para realizar una buena clasificación de muestras que la máquina aún no conoce.
-
Las SVMs se enmarcan dentro del principio de minimización del riesgo estructural en donde se
introduce un parámetro libre de control C a ser ajustado por el usuario, éste parámetro fue
ajustado en los kernel polinomial para lograr reducir el error en la clasificación.
-
Con respecto a la clasificación entre el temblor fisiológico y patológico, con el ACP no resultó
muy complicado el reconocimiento de la clase de las muestras de prueba.
-
Los ensayos realizados con un número mayor de muestras y aplicando el ACP generó bajos
valores de errores en la clasificación, especialmente cuando todas las muestras son
consideradas en conjunto (Tabla 5.16a y Tabla 5.16b) y cuando se entrena únicamente con las
pruebas cinéticas (Tabla 5.18). En estos ensayos no se tuvieron que retirar muestras atípicas y se
entrenó casi con la totalidad de los datos originales.
-
Las pruebas estáticas (Tabla 5.17) tuvieron que ser analizadas con la distancia de Mahalanobis y
retiradas varias muestras con comportamiento atípico para obtener un buen modelo de la SVM
con lo que se disminuyó el número de muestras disponibles. Sin embargo, con este proceso el
error en la clasificación disminuyó hasta el 0%.
-
El error generado en la clasificación de las pruebas dinámicas no se pudo reducir como en los
otros ensayos, a pesar de retirar muestras anómalas el error no disminuyó y esto se debe a que
las muestras están muy sobrepuestas entre ambas clases, es decir los temblores esencial y
parkinsoniano tienen un comportamiento muy similar al realizar este tipo de pruebas.
-
Finalmente, se aplicó el ACP sobre el conjunto de muestras de cada prueba con un kernel
Gaussiano RBF (Tabla 5.20), los modelos del clasificador fueron muy buenos, especialmente para
las pruebas cinéticas que contaban con más muestras para el entrenamiento y prueba, son más
fiables que las pruebas estáticas y dinámicas que tienen pocas muestra para el temblor esencial.
177
CAPÍTULO 6
RESULTADOS DE LA INVESTIGACIÓN
Antes de hacer un análisis a los resultados obtenidos, cabe recordar que estos dependen en gran
medida de las condiciones físicas y psicológicas de los pacientes a la hora de su ejecución; la presencia
de comorbilidades, el estrés emocional, la ansiedad, la fatiga e incluso la temperatura puede intensificar
el temblor y no permitir que las condiciones sean aptas para realizar las pruebas.
Además, existen consideraciones que deben ser tomados en cuenta y que puede mermar los resultados,
entre estas se pueden mencionar: la similitud de las características clínicas entre los diferentes tipos de
temblor bajo ciertas circunstancias, la posibilidad de coexistencia de dos enfermedades en un paciente,
el hecho de considerar que una enfermedad sea factor de riesgo para el desarrollo de la otra y el
diagnóstico temprano de los pacientes con temblor esencial que termina siendo temblor parkinsoniano.
Otra dificultad, es el desbalance en número de muestras de los pacientes con temblor esencial en
relación al número de muestras de la enfermedad de Parkinson, presenta una relación 1:5. Una solución
fue aplicar el análisis de componentes principales para visualizar e identificar el comportamiento de
cada paciente en el espacio de nuevas variables.
Sin embargo, el método de inteligencia artificial introducido con el algoritmo de las máquinas de soporte
vectorial, debe ser capaz de reconocer el patrón incrustado en los datos de cada tipo de temblor, lograr
diferenciarlos y clasificarlos de acuerdo con algún tipo de similitud.
En las hipótesis planteadas en el capítulo anterior, tienen la finalidad de encontrar el procedimiento, el
conjunto de pruebas, los patrones o los atributos que permitan clasificar las muestras con la menor tasa
de error posible, siempre y cuando la complejidad del modelo óptimo del clasificador SVM sea menor lo
179
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
que garantiza una buena generalización. El número de vectores soporte es un excelente indicador de la
calidad del modelo, un alto número de vectores soporte indica un sobreajuste mientras un bajo número
de vectores soporte conlleva a un modelo con alta capacidad de generalizar.
En este capítulo se analizan los modelos del clasificador de la SVM con los mejores resultados de cada
una de las hipótesis planteadas en el Capítulo anterior:
1. La primera hipótesis analiza el temblor mediante curvas de ajuste, que miden la desviación o
error producido por el temblor al seguir la trayectoria marcada por los patrones de prueba. La
magnitud utilizada fue el error cuadrático medio RMSE.
2. Una segunda hipótesis comprende el análisis del temblor a partir de la frecuencia de oscilación y
de la amplitud del temblor, se tiene en cuenta las condiciones en las que el temblor se exacerba;
cuando un paciente con temblor esencial mantiene una postura en contra de la fuerza de
gravedad o tiene la intención de alcanzar un objetivo el temblor tiende a incrementarse,
mientras que en un paciente con la enfermedad de Parkinson presenta un temblor de reposo
que se inhibe cuando realiza una acción, en los pacientes con temblor fisiológico la amplitud del
temblor es muy baja y su frecuencia es alta, características que lo diferencia en mayormente de
los anteriores tipos de temblor. Tomando estas consideraciones como ciertas se busca
caracterizar y diferenciar entre los diferentes tipos de temblor utilizando dos atributos
numéricos (amplitud y frecuencia).
3. La hipótesis 3, analiza las muestras caracterizadas con 26 atributos numéricos obtenidos a partir
de la estadística de segundo orden PSD y estadística de orden superior con los biespectros y
triespectros, en este estudio se aplicó el análisis de componentes principales, la distancia de
Mahalanobis y el coeficiente de Curtosis para determinar aquellos pacientes cuya información
aporta en mayor grado a la clasificación y superar el desbalance que de cierta forma provocaba
un incremento en el error en la clasificación entre las muestras de temblor esencial y las
muestras de Parkinson.
4. Una cuarta hipótesis fue planteada con el análisis de compontes principales, reduciendo la
dimensionalidad de los datos con 26 atributos, el número de las nuevas variables fue
seleccionado de forma que la varianza alcance entre el 80-90%, además se realizaron varios
ensayos con diferentes configuraciones, entrenando por separado las pruebas estáticas,
cinéticas, dinámicas o en combinación entre ellas para determinar su influencia en los
resultados.
180
RESULTADOS DE LA INVESTIGACIÓN
Para evaluar el rendimiento de modelo clasificador obtenido se utilizó la curva ROC (Receiver Operating
Characteristic) que hoy en día se utiliza en aplicaciones de aprendizaje automático y representa la
relación entre la razón de verdaderos positivos VPR (clasificar las muestras de una clase correctamente)
y la razón de falsos positivos FPR (clasificar las muestras de una clase de forma errónea) según varía el
umbral de discriminación del clasificador.
Para calificar la capacidad discriminatoria del modelo clasificador SVM, el área bajo la curva (AUC) es
una buena forma de interpretar la curva ROC, los intervalos de los valores de la AUC son las siguientes:

[0.5, 0.6):
Modelo malo.

[0.6, 0.75):
Modelo regular.

[0.75, 0.9):
Modelo bueno.

[0.9, 0.97):
Modelo muy bueno.

[0.97, 1):
Modelo excelente.
6.1 RESULTADOS. ANÁLISIS DEL TEMBLOR MEDIANTE CURVAS DE AJUSTE
En el análisis de temblor mediante curvas de ajuste, se utilizó la siguiente base de datos:

36 que pertenecen a 20 pacientes con temblor fisiológico (TF).

10 pertenecen a los 7 pacientes con temblor esencial (TE).

47 corresponden a 23 pacientes con temblor parkinsoniano (EP).
Para modelar el clasificador de la Máquina de Soporte Vectorial, el conjunto de datos formado por cada
par de clases se subdividió las muestras de forma aleatoria en 70% para el conjunto de entrenamiento y
30% para el conjunto de prueba. Las condiciones para entrenar la SVM fueron las siguientes:
ENSAYO
(Configuración)
Est. + Cin. + Din.
1.
(16 pruebas)
Est. + Cin. + Din.
2.
(16 pruebas)
CONDICIONES DE ENTRENAMIENTO PARA LA SVM
Número de Número de
Clasificación
Pruebas
muestras
Atributos
TF
36
PT1x, PT1y, PT1z, PT2x,
16 (1 por
TP
57
PT2y, PT2z, PT3y, PT5xy,
cada
PT5yx, PT6x, PT10xy, PT15x,
TE
10
prueba)
PT15y, PT15z, PT16y, PT17y.
EP
47
Siguiendo el procedimiento de la Sección 5.1.1, los mejores modelos del clasificador SVM para la
clasificación entre temblor fisiológico-temblor patológico (TP) y temblor esencial-enfermedad de
Parkinson se resumen a continuación:
181
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
Ensayo
1. TF-TP
2. TE-EP
N° de muestras
Entrenam. Prueba
65
28
40
17
MODELO DEL CLASIFICADOR SVM
Parámetros de ajuste
Kernel
C
gama
grado
Gaussiano RBF
8
2
Polinomial
0.1
3
N° VS
27
17
Tasa de error
Prueba
3.57%
11.76%
Las curvas ROC obtenidas para validar el modelo del clasificador con el menor error en la predicción en
los Ensayos 1. y 2. se presentan a continuación:
ROC curve of (AUC = 1 )
0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.5
0.4
0.6
0.5
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
False Positive Rate
ROC curve of (AUC = 0.86667 )
1
True Positive Rate
True Positive Rate
1
0.7
0.8
0.9
1
0
0
Figura 6.1a Curva ROC Ensayo 1. AUC=1
-
0.1
0.2
0.3
0.4
0.5
0.6
False Positive Rate
0.7
0.8
0.9
1
Figura 6.1b Curva ROC Ensayo 2. AUC=0.87
En el Ensayo 1, se clasificó entre las muestras de temblor fisiológico y temblor patológico, el
modelo óptimo se construyó con un kernel Gaussiano RBF y con 27 vectores soporte, un
número menor en comparación a los utilizados en el entrenamiento lo que se interpreta en una
buena generalización. El error en la clasificación fue del 3.57%, un valor muy aceptable. Según la
Figura 6.1a el análisis de la curva ROC de este clasificador indica que el AUC=1, que significa un
modelo excelente.
-
En el Ensayo 2, en la clasificación entre temblor esencial y enfermedad de Parkinson el mínimo
error en la clasificación fue del 11.76% con un kernel polinomial de grado 2 y utilizando
solamente 17 vectores soporte. La curva ROC de la Figura 6.1b revela que el AUC=0.87, se tiene
un modelo bueno pero que necesita ser mejorado.
-
La clasificación entre temblor esencial y enfermedad de parkinson es dificultosa utilizando el
RMSE como único atributo, lo que conlleva a utilizar más magnitudes para caracterizar estos
temblores y mejorar los resultados. Sin embargo, en estos ensayos se pudo apreciar la
capacidad y robustez de las máquinas de soporte vectorial con resultados mucho más
prometedores que los alcanzados en los trabajos anteriores [85,88].
182
RESULTADOS DE LA INVESTIGACIÓN
6.2 RESULTADOS. ANÁLISIS DE LA AMPLITUD Y FRECUENCIA DEL TEMBLOR
Para la caracterización del temblor con atributos de frecuencia y amplitud se utilizó las series
temporales de la siguiente base de datos:

36 que pertenecen a 20 pacientes con temblor fisiológico (TF).

10 pertenecen a los 7 pacientes con temblor esencial (TE).

30 corresponden a 23 pacientes con temblor parkinsoniano (EP).
Las condiciones de los 3 ensayos para entrenar la SVM fueron las siguientes:
CONDICIONES DE ENTRENAMIENTO PARA LA SVM
ENSAYO
Número de
Número de
Clasificación
(Configuración)
muestras
Atributos
TF
36
Est. + Cin. + Din.
78 (2 por cada
1.
(13 pruebas)
TP
40
eje X, Y, Z; y
por cada
TE
10
Est. + Cin. + Din.
2.
prueba)
(13 pruebas)
EP
30
TE
114
Est. + Cin. + Din.
6 (2 por cada
3.
(13 pruebas)
eje X, Y, Z)
EP
358
Pruebas
PT1, PT2, PT3,
PT5, PT6, PT8,
PT9, PT10,
PT11, PT15,
PT16, PT17,
PT18.
Los modelos del clasificador SVM obtenidos utilizando las condiciones anteriores en los 3 ensayos,
siguiendo el procedimiento propuesto de la Sección 5.1.1, con un 70% de muestras para el conjunto de
entrenamiento y el 30% de muestras para el conjunto de prueba fueron los siguientes:
Ensayo
1. TF-TP
2. TE-EP
3. TE-EP
N° de muestras
Entrenam. Prueba
53
23
28
12
330
142
MODELO DEL CLASIFICADOR SVM
Parámetros de ajuste
Kernel
C
gama
grado
Polinomial
128
2
Gaussiano RBF
32
0.00781
Gaussiano RBF
512
0.125
-
N° VS
24
13
123
Tasa de error
Prueba
0.00%
8.33%
9.15%
Las curvas ROC para evaluar los modelos se presentan a continuación:
ROC curve of (AUC = 1 )
1
ROC curve of (AUC = 0.92593 )
1
0.9
0.9
0.8
0.7
True Positive Rate
True Positive Rate
0.8
0.6
0.5
0.4
0.7
0.6
0.5
0.3
0.4
0.2
0.1
0
0.1
0.2
0.3
0.4
0.5
0.6
False Positive Rate
0.7
0.8
0.9
Figura 6.2a Curva ROC Ensayo 1. AUC=1
1
0
0.1
0.2
0.3
0.4
0.5
0.6
False Positive Rate
0.7
0.8
0.9
1
Figura 6.2b Curva ROC Ensayo 2. AUC=0.93
183
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
ROC curve of (AUC = 0.96242 )
1
0.9
0.8
True Positive Rate
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
False Positive Rate
0.7
0.8
0.9
1
Figura 6.2c Curva ROC Ensayo 2. AUC=0.96
-
En el Ensayo 1, la clasificación entre temblor fisiológico y temblor patológico fue correcta
utilizando la amplitud y frecuencia como atributos. Con un kernel polinomial de grado 2 y 24
vectores soporte se obtuvo el 0% de error en la clasificación. La Figura 6.2 muestra una AUC=1,
calificando a este modelo como excelente. La clasificación entre estos temblores no presenta
gran dificultad.
-
Para el Ensayo 2, la clasificación entre el temblor esencial y enfermedad de Parkinson utilizó la
frecuencia y amplitud de las 13 pruebas (estáticas + cinéticas + dinámicas) para caracterizar cada
muestra, de forma que los atributos fueron mucho mayor que el número de vectores de entrada
a la SVM, el modelo obtenido se logró con un kernel Gaussiano RBF y 13 vectores soporte. El
error en la clasificación fue del 8.33%. La curva ROC de la Figura 6.2b muestra que el AUC=0.93,
que se interpreta como un modelo muy bueno, aunque bajo el criterio de ser pocas las muestras
se esperaba que el error sea mucho menor.
-
Para comprobar el rendimiento de la SVM con un mayor número de vectores de entrada se optó
por la configuración del Ensayo 3, en donde se tomaron a cada una de las muestras de cada
prueba (estáticas, cinéticas, dinámicas) como vector de entrada con o que se disminuyó la
dimensionalidad a sólo 6 atributos (amplitud y frecuencia en el eje X, Y, Z). El mejor modelo se
consiguió con un kernel Gaussiano RBF y con 123 vectores soporte, un número bastante bajo en
comparación a los 313 que se utilizaron para el entrenamiento. El error se incrementó a 9.15%.
El AUC=0.96 según la curva ROC de la Figura 6.2c, lo que representa que el modelo es muy
bueno tomando en cuenta el número de muestras del conjunto de prueba (142) que el error
subió ligeramente. Sin embargo, utilizando más atributos posiblemente se pueda mejorar los
resultados.
184
RESULTADOS DE LA INVESTIGACIÓN
6.3 RESULTADOS. ANÁLISIS DEL TEMBLOR CON TÉCNICAS DE ESTADÍSTICA DE
SEGUNDO ORDEN PSD Y ESPECTROS DE ORDEN SUPERIOR HOSA
El desbalance que existe en número de las muestras de temblor esencial en comparación a las muestras
de enfermedad de Parkinson puede haber sido la causante que en los ensayos anteriores no se lograse
reducir el error en la clasificación, en la hipótesis 3 se planteó utilizar el análisis de componentes
principales, la distancia de Mahalanobis y el coeficiente de Curtosis para identificar el comportamiento
atípicos de algunos pacientes, bajo ese procedimiento el número de muestras seleccionadas para el
entrenamiento de la SVM fueron las siguientes:

34 muestras que pertenecen a 20 pacientes con temblor fisiológico (TF).

9 muestras que pertenecen a los 6 pacientes con temblor esencial (TE).

27 muestras que corresponden a 19 pacientes con temblor parkinsoniano (EP).
Tanto para seleccionar a los pacientes más representativos como las muestras, los atributos empleados
en la caracterización del temblor fueron los obtenidos al aplicar las estadísticas de segundo orden PSD y
de orden superior triespectro y triespectro.
El porcentaje de partición para los conjuntos de entrenamiento y prueba fue del 70% y 30%,
respectivamente. En la siguiente tabla se resume las condiciones y configuraciones adaptadas en cada
ensayo para el entrenamiento de la SVM.
1.
2.
3.
4.
5.
6.
7.
8.
9.
CONDICIONES DE ENTRENAMIENTO PARA LA SVM
ENSAYO
Número de
Número de
Clasificación
Pruebas
(Configuración)
muestras
Atributos
TF
34
Est. + Cin. + Din.
(13 pruebas)
TP
56
975
TE
9
Est. + Cin. + Din.
(25 por
PT1,
(13 pruebas)
EP
27
cada eje X,
PT2,
TE
9
Estáticas
Y, Z; y por
150
PT3,
(2 pruebas)
cada una de
EP
27
PT5,
las
TE
9
Cinética
525 pruebas).
PT6,
(7 pruebas)
EP
27
PT8,
TE
7
Dinámicas
300
PT9,
(4 pruebas)
EP
27
PT10,
TE
106
Est. + Cin. + Din.
PT11,
(13 pruebas)
EP
341
PT15,
TE
18
Estáticas
PT16,
(25 por
(2 pruebas)
EP
54
PT17,
75 cada eje X,
TE
63
Cinética
PT18.
Y, Z).
(7 pruebas)
EP
189
TE
25
Dinámicas
(4 pruebas)
EP
98
185
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
Los modelos del mejor clasificador para cada uno de los ensayos se presentan a continuación:
Ensayo
1.
2.
3.
4.
5.
6.
7.
8.
9.
TF-TP
TE-EP
TE-EP
TE-EP
TE-EP
TE-EP
TE-EP
TE-EP
TE-EP
MODELO DEL CLASIFICADOR SVM
Parámetros de ajuste
Kernel
C
gama
grado
Gaussiano RBF
512
0.00049
Gaussiano RBF
16
0.00195
Gaussiano RBF
64
0.00098
Polinomial
64
2
Polinomial
2
2
Gaussiano RBF
8
0.5
Gaussiano RBF
64
0.00391
Gaussiano RBF
32
0.125
Gaussiano RBF
512
0.00781
-
N° de muestras
Entrenam. Prueba
63
27
25
11
25
11
25
11
23
11
313
134
50
22
176
76
86
37
N° VS
35
18
18
15
16
134
30
55
38
Tasa de error
Prueba
0.00%
0.00%
18.18%
0.00%
0.00%
7.46%
13.64%
2.63%
8.11%
Las curvas ROC para evaluar el rendimiento los clasificadores se muestran a continuación, se optó por
representar los modelos sombreados en la tabla anterior que son las configuraciones mas importantes:
ROC curve of (AUC = 1 )
1
0.9
True Positive Rate
0.8
0.7
0.6
0.5
0.4
0
0.1
0.2
0.3
0.4
0.5
0.6
False Positive Rate
0.7
0.8
0.9
1
Figura 6.3a Curva ROC Ensayo 2. AUC=1
ROC curve of (AUC = 0.92922 )
1
0.9
0.9
0.8
0.8
0.7
True Positive Rate
True Positive Rate
0.7
0.6
0.5
0.4
0.5
0.4
0.3
0.2
0.2
0.1
0.1
0
0.1
0.2
0.3
0.4
0.5
0.6
False Positive Rate
0.7
0.8
0.9
Figura 6.3b Curva ROC Ensayo 6. AUC=0.93
186
0.6
0.3
0
ROC curve of (AUC = 0.97138 )
1
1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
False Positive Rate
0.7
0.8
0.9
Figura 6.3c Curva ROC Ensayo 8. AUC=0.97
1
RESULTADOS DE LA INVESTIGACIÓN
-
En el Ensayo 1, la clasificación entre el temblor fisiológico y temblor patológico nuevamente dio
buenos resultados, sin lugar a duda ambas enfermedades pueden diferenciarse fácilmente. El
error en la clasificación fue del 0% pero los vectores soporte (35) incrementaron notablemente
en comparación a los resultados de las hipótesis anteriores, lo que puede estar sesgando a un
ligero sobreajuste. El 0% de error apunta a ser un modelo excelente.
-
El modelo del Ensayo 2, logra un error del 0% en la clasificación entre temblor esencial y
enfermedad de Parkinson, pero el número de vectores soporte (18) es elevado en comparación
a los 25 vectores utilizados en el entrenamiento. En la configuración cada muestra está
representada por todos los atributos de las 13 pruebas (estáticas + cinéticas + dinámicas),
siendo el número de atributos mucho mayor que el número de muestras. La Figura 6.3a muestra
un AUC=1 que representa un excelente modelo.
-
En los Ensayos 3, 4 y 5 se entrenó la SVM con las pruebas estáticas, cinéticas y dinámicas
respectivamente, de forma separada, con un número de atributos mucho mayor que los
vectores siendo las pruebas estáticas las que presentan un alto error (18.18%), mientras que las
pruebas cinéticas y dinámicas lograron reducirse al 0% de error.
-
Con el fin de incrementar las muestras, en el Ensayo 6 se tomó a cada muestra de cada prueba
(estáticas, cinéticas, dinámicas) como vector de entrada para la SVM (447), a la vez que se
redujo los atributos a 75. El mejor modelo logró un error del 7.46% en la clasificación con un
kernel Gaussiano RBF y con 134 vectores soporte. La curva ROC de la Figura 6.3b muestra el
AUC=0.93 y teniendo que en cuenta que el número de vectores para el entrenamiento y prueba
es alto, se puede deducir en un modelo muy bueno.
-
En los Ensayos 7, 8 y 9 se siguió la misma metodología, considerar a cada muestra de cada
prueba como un vector de entrada, pero analizando por separado a las pruebas estáticas,
cinéticas y dinámicas. Todos los modelos emplearon un kernel Gaussiano RBF. Las error en la
clasificación con las pruebas estáticas y dinámicas fueron de 13.64% y 8.11% respectivamente,
valores un poco altos en comparación a su tamaño de muestras. Por otro lado, las pruebas
cinéticas lograron el error más bajo en la clasificación con el 2.63%, un error muy aceptable
teniendo en cuenta que el tamaño del conjunto de prueba fue de 252. El AUC=0.97 de la Figura
6.3c, lo postula como un modelo de clasificador SVM excelente.
-
Un inconveniente con este método fue que el número de vectores soporte se incrementaron.
187
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
6.4 ANÁLISIS DEL TEMBLOR CON EL MÉTODO DE COMPONENTES PRINCIPALES
En los ensayos de la hipótesis 3, el gasto computacional durante la optimización fue alto debido a la alta
dimensionalidad de los vectores por los 26 atributos con los que trabajó y las distintas configuraciones
que incrementaron aún más la dimensionalidad. Para superar este inconveniente, se sometió a los
vectores al análisis de componentes principales que permitió disminuir la dimensionalidad por nuevas y
menos variables que contienen la mayor información. La distancia de Mahalanobis y el coeficiente de
Curtosis fue empleado para separar valores atópicos y mejorar la precisión en la clasificación.
EL número de muestras y los pacientes seleccionados fueron los mismos del apartado anterior. El
porcentaje de muestras para los conjuntos de entrenamiento y prueba fueron del 70% y 30%. Las
condiciones para el entrenamiento de la SVM en los diferentes ensayos y configuraciones son:
1.
2.
3.
4.
5.
6.
CONDICIONES DE ENTRENAMIENTO PARA LA SVM
N° Atributos
ENSAYO
Número de
Clasificación
(Componentes Pruebas
(Configuración)
muestras
Principales)
TF
34
Est. + Cin. + Din.
15 CP
PT1, PT2,
(13 pruebas)
TP
56
PT3, PT5,
TE
9
Est. + Cin. + Din.
3 CP
PT6, PT8,
(13 pruebas)
EP
27
PT9,
TE
100
Est. + Cin. + Din.
3 CP
PT10,
(13 pruebas)
EP
310
PT11,
TE
14
Estáticas
PT13,
3 CP
(2 pruebas)
EP
43
PT15,
TE
69
Cinética
PT16,
3 CP
(7 pruebas)
EP
184
PT17,
TE
32
Dinámicas
PT18.
5 CP
(4 pruebas)
EP
90
Los modelos con los que se obtuvo el menor error en la clasificación para cada uno de los ensayos son
los siguientes:
Ensayo
1.
2.
3.
4.
5.
6.
TF-TP
TE-EP
TE-EP
TE-EP
TE-EP
TE-EP
N° de muestras
Entrenam. Prueba
63
27
25
11
287
123
40
17
177
76
86
37
MODELO DEL CLASIFICADOR SVM
Parámetros de ajuste
Kernel
C
gama
grado
Gaussiano RBF
32
0.5
Gaussiano RBF
512
0.5
Gaussiano RBF
4096
2
Gaussiano RBF
2048
0.5
Gaussiano RBF
512
8
Polinomial
4096
2
N° VS
28
5
67
15
27
33
Tasa de error
Prueba
0.00%
0.00%
3.25%
0.00%
0.00%
8.11%
Las curvas ROC para evaluar el rendimiento de los modelos obtenidos se exponen a continuación, se
representaron únicamente aquellos modelos que tienen un error de clasificación mayor al 0%:
188
RESULTADOS DE LA INVESTIGACIÓN
ROC curve of (AUC = 0.96774 )
1
0.9
0.9
0.8
0.8
True Positive Rate
True Positive Rate
0.7
0.6
0.5
0.4
0.3
0.6
0.5
0.4
0.2
0.1
0
0.1
0.2
0.3
0.4
0.5
0.6
False Positive Rate
0.7
0.8
0.9
Figura 6.4a Curva ROC Ensayo 3. AUC=0.97
-
0.7
0.3
0.2
0
ROC curve of (AUC = 0.89224 )
1
1
0.1
0
0.1
0.2
0.3
0.4
0.5
0.6
False Positive Rate
0.7
0.8
0.9
1
Figura 6.4b Curva ROC Ensayo 6. AUC=0.89
Con el análisis de componentes principales los resultado mejoraron sustancialmente, algo muy
importante fue que el número de vectores soporte se disminuyó notablemente en comparación
al método empleado en la sección anterior. Además, que el gasto computacional también se
redujo de sobremanera, haciendo que éste método sea el más adecuado para el análisis de las
series temporales, caracterización del temblor y clasificación de las muestras.
-
En el Ensayo 1, la clasificación del temblor fisiológico y temblor patológico fue correcto. El
interés radica en que para conseguir el 0% de error en la clasificación, el clasificador trabajo con
28 vectores soporte, un número bastante bajo que indica buena generalización.
-
El Ensayo 2, es similar al utilizado en la sección anterior, el análisis de componentes principales
ha hecho que el número de vectores soporte se reduzcan a 5 y se alcance un error en la
clasificación entre temblor esencial y enfermedad de Parkinson de 0%.
-
Con 123 muestras en el conjunto de prueba, en el Ensayo 3 el modelo implementado con un
kernel Gaussiano RBF alcanza un error en la clasificación de temblor esencial y enfermedad de
Parkinson de 3.25%, es decir 4 muestras fueron mal clasificadas. La curva ROC de la Figura 6.4a
indica que el AUC=0.97 etiquetando a este modelo como excelente.
-
En los Ensayo 4, 5 y 6 las pruebas estáticas, cinéticas y dinámicas fueron entrenadas de forma
separada. En los dos primeros ensayos, los modelos del clasificador emplearon un kernel
Gaussiano RBF y el error en la clasificación fue del 0%. Mientras que las pruebas dinámicas
siguieron dando un error un poco alto del 8.11%, la Figura 6.4b muestra que el AUC=0.89 que lo
califica como un modelo bueno, que no se ha podido mejorar y optimizarlo como se ha logrado
con el resto de pruebas.
189
CONCLUSIONES
-
Las patologías del temblor derivadas de los trastornos del movimiento, cada día afectan a más
personas adultas y ancianas conforme la población envejece, hecho que pone a la ciencia y la
medicina en la palestra de la búsqueda del conocimiento para enfrentar problemas complejos
reales proveniente de los seres humanos, a la vez que la tecnología también avanza
aceleradamente corroborando en la solución. Es así, que en esta investigación se hizo uso de la
Inteligencia Artificial a través del aprendizaje automático inducido por las Máquinas de Soporte
Vectorial para el reconocimiento y la clasificación del temblor, demostrando ser una
herramienta muy robusta y eficiente para lograr una buena generalización en contraste con los
resultados obtenidos.
-
EL temblor fisiológico, temblor esencial (TE) y la enfermedad de Parkinson (EP), son
consideradas enfermedades relativamente diferentes. Sin embargo, el solapamiento entre las
características clínicas, etiológicas y semiológicas que presentan el temblor esencial y la
enfermedad de Parkinson, dificulta el diagnóstico clínico. Los médicos fundamentan su
diagnóstico en una valoración cualitativa del temblor basados en escalas de calificación de
gravedad, evaluando la capacidad motora del paciente en actividades cotidianas, pero este
método depende en gran medida de la experiencia y perspicacia del especialista. Por lo tanto,
para superar esta dificultad fue necesario hacer un análisis cuantitativo del temblor, procesando
y analizando con herramientas matemáticas las series temporales obtenidas a partir de un
conjunto de pruebas ejecutadas por pacientes con temblor y que fueron registradas y
almacenadas por el sistema DIMETER.
-
En la Hipótesis 1, el ajuste de las series temporales a una curva para medir la deviación sobre la
trayectoria del patrón de prueba, fue un método sencillo pero con el mimo principio que utilizan
191
AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN.
APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO.
las tabletas digitalizadoras para medir el temblor en el paciente. Este método logró diferenciar a
los temblores fisiológico y patológico con un solo atributo (RMSE), pero el error cometido en la
clasificación entre TE y EP no fue satisfactorio. Un solo atributo no es suficiente para diferenciar
a los temblores patológicos.
-
En la Hipótesis 2, el método utilizado para caracterizar el temblor con dos atributos, frecuencia y
amplitud, no resultó ser eficientes para clasificar entre TE y EP, el solapamiento en la frecuencia
de oscilación del temblor dificultó la diferenciación, siendo necesario buscar otro método para
caracterizar el temblor y conseguir disminuir el error de clasificación.
-
La metodología aplicada en la Hipótesis 3, la caracterización del temblor con las estadísticas de
segundo orden PSD y orden superior Poliespectros, proporcionaron buenos atributos. Sin
embargo, los 26 atributos considerados aumentó la dimensionalidad de los vectores de entrada
a la SVM, causando un gasto computacional alto durante la optimización del problema, además
que se estuvo trabajando con atributos que contenían poca información del temblor. Sin
embargo, los resultados fueron muy buenos en algunos de los ensayos. Se comprobó que las
pruebas estáticas, cinéticas y dinámicas en conjunto, caracterizan correctamente al TE y EP, la
precisión en la clasificación fue del 100%. De igual forma, sólo las pruebas cinéticas o sólo las
pruebas dinámicas también son eficientes para discriminar al TE y EP, en ambos casos la
precisión en la clasificación fue del 100%. Hay que recordar que éstos resultados se obtuvieron
cuando el número de atributos fue mucho mayor que el número de vectores.
-
En la Hipótesis 4, la metodología utilizada se basó en superar el inconveniente de la
dimensionalidad, el análisis de componentes principales (ACP) cumplió un papel importante,
permitiendo disminuir la dimensionalidad de los vectores y compactando la mayor información
con mayor varianza en unas cuantas nuevas variables, disminuyendo eficazmente el cálculo
computacional. Una vez reducida la dimensionalidad, el entrenamiento de la SVM proporcionó
resultados muy buenos. El temblor fisiológico y temblor patológico se clasificó correctamente.
En esta hipótesis, el número de vectores fue mucho mayor que las nuevas variables del ACP,
incluso con 3 variables fue suficiente para caracterizar el TE y EP. Una combinación de las
pruebas estáticas, cinéticas y dinámicas (410 vectores) con el 70% para entrenar la SVM y 30%
para la simulación, se obtuvo el 3.25% de error en la clasificación. Las pruebas estáticas y
cinéticas por separado fueron más eficientes, la precisión en la clasificación fue del 100%.
192
CONCLUSIONES
-
El número de vectores soporte debe ser el más bajo en comparación al conjunto de vectores
utilizados en el entrenamiento para evitar el indeseado sobreajuste, y con el último método se
cumplió este objetivo, garantizando una buena capacidad de generalización.
-
La exclusión de valores atípicos utilizando la distancia de Mahalanobis y el coeficiente de
Curtosis fue significativo para reducir la tasa de error en la clasificación. Una razón de la
existencia de atípicos en los datos puede deberse a un diagnóstico equivocado de la
enfermedad.
-
En conclusión, con el método de la hipótesis 4 se logró el objetivo, se diseñó un método
utilizando el clasificador SVM que puede apoyar eficazmente al diagnóstico clínico del TE y EP.
La caracterización del temblor con el PSD, el biespectro, el triespectro; la reducción de la
dimensionalidad con el análisis de los componentes principales; la identificación de valores
atípicos con la distancia de Mahalanobis y el coeficiente Curtosis; proporcionan como resultado
que las pruebas estáticas y cinéticas pueden por sí solas discriminar correctamente al TE y EP.
-
Finalmente, se hace referencia a las características de las Máquinas de Soporte Vectorial
respecto a otras técnicas en la tarea de clasificación:

La capacidad y robustez para aprender a través de un conjunto de ejemplos, incluso
cuando el conjunto es pequeño.

Es un algoritmo que crea un clasificador lineal en un espacio de alta dimensión y lo
traduce en clasificador no lineal en el espacio de entrada.

El principio de minimización del riesgo estructural (SRM), el uso de la función kernel y el
parámetro de regularización C, permiten controlar explícitamente la complejidad del
clasificador y el error durante la clasificación, evitando el sobreajuste lo que conduce a
una buena capacidad de generalización.

La función objetivo del problema de optimización es convexa, por lo que existe sólo un
mínimo global lo que garantiza la convergencia.

Utiliza un subconjunto de vectores (vectores soporte) del conjunto de entrenamiento
para crear el hiperplano de separación, lo que se traduce en ahorro computacional.
193
FUTUROS DESARROLLOS

Contemplar la posibilidad de poder añadir más muestra de pacientes con temblor esencial sin
que el diseño del modelo del clasificador de la máquina de soporte vectorial se vea afectado,
con el fin de avalar el método utilizado en esta investigación. En este trabajo el escaso número
de muestras de temblor esencial disponibles implicó disminuir el tamaño de las muestras de
enfermedad de Parkinson para evitar un excesivo desbalance en el aprendizaje.

Reafirmar el diagnóstico clínico de los pacientes que realizaron las pruebas, debido a que existen
estudios [13] que indican que con el pasar de los años un grupo de pacientes con temblor
asimétrico postural de características clínicas propias del temblor esencial tienden a progresar
hasta desencadenarse en la enfermedad de Parkinson. Posiblemente estos diagnósticos
equívocos proporcionaron los valores atípicos que ocasionaron error en la clasificación.

Implementar un algoritmo que permita optimizar la selección de los parámetros de ajuste de la
función kernel y el parámetro de regularización C debido a que la búsqueda de estos
parámetros es un proceso heurístico de prueba y error, lo que se convierte en un inconveniente
de las Máquinas de Soporte Vectorial.

Utilizar las SVM-Regresión para proponer el diseño de escalas de gravedad del temblor en base
al análisis cuantitativo, ya que hasta la fecha las escalas existentes son confeccionadas de forma
cualitativa, dependiendo únicamente de las habilidades motoras del paciente.

Una vez comprobada la robustez y eficacia de las Máquinas de Soporte Vectorial en aplicaciones
del área de la salud, se podría continuar en la automatización de otro tipo de patologías en
donde exista inconvenientes para el diagnóstico.

Desarrollar una alternativa práctica (prototipo) para la medición, procesamiento y análisis del
temblor en tiempo real, por ejemplo adquirir las series temporales a partir de pruebas sobre
pantallas táctiles e implementar métodos que midan la desviación provocada por el temblor y
con la ayuda de las Máquinas de Vectores de Soporte realizar la clasificación.
195
ANEXOS
ANEXO 1. En formato digital.
-
Paquete informático para el entrenamiento de las Máquinas de Soporte Vectorial - Clasificación
LIBSVM
ANEXO 2. En formato digital.
Programa en MATLAB (Hipótesis 2):
-
AmplitudFrecuencia.m
ANEXO 3. En formato digital.
Programas para la caracterización del temblor (Hipótesis 3 y 4):
-
características.m
-
resultadosPT.m
ANEXO 4. Pacientes seleccionados para el entrenamiento de la SVM (Hipótesis 3 y 4).
Temblor Fisiológico:
Amparo_S1_MD,
Amparo_S1_MI,
Belen_S1_MD,
Belen_S2_MI,
Carlos_S2_MD,
Carlos_S4_MI,
Carmen_S1_MD, Carmen_S1_MI, Cristina_S1_MD, Cristina_S2_MI, Gandia_S1_MD, Gema_S1_MD,
Iñaki_S1_MD, Iñaki_S1_MI, Jaime_S1_MD, Jaime_S2_MI, Jose_Luis_M_S1_MD, Jose_Luis_M_S1_MI,
Jose_Manuel_S1_MD,
M_Carmen_S1_MD,
Jose_Manuel_S1_MI,
M_Carmen_S2_MI,
Juan_Manuel_S1_MD,
Marta_S1_MD,
Juan_Manuel_S1_MI,
Mogedano_S2_MD,
Mora_S1_MD,
PilarN_S1_MD, Roberto_S1_MD, Roberto_S1_MI, Rosa_S2_MD, Rosa_S4_MI, Vivi_S1_MD, Vivi_S1_MI.
197
Temblor Patológico:
Anton_S1-MI, Anton_S1_MD, Fernando_S1_MD, Ignacio_S1_MI, Ignacio_S1_MD, Jimenez_S1_MD,
JosefaAG_S2_MD, Leon_S1_MD, Leon_S1_MI, Mayor_S1_MD.
Alvear_S1_MD, Alvear_S2_MD, Antonio_Jesus_S2_MI, Antonio_Jesus_S4_MD, Antonio_Jesus_S6_MD,
Ayuso_S1_MD, Ayuso_S1_MI, Cipriano_S1_MD, Cipriano_S2_MD, Cordoba_S1_MD, Cordoba_S1_MI,
Cordoba_S2_MI, Cordoba_S3_MI, Dieguez_S1_MD, Dieguez_S1_MI, Dieguez_S2_MI, Dieguez_S3_MI,
Ger_S1_MD,
Ger_S1_MI,
Ger_S3_MD,
Ger_S3_MD,
Emilio_S1_MD,
Joaquin_S1_MD,
Jose_Luis_G_S1_MD, Jose_Luis_G_S3_MD, Jose_Soto_S1_MI, Jose_Soto_S2_MI, Jose_Vazquez_S1_MD,
Jose_Vazquez_S2_MD, JuanGJ_S1_MD, JuanGJ_S3_MD, Lillo_S1_MD, Lillo_S1_MI, Lopez_S1_MD,
Lucia_S1_MI, Miranda_S1_MD, Miranda_S1_MI, Montero_S2_MI, Natividad_S1_MD, Novales_S1_MI,
Novales_S2_MI,
Pedro_S1_MD,
Pedro_S3_MD,
Pilar_S1_MI,
Pilar_S3_MD,
Vicentegar_S1_MD,
Vicentegar_S2_MD.
Temblor Esencial:
Anton_S1-MI, Anton_S1_MD, Fernando_S1_MD, Ignacio_S1_MI, Ignacio_S1_MD, JosefaAG_S2_MD,
Leon_S1_MD, Leon_S1_MI, Mayor_S1_MD.
Enfermedad de Parkinson:
Alvear_S2_MD,
Antonio_Jesus_S6_MD,
Ayuso_S1_MD,
Cordoba_S3_MI,
Dieguez_S1_MI,
Dieguez_S2_MI, Dieguez_S3_MI, Ger_S1_MD, Ger_S3_MD, Joaquin_S1_MD, Jose_Luis_G_S1_MD,
Jose_Luis_G_S3_MD,
Jose_Soto_S2_MI,
Jose_Vazquez_S1_MD,
JuanGJ_S1_MD,
JuanGJ_S3_MD,
Lillo_S1_MD, Lucia_S1_MI, Miranda_S1_MD, Miranda_S1_MI, Montero_S2_MI, Natividad_S1_MD,
Novales_S1_MI, Novales_S2_MI, Pedro_S1_MD, Pilar_S1_MI, Vicentegar_S2_MD.
198
BIBLIOGRAFÍA
1
Deuschl G, Bain P, Brin M. Consensus statement of the Movement Disorder Society on Tremor. Ad Hoc Scientific
Committee. Mov Disord. 1998; 13 Suppl. 3:2-23.
2
Hallett, M. Overview of Human Tremor Physiology. Movement Disorders, p.43-48, 1998. ISSN 1531-8257.
3
Grimaldi G, Manto M. Tremor: From Pathogenesis to Treatment. San Rafael, California: Morgan & Claypool
Publishers 2008.
4
Crawford P, MD, and Zimmerman E., MD. Differentiation and Diagnosis of Tremor, Nellis Family Medicine
Residency, Nellis Air Force Base, Nevada. Volume 83, Number 6, March 15, 2011.
5
Alty J, Kempster P. A practical guide to the differential diagnosis of tremor. Posgrad Med J. 2011 Sep;
87(1031):623-9.
6
Bhidayasiri R. Differential diagnosis of common tremor syndromes. Posgrad Med J 2005; 81: 756-762.
7
Ojeda M, Rodríguez F, Amaya L. Diagnóstico diferencial del temblor. Acta Médica Grupo Ángeles. Volumen 7, No.
3, julio-septiembre 2009
8
Koller WC, Vetere-Overfield B, Barter R. Tremors in early Parkinson’s disease. Clin Neuropharmacol 1989; 12(4):
293-297.
9
Dilip Kumar Jha, Anupam Kumar Singh. A Clinical Approach to Tremor. Chapter 119. URL
http://www.apiindia.org/medicine_update_2013/chap119.pdf
10
Louis, E. D. and Ferreira, J. J. (2010), How common is the most common adult movement disorder? Update on
the worldwide prevalence of essential tremor. Mov. Disord. 25: 534–541.
11
Benito-León J. Essential tremor: one of the most common neurodegenerative diseases? Neuroepidemiology.
2011; 36(2):77-8.
12
Mansur P, Cury L, Andrade AO, Pereira AA, Miotto GA, Soares AB, Naves EL. A review on techniques for tremor
recording and quantification. Crit Rev Biomed Eng. 2007; 35(5):343-62.
13
Chaudhuri KR, Buxton-Thomas M, Dhawan V, Peng R, Meilak C, Brooks DJ. Long duration asymmetrical postural
tremor is likely to predict development of Parkinson’s disease and not essential tremor: clinical follow up study of
13 cases. J Neurol Neurosurg Psychiatry 2005; 76: 115-7.
14
Jain S, Lo SE, Louis ED. Common misdiagnosis of a common neurological disorder: how are we misdiagnosing
essential tremor? Arch Neurol 2006; 63: 1100-4.
15
Geraghty J, Jankovic J, Zetusky J. Association between essential tremor and Parkinson’s disease. Ann Neurol
1985; 17: 329-33.
16
Labiano-Fontcuberta A, Benito-León J. Temblor esencial y enfermedad de Parkinson: ¿existe una asociación?
Rev. Neurol. 2012; 55: 479-89.
17
Benito-León J, Louis ED, Bermejo-Pareja F, Neurological Disorders in Central Spain Study Group. Risk of incident
Parkinson’s disease and parkinsonism in essential tremor: a population based study. J Neurol Neurosurg
Psychiatry 2009; 80: 423-5
18
Tan K, Lee S, Fook-Chong S, Lum Y. Evidence of increased odds of essential tremor in Parkinson’s disease. Mov.
Disord. 2008; May 15; 23(7):993-7.
19
Koller WC. Busenbark K, Miner K, and the Essential Tremor Study Group. The relationship of essential tremor to
other movement disorders: report on 678 patients. Ann Neurol. 1994; 35:717–723.
199
20
Shahed J, Jankovic J. Exploring the relationship between essential tremor and Parkinson's disease. Parkinsonism
Relat Disord. 2007 Mar; 13(2):67-76.
21
Minen MT, Louis ED. Emergence of Parkinson's disease in essential tremor: a study of the clinical correlates in 53
patients. Mov Disord. 2008 Aug 15; 23(11):1602-5.
22
Fekete R, Jankovic J. Revisiting the relationship between essential tremor and Parkinson's disease. Mov Disord.
2011 Feb 15; 26(3):391-8.
23
Louis ED, Frucht SJ. Prevalence of essential tremor in patients with Parkinson's disease vs. Parkinson-plus
syndromes. Mov Disord. 2007 Jul 30; 22(10):1402-7.
24
Rocca W, Bower J, Ahlskog J, Elbaz A, Grossardt B, McDonnell S, Schaid D. Increased risk of essential tremor in
first-degree relatives of patients with Parkinson's disease. Mov Disord. 2007 Aug 15; 22(11):1607-14.
25
Spanaki C, Plaitakis A. Essential tremor in Parkinson's disease kindreds from a population of similar genetic
background. Mov Disord. 2009 Aug 15; 24(11):1662-8.
26
Deng H, Le W, Davidson AL, Xie W, Jankovic J. The LRRK2 I2012T, G2019S and I2020T mutations are not common
in patients with essential tremor. Neurosci Lett. 2006 Oct 23; 407(2):97-100.
27
Pigullo S, De Luca A, Barone P, Marchese R, Bellone E, Colosimo A, Scaglione C, Martinelli P, Di Maria E, Pizzuti A,
Abbruzzese G, Dallapiccola B, Ajmar F, Mutational analysis of parkin gene by denaturing high-performance liquid
chromatography (DHPLC) in essential tremor. Parkinsonism Relat. Disord. 2004 Aug; 10(6):357-62.
28
Vilariño-Güell C, Ross OA, Wider C, Jasinska-Myga B, Cobb SA, Soto-Ortolaza AI, Kachergus JM, Keeling BH,
Dachsel JC, Melrose HL, Behrouz B, Wszolek ZK, Uitti RJ, Aasly JO, Rajput A, Farrer MJ. LINGO1 rs9652490 is
associated with essential tremor and Parkinson disease. Parkinsonism Relat Disord. 2010 Feb; 16(2):109-11.
29
Vilariño-Güell C, Wider C, Ross O, Jasinska-Myga B, Kachergus J, Cobb S, Soto-Ortolaza A, Behrouz B, Heckman M,
Diehl N, Testa C, Wszolek Z, Uitti R, Jankovic J, Louis E, Clark L, Rajput A, Farrer M. LINGO1 and LINGO2 variants
are associated with essential tremor and Parkinson disease. Neurogenetics. 2010 Oct; 11(4):401-8.
30
Koller WC, Vetere-Overfield B, Barter R. Tremors in early Parkinson's disease. Clin Neuropharmacol. 1989 Aug;
12(4):293-7.
31
Louis E, Asabere N, Agnew A, Moskowitz C, Lawton A, Cortes E, Faust PL, Vonsattel JP. Rest tremor in advanced
essential tremor: a post-mortem study of nine cases. J Neurol Neurosurg Psychiatry. 2011 Mar; 82(3):261-5.
32
Uchida K, Hirayama M, Yamashita F, Hori N, Nakamura T, Sobue G. Tremor is attenuated during walking in
essential tremor with resting tremor but not parkinsonian tremor. J Clin Neurosci. 2011 Sep; 18(9):1224-8.
33
Hardesty D, Maraganore D, Matsumoto J, Louis ED. Increased risk of head tremor in women with essential
tremor: longitudinal data from the Rochester Epidemiology Project. Mov Disord. 2004 May; 19(5):529-33.
34
Zimmermann R, Deuschl G, Hornig A, Schulte-Mönting J, Fuchs G, Lücking C. Tremors in Parkinson's disease:
symptom analysis and rating. Clin Neuropharmacol. 1994 Aug; 17(4):303-14.
35
Duval C, Sadikot A, Panisset M. Bradykinesia in patients with essential tremor. Brain Res. 2006 Oct 18;
1115(1):213-6.
36
Gerasimou G, Aggelopoulou T, Costa D, Gotzamani-Psarrakou A. Molecular imaging (SPECT and PET) in the
evaluation of patients with movement disorders. Nucl Med Rev Cent East Eur. 2006;9(2):147-53
37
Benamer T, Patterson J, Grosset D, Booij J, De Bruin K, Van Royen E, et al. Accurate differentiation of
parkinsonism and essential tremor using visual assessment of [123I]-FPCIT SPECT imaging: the [123I]-FP-CIT study
group. Mov Disord 2000; 15: 503-10.
38
Isaias I, Canesi M, Benti R, Gerundini P, Cilia R, Pezzoli G, et al. Striatal dopamine transporter abnormalities in
patients with essential tremor. Nucl Med Commun 2008; 29: 349-53.
39
Gerasimou G, Costa D, Papanastasiou E, Bostanjiopoulou S, Arnaoutoglou M, Moralidis E, et al. SPECT study with
I-123-ioflupane (DaTSCAN) in patients with essential tremor. Is there any correlation with Parkinson’s disease?
Ann Nucl Med 2012; 26: 337-44.
40
Ramaker C, Marinus J, Stiggelbout AM, Van Hilten BJ. Systematic evaluation of rating scales for impairment and
disability in Parkinson's disease. Mov Disord. 2002 Sep; 17(5):867-76.
41
Greffard S, Verny M, Bonnet A, Beinis JY, Gallinari C, Meaume S, Piette F, Hauw JJ, Duyckaerts C. Motor score of
the Unified Parkinson Disease Rating Scale as a good predictor of Lewy body-associated neuronal loss in the
substantia nigra. Arch Neurol. 2006 Apr; 63(4):584-8.
200
42
Louis E, Barnes L, Wendt K, Ford B, Sangiorgio M, Tabbal S, Lewis L, Kaufmann P, Moskowitz C, Comella CL, Goetz
CC, Lang AE. A teaching videotape for the assessment of essential tremor. Mov Disord. 2001 Jan; 16(1):89-93.
43
Stacy M, Elble R, Ondo W, Wu S, Hulihan J; TRS study group. Assessment of interrater and intrarater reliability of
the Fahn-Tolosa-Marin Tremor Rating Scale in essential tremor. Mov Disord. 2007 Apr 30; 22(6):833-8.
44
Mostile G, Giuffrida J, Adam O, Davidson A, Jankovic J. Correlation between Kinesia system assessments and
clinical tremor scores in patients with essential tremor. Mov Disord. 2010 Sep 15; 25(12):1938-43.
45
Goetz G, et al. Movement Disorder Society-sponsored revision of the Unified Parkinson's Disease Rating Scale
(MDS-UPDRS): Process, format, and clinimetric testing plan. Mov Disord. 2007 Jan; 22(1):41-7.
46
Goulart F, Pereira LX. Uso de escalas para avaliação da doença de Parkinson em fisioterapia. Fisioterapia e
Pesquisa. 2005; 12(1):49–56.
47
Deuschl G, Lauk M, Timmer J. Tremor classification and tremor time series analysis. Chaos, 1995 Mar; 5(1):48-51.
48
Veluvolu KC, Ang WT. Estimation of physiological tremor from accelerometers for real-time applications. Sensors
(Basel). 2011;11(3):3020-36
49
Elble RJ. Characteristics of physiologic tremor in young and elderly adults. Clin Neurophysiol. 2003
Apr;114(4):624-35
50
Mansur P, Cury L, Andrade A, Pereira A, Miotto G, Soares A, Naves EL. A review on techniques for tremor
recording and quantification. Crit Rev Biomed Eng. 2007; 35(5):343-62.
51
Tsipouras M, Tzallas A, Rigas G, Tsouli S, Fotiadis D, Konitsiotis S. An automated methodology for levodopainduced dyskinesia: assessment based on gyroscope and accelerometer signals. Artif Intell Med. 2012 Jun;
55(2):127-35.
52
de Lima ER, Andrade AO, Pons JL, Kyberd P, Nasuto SJ. Empirical mode decomposition: a novel technique for the
study of tremor time series. Med Biol Eng Comput. 2006 Jul; 44(7):569-82.
53
Salarian A, Russmann H, Wider C, Burkhard PR, Vingerhoets FJ, Aminian K. Quantification of tremor and
bradykinesia in Parkinson's disease using a novel ambulatory monitoring system. IEEE Trans Biomed Eng. 2007
Feb; 54(2):313-22.
54
Zwartjes DG, Heida T, van Vugt JP, Geelen JA, Veltink PH. Ambulatory monitoring of activities and motor
symptoms in Parkinson's disease. IEEE Trans Biomed Eng. 2010 Nov; 57(11).
55
Milanov I. Electromyographic differentiation of tremors. Clin Neurophysiol. 2001 Sep; 112(9):1626-32.
56
Sturman MM, Vaillancourt DE, Corcos DM. Effects of aging on the regularity of physiological tremor. J
Neurophysiol. 2005 Jun; 93(6):3064-74. Epub 2005 Feb 16.
57
Hellwig B, Schelter B, Guschlbauer B, Timmer J, Lücking CH. Dynamic synchronisation of central oscillators in
essential tremor. Clin Neurophysiol. 2003 Aug; 114(8):1462-7.
58
Guilherme A. A. Miotto, Adriano O. Andrade, Alcimar B. Soares. M Measurement Of Tremor Using Digitizing
Tablets, Brasil, 2007.
59
Feys P, Helsen W, Prinsmel A, Ilsbroukx S, Wang S, Liu X. Digitised spirography as an evaluation tool for intention
tremor in multiple sclerosis. J Neurosci Methods. 2007 Mar 15;160(2):309-16.
60
Miralles F, Tarongí S, Espino A. Quantification of the drawing of an Archimedes spiral through the analysis of its
digitized picture. J Neurosci Methods. 2006 Apr 15; 152(1-2):18-31.
61
Liu X, Carroll CB, Wang SY, Zajicek J, Bain PG. Quantifying drug-induced dyskinesias in the arms using digitised
spiral-drawing tasks. J Neurosci Methods. 2005 May 15;144(1):47-52.
62
Ghassemi M, Lemieux S, Jog M, Edwards R, Duval C. Bradykinesia in patients with Parkinson's disease having
levodopa-induced dyskinesias. Brain Res Bull. 2006 May 15;69(5):512-8
63
Albert, M. V.; Kording, K. P. Determining posture from physiological tremor. Experimental brain research.
Experimentelle Hirnforschung. Experimentation cerebrale, v. 215, n. 3-4, p. 247-255, 2011
64
Gunilla Wastensson Quantitative Methods for Evaluation of Tremor and Neuromotor Function: Application in
Workers Exposed to Neurotoxic Metals and Patients With Essential Tremor, Sweden 2010.
65
Sanchez-Ramos, J.; Reimer, D.; Zesiewicz, T.; Sullivan, K.; Nausieda, P.A. Quantitative Analysis of Tremors in
Welders. Int. J. Environ. Res. Public Health 2011, 8, 1478-1490.
66
Veluvolu KC, Ang WT. Estimation of physiological tremor from accelerometers for real-time applications. Sensors
(Basel). 2011; 11(3):3020-36.
201
67
Gallego JA, Rocon E, Roa JO, Moreno JC, Pons JL. Real-time estimation of pathological tremor parameters from
gyroscope data. Sensors (Basel). 2010; 10(3):2129-49.
68
Caviness JN, Liss JM, Adler C, Evidente V. Analysis of high-frequency electroencephalographic-electromyographic
coherence elicited by speech and oral nonspeech tasks in Parkinson's disease. J Speech Lang Hear Res. 2006 Apr;
49(2):424-38.
69
Elble RJ, Pullman SL, Matsumoto JY, Raethjen J, Deuschl G, Tintner R; Tremor Research Group. Tremor amplitude
is logarithmically related to 4 and 5 point tremor rating scales. Brain. 2006 Oct;129(Pt 10):2660-6
70
Farkas Z, Csillik A, Szirmai I, Kamondi A. Asymmetry of tremor intensity and frequency in Parkinson's disease and
essential tremor. Parkinsonism Relat Disord. 2006 Jan; 12(1):49-55.
71
Piboolnurak P, Rothey N, Ahmed A, Ford B, Yu Q, Xu D, Pullman SL. Psychogenic tremor disorders identified using
tree-based statistical algorithms and quantitative tremor analysis. Mov Disord. 2005 Dec; 20(12):1543-9.
72
O'Suilleabhain PE, Matsumoto JY. Time-frequency analysis of tremors. Brain. 1998 Nov; 121 (Pt 11):2127-34.
73
Machowska-Majchrzak A, Pierzchała K, Pietraszek S. Analysis of selected parameters of tremor recorded by a
biaxial accelerometer in patients with parkinsonian tremor, essential tremor and cerebellar tremor. Neurol
Neurochir Pol. 2007 May-Jun; 41(3):241-50.
74
Jakubowski J, Kwiatos K, Chwaleba A, Osowski S. Higher order statistics and neural network for tremor
recognition. IEEE Trans Biomed Eng. 2002; 49(2):152–9.
75
Lauk M, Timmer J, Guschlbauer B, Hellwig B, Lücking CH. Variability of frequency and phase between
antagonistic muscle pairs in pathological human tremors. Muscle Nerve. 2001 Oct; 24(10):1365-70.
76
Riviere CN, Reich SG, Thakor NV. Adaptive Fourier modeling for quantification of tremor. J Neurosci Methods.
1997 Jun 6; 74(1):77-87.
77
Application of EMD as a novel technique for the study of tremor time series. Proc 28th Annual International
Conference of the IEEE; 2006.
78
Burkhard PR, Shale H, Langston JW, Tetrud JW. Quantification of dyskinesia in Parkinson's disease: validation of a
novel instrumental method. Mov Disord. 1999 Sep; 14(5):754-63.
79
Keijsers N, Horstink M, van Hilten J, Hoff J, Gielen C. Detection and assessment of the severity of levodopa
induced dyskinesia in patients with Parkinson's disease by neural networks. Mov Disord. 2000; 15(6):1104-11.
80
Hoff J, van den Plas A, Wagemans E, van Hilten J. Accelerometric assessment of levodopa-induced dyskinesias in
Parkinson's disease. Mov Disord. 2001 Jan; 16(1):58-61.
81
Gour J, Edwards R, Lemieux S, Ghassemi M, Jog M, Duval C. Movement patterns of peak-dose levodopa-induced
dyskinesias in patients with Parkinson's disease Brain Res Bull. 2007 Sep 14; 74(1-3):66-74.
82
Patel S, Lorincz K, Hughes R, Huggins N, Growdon J, Standaert D, et al. Monitoring motor fluctuations in patients
with Parkinson’s disease using wearable sensors. IEEE Transactions on Information Technology in Biomedicine.
2009; 13:864-73.
83
Chelaru MI, Duval C, Jog M. Levodopa induced dyskinesias detection based on the complexity of involuntary
movements. J Neurosci Methods. 2010 Jan 30; 186(1):81-9.
84
Tsipouras MG, Tzallas AT, Rigas G, Tsouli S, Fotiadis DI, Konitsiotis S. An automated methodology for levodopainduced dyskinesia: assessment based on gyroscope and accelerometer signals. Artif Intell Med. 2012 Jun;
55(2):127-35.
85
Carlos Rubio Martín, Filtrado y Caracterización del Temblor Mediante Técnicas de I.A. Aplicación de las Redes
Neuronales al Procesamiento de Señal. Madrid España 2002.
86
Rojo Pérez Pedro Luis y Gutiérrez Pérez César. Caracterización del temblor mediante técnicas de Inteligencia
Artificial. Madrid, España. Octubre 2003.
87
Ramón López José Miguel. Técnicas de clasificación para la ayuda al diagnóstico de enfermedades
neurodegenerativas. Madrid, España. Julio 2006.
88
Pablo Martínez Valencia. Algoritmos de Optimización del Entrenamiento de Sistemas Inteligentes de Clasificación
Aplicados a la Ayuda al Diagnóstico
89
Burgues Christopher J. C. A Tutorial on Support Vector Machines for Pattern Recognition, Data Mining and
Knowledge Discovery 2. Kluwer Academic Publishers, Boston. Manufactured in The Netherlands. 1998.
90
Vapnik Vladimir. The Nature of Statical Learning Theory, Second edition, Springer-Verlag New York. 1999.
202
91
Vojislav Kecman, Learning and Soft Computing; Support Vector Machines, Neural Networks and Fuzzy Logic
Models, ISBN 0-262-11255-8, USA, 2001 MIT.
92
Palma José y Marín Roque; Inteligencia Artificial, Técnicas, métodos y aplicaciones; 2008; pág.975-1022.
93
Anil K. Jain, Fellow, Robert P.W. Duin, and Jianchang Mao, Senior Member; Statistical Pattern Recognition: A
Review; IEEE. Transactions on Pattern Analysis and Machine Intelligence, Vol. 22, No. 1, January 2000.
94
Hernández Orallo J., Ramírez Quintana Ma. J., Ferri Ramírez C., Introducción a la Minería de Datos. Pearson
Educación, S.A., Madrid, 2004. ISBN 84-205-4091-9.
95
Statnikov Alexander, Aliferis Constantin, Hardin Douglas, and Guyon Isabelle. A Gentle Introduction to Support
Vector Machines in Biomedicine. Volume 1: Theory and Methods. USA, 2011.
96
Ovidiu Ivanciuc. Applications of Support Vector Machines in Chemistry. In: Reviews in Computational Chemistry,
Volume 23, Eds.: K. B. Lipkowitz and T. R. Cundari. Wiley-VCH, Weinheim, 2007, pág. 301-337.
97
Scholköpf Bernhard, Smola Alexander J., Learning with Kernels. The MIT press, Cambridge Massachusetts,
London, England, 2000. Pág. 1-21.
98
Mercer J., Phil. Trans. Roy. Soc. London A, 209, 415–446 (1909). Functions of Positive and Negative Type and
Their Connection with the Theory of Integral Equations.
99
Platt John, Advances in Kernel Methods - Support Vector Learning, B. Schölkopf, C. J. C. Burges, and A. J. Smola,
Eds., MIT Press, Cambridge, Massachusetts, 1999, pp. 185–208. Fast Training of Support Vector Machines using
Sequential Minimal Optimization.
100
Chih-Chung Chang and Chih-Jen Lin, LIBSVM: a library for support vector machines. ACM Transactions on
Intelligent Systems and Technology, 2:27:1--27:27, 2011. Software at: http://www.csie.ntu.edu.tw/~cjlin/libsvm.
101
Salavedra Molí Josep Mª, Técnicas de Speech Enhancement Considerando Estadísticas de Orden Superior, págs.
63-78-Barcelona, 1995.
102
Daza Santacoloma Genaro, Metodología de reducción de dimensión para sistemas de reconocimiento
automático de patrones sobre bioseñales. págs. 31-33. Universidad Nacional de Colombia, Manizales, 2006
103
Keerthi S. Sathiya. and Lin Chih-Jen. Asymptotic Behaviors of Support Vector Machines with Gaussian Kernel.
Neural Computation, 15(7):1667-1689, 2003. URL http://www.csie.ntu.edu.tw/~cjlin/papers/limit.pdf.
104
Lin H. T. and Lin C.-J. A study on Sigmoid Kernels for SVM and the Training of non-PSD Kernels by SMO-type
methods. Technical report, Department of Computer Science, National Taiwan University, 2003. URL
http://www.csie.ntu.edu.tw/~cjlin/papers/tanh.pdf.
105
S. S. Keerthi S.S. and Lin C.J. Asymptotic behaviors of support vector machines with Gaussian kernel. Neural
Computation, 15(7):1667-1689, 2003.
203
Descargar