UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA TÉCNICA SUPERIOR DE INGENIERÍA Y DISEÑO INDUSTRIAL DEPARTAMENTO DE ELECTRÓNICA, AUTOMÁTICA E INFORMÁTICA INDUSTRIAL AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO TRABAJO FIN DE MÁSTER MÁSTER UNIVERSITARIO EN INGENIERÍA ELECTROMECÁNICA Itinerario Profesional: Mecatrónica Autor: Marcelo Vicente Toapanta Defaz Tutor: Dr. Roberto González Herránz Madrid, Junio 2014 DEDICATORIA A mis padres…. A mis hermanas…. A mi país… A los que han creído en mí…. “Nadie nunca logró nada espléndido fuera de quienes se atrevieron a creer que algo dentro de ellos era superior a las circunstancias.” Bruce Barton i AGRADECIMIENTOS Gracias Dios por enseñarme el camino de la vida, la sabiduría y la felicidad, sin ti no podría llegar a ningún lado. Quiero agradecer profundamente a mi tutor D. Roberto González Herránz por su acertada dirección, por compartir sus conocimientos, alentarme en cada fase de la investigación y hacer posible este sueño. Hacer extensivo este agradecimiento a todos los profesores y compañeros de la Universidad que de una u otra manera me facilitaron sus conocimientos, apoyo y amistad. Agradecer al SENESCYT, al IECE y al Gobierno actual de mi país, por poner la esperanza en la juventud y por tener la convicción que la riqueza de una sociedad se basa en la fuente inagotable del conocimiento, la creatividad y la innovación del ser humano. Si luchas por algo increíble, no será fácil. Si luchas por algo fácil, nunca será increíble. Anónimo ii ÍNDICE GENERAL DEDICATORIA i AGRADECIMIENTOS ii ABREVIATURAS vii RESUMEN 1 INTRODUCCIÓN 3 OBJETIVOS 9 CAPÍTULO 1 1. ESTADO DEL ARTE 1.1. Trastornos del movimiento 1.2. El Temblor Humano 1.3. Clasificación del Temblor 1.3.1. Temblor Fisiológico 1.3.2. Temblor Esencial TE 1.3.3. Enfermedad de Parkinson EP 1.3.4. Otros Tipos de Temblor 1.4. Diagnóstico del Temblor 1.4.1. Estudios Epidemiológico, Prevalencia e Incidencia, de TE y EP 1.4.2. Estudios Genéticos 1.4.3. Estudios Clínicos 1.4.4. Estudios de Neuroimagen 1.5. Líneas de Investigación de Patología del Temblor 1.5.1.Métodos para Medir y Registrar el Temblor 1.5.1.1. Acelerómetros y Giroscopios 1.5.1.2. Electromiografía (EMG) 1.5.1.3. Tabletas Digitalizadoras - Espirografía 1.5.2. Métodos para el Análisis del Temblor 1.6. Anteriores Investigaciones para la Ayuda al Diagnóstico de Pacientes con Trastorno del Movimiento 1.6.1. Primer Estudio iii 11 12 14 17 20 21 22 23 25 26 28 29 30 31 32 33 35 36 38 42 42 1.6.2. Segundo Estudio 1.6.3. Tercer Estudio 1.6.4. Cuarto Estudio 43 45 46 CAPÍTULO 2 2. MÁQUINA DE SOPORTE VECTORIAL - CLASIFICACIÓN 2.1. Generalidades de las Máquinas de Soporte Vectorial SVM 2.2. El Aprendizaje Automático 2.3. Modelo de una Máquina de Aprendizaje 2.4. Problema de Minimización del Riesgo 2.5. Principio Inductivo de Minimización del Riesgo Empírico ERM 2.6. La Dimensión de Vapnik-Chervonenkis CV 2.7. Principio Inductivo de minimización del Riesgo Estructural SRM 2.8. Generalidades de la Clasificación de Patrones 2.9. Clasificación de Patrones con Máquinas de Soporte Vectorial 2.9.1. Hiperplanos como Superficie de Decisión 2.9.2. Distancia de un Hiperplano al Origen 2.9.3. Margen Máximo de un Hiperplano 2.10. SVMs Lineales 2.10.1. SVM Lineal de Margen Rígido para Datos Linealmente Separables 2.10.1.1. Formulación Primal 2.10.1.2. Formulación Dual 2.10.1.3. Vectores Soporte 2.10.1.4. Hiperplano de Separación Óptimo 2.10.1.5. Clasificación de Nuevos Datos 2.10.2. SVM Lineal de Margen Flexible para Datos Linealmente No Separables 2.10.2.1. Parámetro C 2.10.2.2. Formulación Primal 2.10.2.3. Formación Dual 2.11. SVMs No Lineales 2.11.1. Mapeo de los Datos de Entrada al Espacio de Características 2.11.2. Funciones Kernel para SVM 2.11.3. SVM No Lineales de Margen Rígido 2.11.4. SVM No Lineales de Margen Flexible 2.12. Algoritmo de la SVM 2.13. Ejemplo de Aplicación de las SVMs 49 49 51 53 59 60 64 68 72 75 77 81 82 84 85 85 86 89 90 91 92 96 97 98 101 103 106 108 109 110 111 CAPÍTULO 3 3. TÉCNICAS Y HERRAMIENTAS UTILIZADAS 3.1. Librería LIBSVM 3.2. Funciones de Matlab 117 117 122 iv INTRODUCCIÓN 3.2.1. 3.2.2. 3.2.3. 3.2.4. 3.2.5. Toolbox de Estadística de Orden Superior HOSA Toolbox de Procesamiento de Señales PSD Toolbox de Estadística ACP Coeficiente de Curtosis Distancia de Mahalanobis 122 125 125 127 128 4. FUENTE DE LOS DATOS. PREPARACIÓN DE LAS MUESTRAS 4.1. Pruebas para Evaluar el Temblor 4.2. Obtención de Patrones 4.2.1. Patrones Estáticos 4.2.2. Patrones Cinéticos 4.2.3. Patrones dinámicos 4.3. Filtrado y Caracterización del Temblor 4.3.1. Filtrado del temblor 4.3.2. Caracterización del temblor 4.4. Normalizado y Estandarizado de los Datos 4.5. Selección del Modelo de SVM 4.5.1. Selección de la Función Kernel 4.5.2. Selección de Parámetros. Validación Cruzada-Malla de Búsqueda 129 129 132 132 133 136 136 138 139 141 142 142 143 CAPÍTULO 4 CAPÍTULO 5 5. ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS 5.1. Metodología de los Ensayos 5.1.1. Entrenamiento de la SVM con LIBSVM 5.1.1.1. Formato de la Base de Datos 5.1.1.2. Fase de Aprendizaje de la SVM 5.1.1.3. Fase de Prueba del Modelo Clasificador 5.1.1.4. Registro de los Resultados 5.2. Hipótesis 1. Análisis del Temblor Mediante Curvas de Ajuste 5.2.1. Procedimiento 5.2.2. Análisis de los Modelos del Clasificador 5.3. Hipótesis 2. Análisis de la Amplitud y Frecuencia del Temblor 5.3.1. Procedimiento 5.3.2. Análisis de los Modelos del Clasificador 5.4. Hipótesis 3. Análisis del Temblor con Técnicas de Estadística de Segundo Orden PSD y Espectros de Orden Superior HOSA 5.4.1. Procedimiento 5.4.2. Análisis de los Modelos del Clasificador 5.5. Hipótesis 4. Análisis del Temblor con el Método de Componentes Principales ACP 5.5.1. Procedimiento v 149 149 150 151 151 152 153 153 153 159 160 161 163 164 166 172 173 174 5.5.2. Análisis de los Modelos del Clasificador 177 CAPÍTULO 6 6. RESULTADOS DE LA INVESTIGACIÓN 6.1. Resultados. Análisis del Temblor Mediante Curvas de Ajuste 6.2. Resultados. Análisis de la Amplitud y Frecuencia del Temblor 6.3. Resultados. Análisis del Temblor con Técnicas de Estadística de Segundo Orden PSD y Espectros de Orden Superior HOSA 6.4. Análisis del Temblor con el Método de Componentes Principales 179 181 183 CONCLUSIONES 191 FUTUROS DESARROLLOS 195 ANEXOS 197 BIBLIOGRAFÍA 199 vi 185 188 ABREVIATURAS Análisis de Componentes Principales Enfermedad de Parkinson Minimización del Riesgo Empírico Transformada Rápida de Fourier Análisis Estadístico de Orden Superior Hiperplano de Separación Óptimo Inteligencia Artificial Máquina de Aprendizaje Perceptrón Multicapa Programación Cuadrática Densidad Espectral de Potencia Teoría de Aprendizaje Estadístico Optimización Mínima Secuencial Minimización del Riesgo Estructural Máquinas de Soporte Vectorial Temblor Esencial Temblor Fisiológico Vectores Soporte Dimensión de Vapnik-Chervonenkis eest Error de Estimación n h Espacio de Entrada de n-Dimensión H Espacio de Hipótesis T yi Espacio Objetivo Etiqueta LP Formulación Primal de Lagrange WD (x ) Formulación Dual de Wolfe Función Característica fa Función de Aproximación Espacio de Características Función Kernel, Función Núcleo f0 (x) Función Objetivo f (x ) Función Subyacente H ( x ) Hiperplano de separación , N N SV C Remp Matriz Hessiana Multiplicadores de Lagrange Número de muestras Número de Vectores Soporte Parámetro de Regularización Parámetros del vector pesos Riesgo Empírico R ( f ) Riesgo Esperado h Dimensión VC P(x, y) Distribución de Probabilidad Error de Aproximación Error de Generalización K SIMBOLOGÍA b Bias, Umbral k Coeficiente de Curtosis ( x , y ) Dato de Entrenamiento eapr e gen H ACP EP ERM FFT HOSA HOS IA MA MLP QP PSD SLT SMO SRM SVM TE TF VS VC R ( ) Riesgo Funcional i Variable de Holgura w, w Vector, muestra, ejemplo Vector pesos xi , x vii RESUMEN INTRODUCCIÓN El Temblor Esencial y la Enfermedad de Parkinson son considerados dos trastornos de movimiento diferentes, el primero asociado a un temblor cinético/postural y el segundo a un temblor de reposo. Sin embargo, en la literatura médica hacen notoria la potencial relación que puede existir entre ambas enfermedades. El hecho de que pacientes con la EP presenten un temblor postural igual al TE, que una enfermedad sea un factor de riesgo para el desarrollo de la otra, que ambas enfermedades compartan características neurodegenerativas y el solapamiento semiológico del temblor provoca que el diagnóstico clínico no sea fiable y surge la necesidad de implementar métodos de Inteligencia Artificial para analizar y cuantificar el temblor y en base a su medida, clasificarlo. Brindando a los médicos una herramienta práctica y eficaz, para asegurar un tratamiento adecuada del paciente, y así mejorar su calidad de vida. OBJETIVO Desarrollar una metodología que permita automatizar la clasificación del temblor esencial y temblor parkinsoniano, utilizando las Máquinas de Soporte Vectorial, para el apoyo al diagnóstico clínico garantizando al paciente una atención y tratamientos adecuados. METODOLOGÍA Se parte de una base de datos conformada por las series temporales de un conjunto de pruebas, donde cada prueba está constituida por una serie de patrones (formas geométricas) ejecutadas en forma estática (manteniendo una postura), cinética (siguiendo la trayectoria del patrón) y dinámica (fuerzas generadas artificialmente) sobre la mano del paciente. Los datos generados en estas pruebas fueron registrados y almacenados por el sistema DIMETER, que utiliza un dispositivo háptico llamado PHAMToN para la adquisición de los datos. Para la caracterización del temblor se utilizó el PSD y los Poliespectros; el Análisis de Componentes Principales disminuyó la dimensionalidad de los vectores; la distancia de Mahalanobis y el coeficiente de Curtosis proporcionaron el medio para la separación de los valores atípicos. La Máquina de Soporte Vectorial proporcionó el modelo de clasificador utilizando los vectores característicos previamente analizados. RESULTADOS Del análisis de los resultados obtenidos en las diferentes hipótesis y ensayos, dan cuenta que las pruebas estáticas y cinéticas son suficientes para caracterizar el temblor y crear un clasificador SVM con una buena capacidad de generalización, obteniendo en la fase de clasificación un error del 0%. PALABRAS CLAVES: Temblor Esencial, Enfermedad de Parkinson, Temblor Fisiológico, Máquinas de Soporte Vectorial, PSD, Poliespectro, Análisis de Componentes Principales, Distancia de Mahalanobis, Coeficiente de Curtosis. 1 ABSTRACT INTRODUCTION patterns (shapes) executed statically (maintaining a Essential Tremor and Parkinson's disease are considered two different movement disorders, the first associated with a kinetic / postural tremor and the second to a resting tremor. However, in the medical literature makes evident the potential relationship that may exist between the two diseases. The fact that PD patients present a postural tremor equal to TE, a disease is a risk factor for the development of the other, both diseases share neurodegenerative characteristics, and semiological overlapping of tremor causes the clinical diagnosis is unreliable and there is a need to implement Artificial Intelligence methods to analyze and quantify tremor and based on its measures, classify. Providing physicians with a practical and effective tool to ensure appropriate patient care, and improve their quality of life. OBJECTIVE To develop a methodology to automate the stance), kinetic (following the trajectory pattern) and dynamic (generated artificially forces) on the patient's hand. The data generated in these tests were recorded and stored by the DIMETER system that uses a haptic device called PHAMToN for data acquisition. For the characterization of the tremor was used the PSD and higher order spectra; Principal Component Analysis reduced the dimensionality of the vectors; Mahalanobis distance and the coefficient of kurtosis provided the means for removal of outliers. The Support Vector Machine classifier provided the model using the feature vector previously discussed. RESULTS Analysis of the results obtained in the different hypothesis show that the static and kinetic tests are sufficient to characterize the tremor and create a SVM classifier with good generalization ability, getting in qualifying an error of 0%. classification of essential tremor and parkinsonian KEYWORDS: Essential Tremor, Parkinson's disease, tremor, using Support Vector Machines, to support Physiological Tremor, Support Vector Machines, PSD, the clinical diagnosis ensuring patient care and Higher Order Spectra, Principal Component Analysis, treatments. Mahalanobis distance, Coefficient of Kurtosis. METHODOLOGY We assume a database consists of time series of a set of tests, where each test consists of a series of 2 INTRODUCCIÓN Mi motivación personal… ¿Por qué tiembla? Fue la pregunta que hice 15 años atrás a mi tía abuela Francisca, algo raro le ocurría. No era usual ver como su mano empezó a temblar sin que hubiese voluntad de hacerlo. Las condiciones sociales de un país como el mío nos mantenía al margen del servicio de la salud, intentamos apaciguar aquel movimiento incontrolable con medicina ancestral, no buscamos ayuda profesional, la escasez de los recursos económicos familiares lo impedían, pasó el tiempo y como por contagio empezó a temblar su otra mano y luego sus piernas, pero era solo el principio. Con dificultad podía coger un cubierto, su autoestima estaba muy afectada, ya la enfermedad no solo afectaba la parte motora sino que su parte cognitiva también se volvió en su contra. Nuestra preocupación y amor familiar nos llevó a buscar ayuda de un especialista, Parkinson y no hay cura, ese fue el diagnóstico. A poco tiempo el Papa Juan Pablo II falleció y supimos que él también padeció esta enfermedad. La falta de especialización de los médicos y la evolución singular de esta enfermedad en cada persona que la padece, hizo que cada medicamento que ingería sea rechazado por su organismo y fue muy difícil atinar con el tratamiento adecuado. Son 2 años desde que vine a España en la búsqueda de conocimiento y fue una oportunidad coincidir con un tema que afectaba a mí ser querido, acepté el reto y hoy soy consciente que pude haber hecho mucho y que puedo seguir haciendo más por ella. Hoy la enfermedad está muy avanzada me dice que ha dejado de caminar porque se cae, que le cuesta mucho extender sus piernas y sus brazos, la escucho con voz titubeante y temblorosa y sé que le cuesta mucho coger el teléfono. Su cuerpo ha cambiado pero sus sentimientos siguen siendo los mismos de siempre, lo último que me dijo fue "hijo, cuando vuelves, tengo muchas ganas de verte". Solo tengo que agradecer a la vida por tenerla entre nosotros y compartir con ella algo que no enferma, no tiembla, no daña, ni duele, el amor. 3 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. Existe un gran número de enfermedades de origen neuronal que provocan Trastornos del Movimiento y pueden desencadenar en una importante pérdida de calidad de vida de las personas. El movimiento más efímero y simple es el resultado de complejas interacciones entre múltiples circuitos neuronales dentro del cerebro y la médula espinal, si alguna parte del sistema nervioso se ve afectado aparecen una variedad de trastornos del movimiento. Según el Instituto Nacional de Trastorno Neurológicos y Accidentes Cerebrovasculares, indica que el Temblor es el más común de los trastornos del movimiento y lo define como un movimiento involuntario y rítmico, que implica la oscilación de una o más partes del cuerpo. No siempre el temblor es un movimiento anormal. El potencial eléctrico generado en el cerebro por miles de neuronas, forman ondas cerebrales con diferentes frecuencias. Las neuronas encargadas del movimiento corporal oscilan a 10 ciclos por segundo, que es el temblor mínimo casi imperceptible que todas las personas presentan, llamado Temblor Fisiológico. Cuando existen factores como el cansancio, el nerviosismo, el miedo, etc., el cuerpo segrega adrenalina haciendo que el temblor incremente, pero continua siendo un temblor normal. Cuando existen alteraciones en el sistema nervioso y el patrón de activación muscular continuo es reemplazado por descargas bruscas, rítmicas y breves, el temblor se vuelve anormal, es decir en un Temblor Patológico. Existen algunos tipos de temblor considerados dentro del temblor patológico, el Temblor Esencial y el temblor provocado por la Enfermedad de Parkinson son los más comunes dentro de la población que comprende a las personas de mediana edad y ancianas, afectando a hombres y mujeres en forma similar. El incremento de la esperanza de vida experimentada especialmente por los países desarrollados, se traduce en un problema llamado envejecimiento poblacional, la franja de población mayor a 60 años se ve aumentada. Según la División de Población del Departamento de Asuntos Económicos y Sociales de la Secretaría de las Naciones Unidas (2013), la población mundial mayor a 60 años en el 2013 se calculó en 841 millones, se estima que durante 2013-2050 se incremente a 2020 millones, aumentando del 12 a 21% a nivel mundial, del 23 a 34% en Europa, del 20 al 27% en Norteamérica, del 11 a 24% en Asia, del 11 al 25% en América Latina y el Caribe, del 16 al 23% en Oceanía y del 5.4 al 8.9% en África. Al envejecer la población, trae consigo una serie de cambios en la sociedad, especialmente en la salud, con un incremento en enfermedades crónicas y neurodegenerativas que afectan a la edad senil, como el Alzheimer, el Parkinson y el temblor. Estas enfermedades aumentarán su prevalencia y junto a otras 4 INTRODUCCIÓN enfermedades propias de la tercera edad sobrecargarán los sistemas de salud del mundo y el costo de salud per cápita también se verá incrementado. La prevalencia e incidencia de la enfermedad de Parkinson y de temblor esencial son difíciles de estimar y varían en los diferentes estudios realizados debido a la heterogeneidad y variabilidad en la metodología utilizada, a las muestras, a los factores genéticos y ambientales de las poblaciones estudiadas. Según la European Parkinson's Disease Association (EPDA), basado en un estudio de prevalencia en los 5 países más poblados de Europa Occidental y 10 países más poblados del mundo, estimó que en el 2005 el número de personas con más de 50 años de edad que padecían Parkinson fue de 4.1 a 4.6 millones y para el 2030 se proyecta que este valor se incrementará a más del doble, entre 8.7 y 9.3 millones. La EPDA indica también que 1,2 millones de personas en Europa padecen Parkinson, se prevé que su incidencia se duplique para 2030 y que el coste anual por el sistema de salud europeo sea de 13.900 millones de euros. Por otro lado, según el portal norteamericano MEDSCAPE, se estima que el temblor esencial puede ser de 10 a 20 veces más prevalente que la enfermedad de Parkinson, entre 50-70% de los casos el temblor esencial se estima que es de origen genético y las mutaciones genéticas en estos casos se prevé que se transmite de forma autosómica dominante y tiene penetrancia variable. Aunque la edad de inicio de esta enfermedad es variable la mayoría empieza en la segunda o sexta década de la vida y junto con el envejecimiento de la población también aumentará el número de casos. En Norteamérica cerca de 5 millones de personas han sido diagnosticadas con temblor esencial, pero se estima que la cifra puede llegar a 10 millones debido a que muchas personas no buscan atención médica si el temblor es leve o atribuyen el temblor a la edad avanzada, o al temor de que el impacto del temblor en su calidad de vida no va a ser tomado en serio. Circunstancias que se repiten alrededor del mundo. Desde otro punto de vista, el espectro clínico del temblor varía ampliamente entre un fenómeno normal hasta una forma discapacitante de enfermedades graves. La etiología es múltiple y para el diagnóstico es necesario la exploración visual y la descripción de las características semiológicas del temblor en virtud de múltiples criterios como: la condición que activa el temblor (en reposo, postura o movimiento), la amplitud, la frecuencia (baja, media o alta), la topografía (extremidades, tronco, cabeza), exámenes neurológicos e historial clínico (inicio del temblor, secuencia de inicio, comorbilidades, historia familiar, factores que lo exacerban o lo inhiben y consumo de alcohol, medicamentos o drogas). 5 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. El diagnóstico clínico del temblor basado en escalas de calificación requiere de la subjetividad y experiencia del especialista. Puede ser suficiente, pero en muchas de las veces no es aplicable en la práctica, debido a que existe un solapamiento en la semiología clínica entre los pacientes de temblor esencial y el temblor parkinsoniano. Además, en algunas publicaciones dan cuenta que ambas enfermedades podrían estar relacionadas o coexistir en un fenotipo de temblor o que una sea factor de riesgo para el desarrollo de la otra. Es decir, un subgrupo de pacientes con Parkinson desarrollan un temblor postural en las manos (propio del temblor esencial) por un largo tiempo antes que aparezcan los síntomas parkinsonianos, y de la misma manera se encuentra cuerpos de Lewy en algunos pacientes con temblor esencial cuando éstos son propios de la enfermedad de Parkinson. Bajo estas circunstancias se requiere que el temblor no sea analizado únicamente de forma cualitativa como lo hace un diagnóstico clínico, sino que deba ser analizado de forma cuantitativa con el fin de comparar datos y apoyar al diagnóstico clínico. Es en este punto, donde biomecánica juega un papel muy importante, mediante dispositivos electrónicos, herramientas y algoritmos matemáticos se adquiere, procesa y analiza cuantitativamente el temblor. El avance tecnológico, la gran capacidad de procesamiento y almacenamiento de la información de las computadoras de hoy en día, junto a técnicas de Inteligencia Artificial y la teoría de toma de decisiones, tienen la capacidad de generar y extraer el conocimientos sobre distintos problemas del entorno real a partir del estudio exhaustivo de ciertas bases de datos, dando lugar al diagnóstico automatizado. Luego de este preámbulo, haciendo referencia al título de esta obra "AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO." Se inició el estudio seleccionando a las Máquinas de Soporte Vectorial (SVM) como la estructura de aprendizaje automático para la tarea de clasificación de dos clases. Las SVMs fueron desarrolladas por el Vladimir Vapnik y sus colaboradores en el marco de la Teoría de Aprendizaje Estadístico (SLT) y bajo el principio de Minimización del Riesgo Estructural (SRM) y no fue hasta 1998 que empezó a tener auge en varias aplicaciones. Las SVMs pertenecen a la familia de clasificadores lineales, tienen un fundamento teórico-matemático muy sólido. Tienen una gran capacidad para aprender a partir de un conjunto de datos experimentales que generalmente son tomados del entorno real y con una distribución dispersa en un espacio de entrada de alta dimensión. Basan su aprendizaje en la construcción de un hiperplano en un espacio de características de alta dimensión, los datos de entrada que generalmente son no separables linealmente son mapeados mediante una función de características llamado kernel o núcleo a un espacio de características en donde pueden ser separados 6 INTRODUCCIÓN linealmente. La función kernel es la esencia de las SVMs, la función objetivo a optimizar es convexa lo cual garantiza la convergencia y existencia de una única solución. La estructura del hiperplano óptimo se construye en base a un subconjunto de datos llamados Vectores Soporte (VS); el hiperplano es la función de separación que clasifica a los datos a sus correspondientes clases dependiendo de la etiqueta. Posteriormente, con la base de datos de las pruebas realizadas a los pacientes con temblor esencial, enfermedad de Parkinson y temblor fisiológico que fueron registradas y almacenada por el sistema DIMETER, se analizaron y caracterizaron con atributos numéricos a cada una de las muestras mediante herramientas estadísticas. Consecutivamente, se plantearon cuatro hipótesis para la clasificación, las muestras fueron preparadas y subdivididas en los conjuntos de entrenamiento y prueba. Luego, el conjunto de entrenamiento fue sometido a una fase de aprendizaje con el algoritmo LIBSVM y finalmente las muestras del conjunto de prueba a la fase de clasificación. Este trabajo está dividido en 5 capítulos, procurando abordar cada uno de los temas relevantes, técnicas, herramientas y procedimientos utilizados durante la investigación. El Capítulo 1 presenta una descripción de los trastornos del movimiento y trastornos del temblor. Una revisión de las características, clasificación, etiología, semiología y efecto de los temblores más frecuentes y motivo de este trabajo como son: el temblor fisiológico, temblor esencial y el temblor producido por la enfermedad de Parkinson. Se aborda algunos estudios relacionados con el diagnóstico del temblor, así como los métodos y las técnicas que hoy por hoy utilizan los investigadores para la medición y análisis del temblor. Finalmente, se hace mención de los trabajos y los resultados obtenidos por anteriores compañeros que me precedieron en la misma línea de investigación. En el Capítulo 2 contiene el fundamento de las máquinas de aprendizaje automático, una explicación de la Teoría de Aprendizaje Estadístico, el desarrollo del principio de minimización del riesgo estructural y la dimensión VC. Un repaso a la clasificación de patrones y la tarea de clasificación. La descripción y el fundamento teórico matemático del algoritmo de las SVMs es dado, así como la formulación de las SVMs de margen rígido y de margen flexible para clasificadores lineales como no lineales. Por último, se proporciona un ejemplo práctico del clasificador SVM entrenando con varias funciones kernel. El Capítulo 3 está dedicado a recolectar todas las técnicas y las herramientas que se utilizaron para el tratamiento de la información. Se da una explicación detallada de cada una de las funciones a utilizar durante el entrenamiento del clasificador SVM utilizando el software proporcionado en el paquete LIBSVM. Se describe la Toolbox de Estadística de Orden Superior HOSA y la Toolbox de Procesamiento 7 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. de Señales PSD, utilizadas en MATLAB para la caracterización del temblor. Además, se detalla las técnicas empleadas para el estudio de los datos como son el análisis de componentes principales ACP, la distancia de Mahalanobis y el coeficiente de Curtosis. En el Capítulo 4 se detalla el proceso de obtención y preparación de las muestras para el entrenamiento con la SVM. Se hace una descripción del sistema DIMETER empleado para la adquisición de los datos, registro y almacenamiento de las pruebas realizadas a los pacientes, así como las condiciones y los patrones utilizados en la ejecución de cada una de las pruebas. Más adelante se describe el proceso de filtrado de las señales y la caracterización del temblor mediante atributos numéricos obtenidos a partir de las estadísticas de segundo orden PSD y las estadísticas de orden superior HOSA. También se hace una breve referencia sobre el proceso de normalización y estandarización de los datos. Finalmente, se marcan las pautas para la selección y ajuste de los parámetros de las funciones kernel en base al procedimiento de validación cruzada, así también se indica el comportamiento asintótico del clasificador SVM con un kernel Gaussiano RBF. El Capítulo 5 está dedicado al estudio de las hipótesis planteadas, a la clasificación de las muestras y los resultados obtenidos en cada una de las hipótesis. Se expone la metodología utilizada en los ensayos. Se detalla cada una de las fases para el entrenamiento de la SVM. En cada una de las hipótesis se describe su fundamento teórico, las herramientas y las técnicas matemáticas empleadas para el análisis de las señales, el procedimiento a seguir, así como el número de muestras y atributos numéricos de cada vector. Con el propósito de reducir al máximo el error en la clasificación se optó por probar con diferentes configuraciones entre las pruebas estáticas, cinéticas, dinámicas o en combinación a la entrada de la SVM. Luego se presentan en tablas los resultados obtenidos para cada modelo clasificador, los parámetros de ajuste para cada tipo de kernel y la tasa de error cometido tanto en la fase de entrenamiento como en la fase de clasificación. Al terminar cada hipótesis se hace un análisis de los resultados en referencia al mejor modelo de clasificador obtenido. Dentro del Capítulo 6 se presentan un análisis de los resultados globales y se hace una comparación entre los resultados de las hipótesis planteadas y sobre las configuraciones realizadas con el fin de mejorar los resultados. Finalmente, se enuncia las conclusiones del trabajo en cada una de las hipótesis planteadas en relación a los resultados obtenidos. 8 OBJETIVOS Los objetivos del presente trabajo de investigación son: OBJETIVO GENERAL - Automatizar la clasificación de enfermedades provenientes de trastornos del movimiento, aplicando las Máquinas de Soporte Vectorial como técnica de Inteligencia Artificial y algoritmo de aprendizaje supervisado, para el análisis de datos y el reconocimiento de patrones, con el fin de apoyar la estimación cualitativa del diagnóstico clínico de los pacientes, garantizando atención y tratamientos adecuados. OBJETIVOS ESPECÍFICOS - Identificar las características clínicas, etiológicas y semiológicas que presentan los pacientes con Temblor Fisiológico, Temblor Esencial y Temblor Parkinsoniano, así como la correlación que puede existir entre ellos, especialmente en los dos últimos debido a que una enfermedad puede ser factor de riesgo para el desarrollo de la otra. - Analizar y procesar las series temporales de la base de datos obtenidas a partir de una serie de pruebas estáticas, cinéticas y dinámicas con diferentes patrones, realizadas por pacientes con temblor; series temporales que fueron registradas y almacenadas por el sistema DIMETER mediante el dispositivo háptico PHAMToN. - Caracterizar el temblor con atributos numéricos utilizando las series temporales, aplicando herramientas de Estadística de segundo orden como la Densidad Espectral de Potencia, 9 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. Estadística de orden superior como el Biespectro y Triespectro, y herramientas de Análisis de Señales para el ajuste de curvas. - Procesar los atributos numéricos mediante el Análisis de Componentes Principales para reducir la dimensionalidad de las variables de los vectores característicos, extrayendo la información relevante evitando trabajar con datos redundantes, así como disminuir el gasto computacional. - Entrenar las Máquinas de Soporte Vectorial con la ayuda de la librería LIBSVM para obtener los parámetros de ajuste que garanticen una tasa de mínimo error durante la fase de aprendizaje y la fase de clasificación. - Obtener un modelo óptimo del clasificador de la Máquina de Soporte Vectorial de margen flexible que proporcione la mayor exactitud en la clasificación entre las muestras del temblor fisiológico y temblor patológico, así como en la clasificación entre las muestras del temblor esencial y enfermedad de Parkinson. El modelo seleccionado debe cumplir el principio de Minimización del Riesgo Estructural y dimensión VC, creando una cota superior sobre el riesgo esperado de manera que garantice una buena capacidad de generalización. - Evaluar la capacidad, las ventajas e inconvenientes de las Máquinas de Soporte Vectorial para discriminar y clasificar los diferentes tipos de temblor. - Por último, determinar el procedimiento, el conjunto de atributos numéricos, las pruebas o los patrones que mejor caracterizan y diferencian a los distintos tipos de temblor, y que pueden ser utilizados para afianzar el diagnóstico clínico para un adecuado tratamiento y correcta medicación a los pacientes por parte de los médicos, especialmente en pacientes en una etapa inicial de la enfermedad cuyos síntomas pueden ser confusos y acarrear a evaluaciones erróneas. 10 CAPÍTULO 1 ESTADO DEL ARTE El presente trabajo de investigación, se desarrolla enfocado en la ayuda al diagnóstico de patologías provenientes de una disfunción neurológica, que altera la forma y la velocidad de los movimientos corporales. Si un área del sistema nervioso que controla el movimiento se lesiona o tiene un funcionamiento anormal, puede aparecer una variedad de trastornos del movimiento. El temblor, es el trastorno de movimiento más común, entre los temblores más frecuentes y razón de este estudio está el Temblor Fisiológico, el Temblor Esencial (TE) y el provocado por la Enfermedad de Parkinson (EP). No existe cura para la mayoría de estos temblores y sus variantes, pero con un diagnóstico clínico adecuado permite que un paciente reciba un tratamiento correcto, y así, mejorar su calidad y estilo de vida. La alteración motora es la típica manifestación para el diagnóstico clínico del temblor, debido a las numerosas causas que lo producen y a la similitud entre sus variantes, una clasificación etiológica o fisiológica práctica del temblor no es posible. Actualmente, la clasificación del temblor se hace mediante el diagnóstico clínico, estimación cualitativa, que consiste en datos provenientes del historial del paciente, de los exámenes neurológicos y físicos, y de una revisión de signos y síntomas, lo cual es suficiente pero en ocasiones es necesario el apoyo de sistemas de cuantificación que transformen la percepción visual en datos objetivos aumentando la capacidad y precisión para clasificar un temblor específico entre una serie de síndromes con características similares. Incluso los médicos hacen notoria la necesidad de herramientas informáticas para apoyar y confirmar su diagnóstico. Con el presente trabajo de investigación, se busca caracterizar a los diferentes tipos de temblor, partiendo de una base de datos conformada por series temporales de un conjunto de pruebas, donde cada prueba está constituida por una serie de patrones (formas geométricas) ejecutadas en forma 11 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. estática (manteniendo una postura), cinética (siguiendo la trayectoria del patrón) y dinámica (fuerzas generadas artificialmente) sobre la mano del paciente. Los datos generados en estas pruebas fueron registrados y almacenados por el sistema DIMETER (Capítulo 4.), que utiliza un dispositivo háptico llamado PHAMToN para la adquisición de los datos. Las series temporales serán analizadas matemática y estadísticamente para obtener atributos numéricos capaces de caracterizar a los diferentes tipos de temblor. Una vez conseguidos los atributos numéricos se implementan métodos discriminantes que consiga clasificar a los distintos temblores de forma automática, con técnicas de inteligencia artificial basadas en el aprendizaje automático y la toma de decisiones. La Máquina de Soporte Vectorial SVM, es una herramienta robusta, eficaz y de aprendizaje supervisado con buenos resultados en la aplicación de tareas de clasificación en problemas de la vida real y forman parte del presente proceso investigativo. El avance tecnológico, la incorporación de sistemas informáticos junto con la gran capacidad de procesamiento, han hecho que las máquinas hoy en día, simulen en cierta manera la inteligencia humana y puedan amoldarse a problemas, desarrollar la capacidad de aprender y extraer información útil de toda una masa desestructurada de datos, para finalmente ayudar en la toma de decisiones y en el reconocimiento de casos nuevos; proceso que fortalece a la consecución de los objetivos de la presente investigación en el área de la salud, en ayudar al diagnóstico de patologías provenientes de trastornos del movimiento y que presentan cierta dificultad de diferenciación . 1.1 TRASTORNOS DEL MOVIMIENTO Un movimiento tan sencillo como cerrar la mano, realmente es un proceso muy complejo que requiere la actividad de todo el sistema nervioso, en el que intervienen el cerebro, los músculos y los nervios. En el cerebro, el área del pensamiento estimula el área motor enviando señales a los músculos que terminan ejecutando la acción. A través de la acción hay una constante información entre el cerebro y los músculos a través de los nervios de la médula espinal, regulando la coordinación, potencia, velocidad y equilibrio necesario para una acción suave. Las neuronas que controlan el movimiento voluntario del cuerpo humano se encuentran en la corteza cerebral, son de gran longitud y se conectan con las neuronas de la médula espinal para enviar sus órdenes. El conjunto de neuronas que se prolongan desde la corteza cerebral hasta la médula espinal constituyen la Vía Piramidal y es quien controla la actividad motora. Para que el resultado de un movimiento voluntario se ejecute perfectamente, un sistema complejo llamado Sistema Extrapiramidal, 12 ESTADO DEL ARTE es el encargado de controlar y coordinar en forma coherente las acciones a realizar en cada momento. El sistema extrapiramidal es parte del sistema nervioso y del sistema motor, lo constituyen algunas zonas de la corteza cerebral, los ganglios basales (núcleo caudado, putamen, globo pálido y sustancia negra) y los ganglios subcorticales que a su vez están interconectados con el tálamo y el cerebelo. Los ganglios basales son numerosos núcleos de neuronas interrelacionadas formando cadenas y circuitos que se retroalimentan, unos núcleos son activadores y otros inhibidores cuya función es la iniciación e integración del movimiento, reciben la información de la corteza cerebral y del tronco del encéfalo, la procesan y proyectan de nuevo a la corteza, al tronco y a la médula espinal con la finalidad de coordinar y armonizar los movimientos voluntarios realizados de forma principalmente inconsciente. La coordinación motora se organiza en el sistema nervioso central. La corteza cerebral, la médula espinal, el cerebro medio, el cerebelo y los ganglios basales cada uno cumple una función motora característica, el mal funcionamiento de uno de ellos se manifiesta como una anormalidad que se observa clínicamente. Como el sistema nervioso controla los movimientos musculares, cualquier trastorno en el movimiento puede ser categorizado como un síndrome neurológico que afecta al equilibrio normal del cuerpo, la locomoción, el caminar y el mantenimiento de una postura. Los trastornos del movimiento se asocian con cambios patológicos en el cerebro, especialmente por una disfunción de los ganglios basales que forman parte de la materia gris que se sitúan en una región profunda dentro del cerebro anterior. Las lesiones de las vías piramidales, producen una incapacidad para realizar movimientos voluntarios que se manifiesta como debilidad muscular o parálisis completa (plejia) del movimiento y espasticidad muscular (incremento del tono muscular y exaltación profunda de los reflejos tendinosos). La disfunción del cerebelo, producen anomalías en la amplitud, rapidez, potencia del movimiento y apreciación errónea de la distancia (dismetría), el paciente no tiene la capacidad de ejecutar movimientos rápidos, exactos y coordinarlos de forma suave para mantener una postura estable. La afectación de la fuerza es mínima. Los trastornos de los ganglios basales o trastornos extrapiramidales producidos por cualquier causa genética, vascular, traumática, infecciona, entre otras, no producen debilidad muscular ni parálisis de la espasticidad de los músculos, pero se desencadenan en una serie de alteraciones caracterizadas por movimientos involuntarios (discinesias), que causan un exceso de excitación del movimiento (hipercinesia), una mayor carga de inhibición, pobreza o lentitud del mismo (hipocinesia) y cambios del tono muscular y la postura. Entre los trastornos más frecuentes están: el temblor, la corea, la distonía, los tics y las mioclonías. 13 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 1.2 EL TEMBLOR HUMANO El temblor humano es el más común de los trastornos del movimiento, es un movimiento anormal oscilatorio, rítmico e involuntario que puede afectar a una o varias partes del cuerpo que dependen de las contracciones alternantes de músculos opuestos, agonistas y antagonistas. Comienza lentamente y progresa a una forma más severa si se deja sin tratar. Las partes del cuerpo que afecta el temblor son las extremidades superiores (hombro, codo, muñeca, dedos), extremidades inferiores (cadera, rodilla, articulaciones del tobillo, dedos de los pies) e incluso puede involucrar la cabeza (mentón, cara, lengua, paladar) y el tronco1 En condiciones severas puede convertirse en un grave problema, provocando malestar y vergüenza social junto con incapacidad y dificultades a la hora de realizar actividades diarias. El temblor está presente en un amplio espectro de trastornos neurológicos y se distingue por su apariencia rítmica, repetitiva y estereotipada de otros trastornos del movimiento involuntarios como la corea (inquietud, nerviosismo, actividad motora irregular), los tics (repeticiones breves con movimiento estereotipados sin control voluntario) y las mioclonías (breves sacudidas que no presentan oscilación de vaivén). Por otro lado, no existe un diagnóstico estandarizado para distinguir entre los tipos más comunes del temblor lo que hace de la evaluación una tarea desafiante. Sin embargo, establecer la causa subyacente es muy importante para el diagnóstico debido a que el tratamiento específico puede variar notablemente, por ello es importante reconocer las varias formas del temblor y los síntomas asociados. El historial clínico y la exploración física proporcionan una amplia certeza en el diagnóstico. Los trastornos neurológicos causantes del temblor son la esclerosis múltiple, las enfermedades neurodegenerativas que dañan partes del tallo cerebral o el cerebelo, los daños cerebrovasculares, las lesiones cerebrales traumáticas, el abuso del alcohol, el uso de algunos medicamentos, tiroides hiperactiva y la insuficiencia hepática. En ciertos casos el temblor puede desencadenarse o exagerarse durante períodos de estrés, emociones fuertes, cansancio físicamente o durante ciertas posturas o movimientos. El temblor afecta tanto a hombres como a mujeres, puede producirse a cualquier edad pero es más común en las personas adultas y ancianas. El origen del temblor no es claro pero puede ser asociado con fenómenos fisiológicos como el envejecimiento, y con disfunciones neurológicas. El primero se refiere a un temblor fisiológico mientras que el segundo a un temblor patológico. Los temblores patológicos más comunes son el temblor esencial y el temblor parkinsoniano. 14 ESTADO DEL ARTE En la Figura 1.1 se muestra la forma de una espiral de Arquímedes utilizada para evaluar el temblor a tres pacientes mediante una prueba cinética, la representación gráfica son los datos obtenidos por el sistema DIMETER (Capítulo 4). La gráfica a. corresponde a la realizada por un paciente con temblor fisiológico donde la amplitud del temblor es poco perceptible, sin llegar afectar en la ejecución de la prueba; la gráfica b. pertenece a un paciente con temblor esencial, el temblor es exacerbado y empeora durante la ejecución de la tarea, se puede apreciar que la frecuencia de oscilación es alta; la grafica c. corresponde a la prueba realizada por un paciente con la enfermedad de Parkinson, el temblor tiende a disminuir mientras se realiza la tarea, a la vez que los movimientos son entrecortados debido que la lentitud y la rigidez del movimiento es característico en esta enfermedad. 220 Temblor Fisiológico 250 Temblor Esencial 220 200 200 200 180 180 160 160 150 y 140 y y Temblor Parkinsoniano 140 120 120 100 100 100 80 80 50 60 60 -100 -50 0 x 50 100 -100 -50 0 x 50 100 150 -100 -50 x 0 50 100 a. b. c. Figura 1.1 Espiral realizada por pacientes con: a. Temblor fisiológico; b. Temblor esencial c. Enfermedad de Parkinson Las principales fuentes del temblor se pueden resumir en tres grupos: mecánico, reflejo y oscilaciones centrales2, como se muestra en la Figura 1.2. Generador central Oscilaciones inducidas mecánicamente Circuitos retroalimentados de los reflejos Temblor Amplitud del movimiento Tiempo Figura 1.2 Principales fuentes del temblor. 15 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. La primera fuente son las oscilaciones mecánicas, el movimiento de las articulaciones y los músculos obedecen las leyes de la física y el conjunto complejo tendón-músculo-articulación pueden ser comparados con masas y muelles, por tanto las oscilaciones pueden ser interpretadas como masas y muelles. La Figura 1.3 indica la interacción entre la neurona motora superior (UMN) y la neurona motora inferior (LMN). La piscina de interneuronas de la médula espinal está indicada por (IN). DP corresponden a los ganglios de la raíz dorsal. El rectángulo azul, es la representación del modelo de músculo de Hill, que comprende una serie de componentes elásticos (SE), y de un procesador de entrada neuronal (NIP) paralelo a un componente viscoso (PE)3. Figura 1.3 Lazos centrales y periféricos en el sistema nervioso. La segunda fuente del temblor es la oscilación por reflejos, están relacionados a dos circuitos. Circuito periférico que van desde los músculos hasta la espina dorsal y viceversa y el circuito central que va desde la periferia a la médula espinal y los segmentos a nivel supraespinal incluyendo el tronco cerebral, el cerebelo, los ganglios basales y la corteza cerebral. En la Figura 1.4 es una representación de esta fuente de temblor, en la que se muestra las vías involucradas en el origen del temblor. Los husos musculares son receptores localizados en el interior de los músculos, compuesto por fibras sensibles a los cambios de longitud. En respuesta al alargamiento, las señales llegan a los centros espinales y supraespinales donde se generan las órdenes motoras y son enviadas de vuelta a las fibras musculares extrafusales3. Una tercera fuente del temblor lo producen las oscilaciones centrales que pueden ser observados desde los primeros registros de electroencefalográficos (EEG). La actividad neuronal sigue un comportamiento rítmico. Por lo tanto la corteza cerebral, los ganglios basales, el cerebelo y el tronco cerebral están involucrados en origen del temblor3. 16 ESTADO DEL ARTE Figura 1.4 Vías que involucran el origen del temblor. CN: núcleos cerebelosos, BG: ganglios basales, CC: corteza cerebral, UMN: neurona motora superiores, LMN: neurona motora inferior, Thal.: Tálamo, IO: oliva inferior, RN: núcleo rojo, cf: fibras trepadoras, mf: fibra musgosa, MNα: neurona motora alfa, MNϒ: neurona motora beta, Ia: fibras aferentes sensoriales. 1.3 CLASIFICACIÓN DEL TEMBLOR Al evaluar un paciente que presenta algún temblor, en primer lugar se categoriza el temblor de acuerdo a su fenomenología, circunstancias o condiciones de activación en las que se presenta y puede ser clasificado en dos tipos principales ya sea de reposo o de acción como se muestra en la Tabla 1.1. TIPO DE TEMBLOR Reposo CONDICIÓN DE ACTIVACIÓN Ocurre cuando la parte afectada esta relajada y completamente apoyada contra la gravedad. Acción Son iniciados por contracciones voluntarias de los músculos. Se subclasifica en: EJEMPLOS La mano descansando sobre la rodilla. Postural Se produce cuando la parte afectada mantiene una posición sin apoyo y en contra de la fuerza de gravedad. Extendiendo el brazo en frente del pecho. Cinético Aparece con cualquier forma de movimiento voluntario. Puede ocurrir en movimientos no guiados visualmente. Durante los movimientos de pronación-supinación. Intención La amplitud del temblor aumenta cuando el movimiento Tocarse la nariz con un dedo voluntario está dirigido a un objetivo. durante un examen médico. Isométrico Sucede con la contracción de los músculos contra un objeto fijo rígido sin realizar ningún movimiento. Empujar una pared. Aparece o es exacerbado durante una actividad específica. Escribir, dibujar o hablar. Específico de una tarea 4 Tabla 1.1 Clasificación del temblor . 17 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. La categorización de algunos temblores dependiendo de si está presente en el reposo, durante una acción o una postura es particularmente importante y se presenta en la Tabla 1.2. Tipo de temblor Reposo Postura Acción Fisiológico ++ + Esencial +/++ + Parkinsoniano ++ + +/Inducido por drogas + ++ + Distónico +/++ + Holmes ++ ++ ++ Cerebelar +/++ Psicogénico + + + ++ Típicamente presente; + Puede estar presente; +/- Ocasionalmente presente. 5 Tabla 1.2 Características de diferentes temblores según su fenomenología . Cada tipo de temblor tiene múltiples etiologías, más de un tipo temblor puede ocurrir en la misma condición. Así la causa más común de temblor de reposo es la idiopática Enfermedad de Parkinson (EP), los pacientes con EP frecuentemente tiene una componente de acción a más de su clásico temblor de reposo. Por otro lado la causa más común del Temblor Esencial (TE) es el temblor postural y cinético, a veces puede persistir cuando las manos descansan en el regazo del paciente. Esta superposición a veces puede causar dificultad para el diagnóstico clínico, un temblor que disminuye con el movimiento voluntario es probable que sea un temblor en reposo, mientras que un temblor que está presente en reposo pero que empeora con el movimiento es probablemente que sea un temblor de acción. El temblor fisiológico es un temblor de acción-postural y está presente en toda persona sana bajo ciertas condiciones, es demasiado leve para notarse en la mayoría de las personas y típicamente implica un temblor fino de las manos. Se puede hacer una clasificación del temblor también en término de la frecuencia. En la Figura 1.5 se tiene los tipos de temblores más comunes, la escala inferior indica el rango de las frecuencias. Las franjas sombreadas indican las frecuencias comunes del temblor y las franjas rayadas las frecuencias que raramente se presenta en los pacientes, la valoración de la frecuencia es la siguiente: 18 Frecuencia baja < 4 Hz. Frecuencia media de 4 a 7 Hz. Frecuencia alta > 7 Hz. ESTADO DEL ARTE TIPO DE TEMBLOR Frecuencia Fisiológico Esencial Parkinsoniano Inducido por drogas Distónico Holmes Cerebelar Psicogénico 0 frecuencias común rara 5 10 15 Hz rango de frecuencias baja media alta 1 Figura 1.5 Caracterización del temblor según su frecuencia . En la Figura 1.6 se muestra un ejemplo de la frecuencia del temblor postural de un paciente con TE, obtenido con un acelerómetro monoaxial. El paciente mantiene los brazos extendidos horizontalmente frente al pecho, también se muestra en la parte inferior un análisis espectral de potencia con el que se obtiene la frecuencia. Figura 1.6 Frecuencia del temblor esencial en la adopción de una postura. La frecuencia de 7.5 Hz es identificado 3 en el espectro de potencia . 19 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 1.3.1 TEMBLOR FISIOLÓGICO El temblor fisiológico, es un temblor presente en todas las personas y en todas las articulaciones o músculos que esté libre de oscila, entre las características principales de este temblor se tiene: - Es un temblor acción-postural y durante el estado de reposo podría presentar algún síntoma. - No es provocada por ninguna enfermedad neurológica, se manifiesta a partir de la oscilación resonante de una extremidad como resultado de la afectación de factores mecánicos. - Es un temblor que apenas puede ser visible en condiciones normales y no interfiere en las actividades cotidianas. - La amplitud del temblor fisiológico típicamente es muy baja. - La frecuencia es alta de 8 a 12 Hz , siendo menor a 6 Hz en pacientes menores de 9 años, incrementándose a 12 Hz en jóvenes adultos y disminuye ligeramente de 6 a 7 HZ en adultos mayores de 60 años de edad6. La frecuencia del temblor disminuye cuando grandes cargas inerciales se aplica a las extremidades. La frecuencia es alta en manos y dedos pero baja en las articulaciones próximas. Las causas de este tipo de temblor generalmente son reversibles. Es un temblor que se exacerba por las siguientes causas no motoras: - Ansiedad. - Fatiga muscular o causa de sueño. - Estrés emocional. - Miedo o excitación. Por ciertos medicamentos y condiciones metabólicas. Otras condiciones que pueden aumentar el temblor fisiológico son la presencia de enfermedades como feocromocitoma, tirotoxicosis, hipoglucemia, por el retiro de medicamentos como sedantes y opioides, y por la abstinencia de alcohol. Para evitar este tipo de temblor son efectivos los beta-bloqueadores y los antagonistas beta-2. Por otro lado las drogas que excitan el temblor son las catecolaminas, la cafeína, las xantinas, la fluoxetina, el litio, el haloperidol, las anfetaminas y los agonistas de receptores-beta7. 20 ESTADO DEL ARTE 1.3.2 TEMBLOR ESENCIAL TE El temblor patológico más común es el temblor esencial, que afecta principalmente antebrazos y manos, a menudo comienza en la mano dominante; puede o no producir discapacidad, es más perceptible cuando se realiza tareas sencillas de acción como coger un cubierto, beber un vaso de agua o escribir. Entre algunas de las características que se manifiestan en este tipo de temblor se tiene: - Es un temblor bilateral y simétrico de carácter postural o cinético. Aunque en casos puntuales, un temblor esencial severo tiene un componente de reposo. - El rango de frecuencia es de 4 a 12 Hz. Con el paso del tiempo la frecuencia del temblor disminuye. En los adultos mayores puede ser confundido como temblor parkinsoniano al presentarse con bajas frecuencias. - Usualmente la amplitud es baja pero puede aumentar con los años. - Las extremidades superiores son afectadas en un 95% de los pacientes, seguido por un 34% de afectación en la cabeza, un 20% en las extremidades inferiores, un 12% afecta a la voz y 5% a la cara y el tronco7. - No es causado por medicamentos, hipotiroidismo o alcohol, sin embargo existe una forma hereditaria con transmisión autosómico dominante, de penetración variable, en el que se asocian genes en diferentes cromosomas. - Los síntomas pueden iniciar a cualquier edad, desde la niñez hasta la edad adulta. Sin embargo, es más común en personas mayores de 40 años. Hombre y mujeres son afectados por igual. Las causas no motoras que provocan un incremento del temblor son: - El estrés. - La ansiedad. - Trastornos emocionales. - Excitación e ira. - Temperaturas frías. - La fatiga Entre los medicamentos utilizados para el tratamiento del TE ese tiene el anticonvulsivo primidona y beta-bloqueadores como el atenolol y propranolol y otros como el topiramato y benzodiazepinas como el alprazolam y clonazepam. El consumo de pequeñas cantidades de alcohol alivian temporalmente el temblor pero debe evitarse el consumo excesivo. 21 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 1.3.3 ENFERMEDAD DEL PARKINSON EP La Enfermedad de Parkinson es un trastorno crónico progresivo neurodegenerativo caracterizado por el temblor (como manifestación inicial en el 50% de los pacientes), por la bradicinesia (lentitud en el movimiento), rigidez muscular e inestabilidad postural (pérdida de equilibrio). Muchos pacientes también presentan micrografía (disminución progresiva del tamaño de la letra durante la escritura), un andar arrastrado los pies, facies enmascarados (poca expresión facial), dificultad para levantarse de una posición sedente llegando a ser una enfermedad discapacitante. Es una enfermedad que no tiene cura. Para provocar un movimiento, las neuronas pasan mensajes entre sí hacia el resto del cuerpo utilizando neurotransmisores. En las personas con Parkinson, estos mensajes se interrumpen y no pueden ser transmitidos a los músculos sin problemas dificultando el control del movimiento debido a una falta de dopamina (neurotransmisores implicados en el control del movimiento). En las personas con Parkinson, entre el 70 y el 80% de las células que producen dopamina se han degenerado y se han perdido. Esto sucede en una pequeña región del cerebro llamada sustancia negra. Si hay suficiente dopamina, las células nerviosas no funcionan correctamente y no son capaces de transmitir los mensajes del cerebro dando lugar a los síntomas de Parkinson. Entre las características de este tipo de temblor se tiene: - Es un temblor de reposo aunque también se presenta como un temblor cinético/postural; en ambos casos la frecuencia es similar8. Frecuentemente existe una pausa del temblor durante la transición desde el reposo a una postura. Rara vez con < 10% de los pacientes con EP el temblor cinético/postura es más predominante que el temblor de reposo 1. Un 20-30% de los pacientes durante la enfermedad pueden no presentar el típico temblor9. - El rango de frecuencia oscila entre 3 y 10 Hz como un movimiento de los dedos de "rodar píldoras". En estados iniciales la frecuencia puede ser superior a 9 Hz. - La amplitud del temblor es alta, disminuye con movimientos voluntarios. - Frecuentemente afecta a manos, brazos, cabeza, mandíbula, lengua y tronco. Se extiende afectando a otra parte del cuerpo del mismo lado o del otro, por ejemplo, si inicia en un pie, continúa extendiéndose hasta la pierna y luego hasta el brazo. - Usualmente el temblor inicia alrededor de los 50 años de edad. - El sexo, afecta a más hombres que a mujeres, y existe una historial familiar en un 5-10% de los casos. 22 ESTADO DEL ARTE - El temblor puede desaparecer durante el sueño. Entre las complicaciones que puede acarrear la EP se tiene: - Dolor de músculos y articulaciones (calambres, entumecimientos). - Alteraciones del sueño. - Depresión, problemas cognitivos (demencia, falta de concentración). - Dificultad para hablar (titubeo). - Pérdida de motivación. - Estreñimiento. - Problemas de la vejiga. - Disfunción sexual. - Sialorrea (Producción excesiva de saliva). - Anosmia (Pérdida o disminución del sentido del olfato).. Existe mucho por investigar en este campo, los médicos no están seguros de las causas de la enfermedad ni la forma de prevenirla. Muchos cambios se presentan en el cerebro de las personas con EP debido a la presencia de cuerpos de Lewy que son la acumulación de depósitos de proteínas microscópicas dentro del cerebro, que están asociados con la degeneración y la muerte de las neuronas en la parte superior del cerebro e interfieren con el funcionamiento normal del cerebro causando una variedad de síntomas como la pérdida de la memoria y atención, compartiendo características con la enfermedad de Alzheimer. Entre los medicamentos utilizados para el tratamiento tratan de aumentar los niveles de dopamina e imitar sus efectos, entre estos está la levodopa y carbidopa. Para cuando los síntomas son leves se utiliza la amantadina. También se utiliza medicamentos como anticolinérgicos pero pueden causar efectos secundarios como confusión y alucinaciones. 1.3.4 OTROS TIPOS DE TEMBLOR Además de los temblores descritos anteriormente, existen otras formas de temblor que son menos comunes, que no son parte de este estudio pero es conveniente hacer una rápida citación, entre estos tipos de temblores se tiene: 23 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. TEMBLOR DISTÓNICO, es principalmente un temblor postural y cinético proveniente de una afectación neurológica que afecta generalmente en una extremidad, el cuello o parte del cuerpo afectado por la Distonía y usualmente desaparece cuando el músculo distónico está totalmente relajado. Actualmente, se considera como una forma distinta de TE, ya que es irregular y tiene un amplio rango de frecuencias, típicamente menor a 7 Hz. Es un temblor que tiende a ser localizado, asimétrico e irregular en amplitud y periodicidad. Los pacientes utilizan sus propios gestos antagonistas o trucos sensoriales para tratar de disminuir la amplitud del temblor y junto con la ausencia de intentos por suprimir el temblor por contracción voluntaria de los músculos son un signo de diagnóstico bastante fiable 6. TEMBLOR DE HOLMES, es un temblor producido por la lesión del tallo cerebral, el tálamo o el cerebelo. Es un temblor sintomático y no rítmico, que afecta a las extremidades de predominio proximal. El rango de frecuencia típico es menor a 4.5 HZ. Es un temblor de reposo e intención con presentación irregular, el temblor postural también puede presentarse en algunos pacientes y desaparece durante el sueño. Es el único síndrome de temblor de origen sintomático proveniente de una lesión del sistema central nervioso6. TEMBLOR CEREBELOSO, es un temblor de intención dominante o puro, uni o bilateral que empeora al acercarse al objetivo, rara vez se presenta como un temblor postural. Afecta a la cabeza y a la mitad superior del cuerpo involucrando a los músculos proximales. El rango de frecuencia de este temblor está por debajo de 5 Hz. Su amplitud es variable y perpendicular a la dirección en la que se llevó a cabo el movimiento. TEMBLOR ORTOSTÁTICO, es un trastorno poco frecuente en las personas de edad mediana edad pero se presenta con frecuencia en personas de edad avanzada, se caracteriza por inestabilidad cuando adopta la postura de bipedestación debido a la afectación de las extremidades y el tronco, ocasionalmente puede prolongarse a las extremidades superiores. El diagnóstico de electromiografía (EMG) confirma una frecuencia patrón de 13 a 18 Hz y una amplitud muy pequeña apenas palpable sobre los músculos de la pierna cuando el paciente se encuentra de pie. Es un temblor que remite al caminar y desaparece con la sedestación o decúbito dorsal6. TEMBLOR INDUCIDO POR DROGAS, es un temblor que se considera que es provocado por medicamentos si luego de un plazo razonable después de su ingesta, el temblor se presenta. Usualmente es un temblor postural y puede presentarse como una exageración de una tendencia leve de un temblor subyacente. La forma más común es el síndrome del temblor fisiológico que ocurre luego 24 ESTADO DEL ARTE del uso de antidepresivos, otra forma de este temblor es el temblor parkinsoniano luego del uso de la dopamina. TEMBLOR PSICOGÉNICO, es un temblor que frecuentemente incluye componente tanto de reposo como posturales y cinéticos. Tiene dos formas: imitación del temblor por oscilación voluntaria y temblor de coactivación muscular en la que se produce un clonus fisiológico exagerado por la contracción voluntaria de los músculos extensores y flexores. Se caracteriza por presentar fluctuaciones marcadas en severidad y amplitud. La amplitud del temblor disminuye y su frecuencia varía con la distracción. 1.4 DIAGNÓSTICO DEL TEMBLOR Una serie de tratamientos médicos y quirúrgicos están disponibles para los distintos tipos de temblor, pero una respuesta exitosa al tratamiento depende de un diagnóstico preciso. El temblor es el movimiento oscilatorio anormal e involuntario más frecuente en los humanos; esto implica que los músculos reciben impulsos excitatorios e inhibidores fuera del control voluntario. Efectivamente, la actividad oscilatoria es una constante en el sistema nervioso humano, por lo tanto, el temblor fisiológico es una expresión de dicha actividad, no así en el temblor patológico en donde la actividad de oscilación del sistema nervioso central es anormal y exagerada. Clínicamente los aspectos más importantes que caracterizan al temblor son: La distribución topográfica. La frecuencia. La amplitud de la trayectoria. Las circunstancias en la que se exacerba o condicionan su aparición (manteniendo una postura o en movimiento). La etiología. También son aspecto a tener en cuenta datos sobre el comienzo del temblor, la existencia de historia familiar, la existencia de enfermedades asociadas, tratamiento con fármacos y la posible respuesta a la ingesta de alcohol. Las causas del temblor patológico son heterogéneas y puede presentarse de forma aislada o como parte de una afectación neurológica. El temblor fisiológico exagerado junto con el temblor esencial y la 25 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. enfermedad de Parkinson son los tipos más comunes del temblor encontrados en la práctica clínica y aunque se consideran enfermedades distintas, entre las dos últimas existe un solapamiento de algunas características clínicas, así como en epidemiología, genética, tratamiento de imágenes, y los estudios patológicos. La relación vinculante que puede existir entre el TE y la EP tiene mucha importancia cuando se habla del hecho de que una sea un factor de riesgo para la otra, o la coexistencia de ambos síndromes en un mismo paciente. De hecho, existen trabajos de investigación que evidencian que el TE puede preceder al comienzo de la EP. Del mismo modo, se ha constatado que los pacientes con TE presentan problemas cognitivos, muy común en la EP. La Demencia con Cuerpos de Lewy (DCL) que provoca alteraciones cognitivas y neurodegenerativas, también establece un vínculo con el TE y la EP lo que lleva a entender que existen algunos síntomas y signos que también se solapan durante la evaluación clínica. Incluso el Alzhéimer se relaciona con el amplio espectro clínico de éstas dos patologías. 1.4.1 ESTUDIOS EPIDEMIOLÓGICOS, PREVALENCIA E INCIDENCIA DE TE Y EP Los rangos de prevalencia son difíciles de precisar y varían sustancialmente en la literatura, muchos de ellos dependen de los criterios de diagnóstico que se utilizó en el estudio, la edad, la metodología de determinación de los casos y la gravedad de la patología. La mayoría de estudios basados en registros clínicos subestiman la verdadera prevalencia, ya que casi el 90% de los pacientes con TE no buscan atención médica. En el presente trabajo se procuró citar datos actualizados. La prevalencia del temblor esencial en la población en general se estima entre 0.4 y 3.9%, aumentando notablemente en la población de avanzada edad y es más frecuente que la Enfermedad de Parkinson. La prevalencia en personas ≥ 60 a 65 años = 6.3%, para personas ≥ 65 años = 4.6% y para personas ≥ 95 años = 21.7%10. En España el 5% de los ancianos la padecen11. En Finlandia la prevalencia alcanzó el 5-6% en personas mayores de 40 años, en Turquía fue de 4% en personas en el grupo de personas de la misma edad. Cerca de un millón de habitantes de los EE.UU. son diagnosticados cada año con TE y en el UK entre 30 y 40 pacientes son diagnosticados cada día12. En cuanto a la incidencia del TE es de 616 nuevos casos por 100.000 habitantes-año (personas > 65 años) 11. Entre los factores de riesgo que se han 26 ESTADO DEL ARTE asociado al desarrollo del SE TE puede mencionar la edad, la raza (mayor prevalencia en blancos y afroamericanos) y tener antecedentes familiares (en el 50% de los casos). En cuanto a la enfermedad de Parkinson, según un informe de la Fundación Española de Enfermedades Neurológicas la prevalencia mundial varía entre 167-5.703 por 100.000 habitantes y considera una incidencia que varía de 1,5-22 pacientes por 100.000 habitantes-año. En España se estima que la prevalencia en personas > de 65 años = 1.5% y una incidencia ajustada de 186 por 100.000 habitantesaño respecto a un estudio epidemiológico realizado en un grupo de individuos de entre 65 y 85 años11. En España aproximadamente entre 120.000 y 150.000 personas padecen la enfermedad de Parkinson. De estos datos epidemiológicos de cierta forma asegura que el TE y EP son los temblores patológicos más frecuentes en individuos con trastornos en el movimiento y que la coexistencia de ambos en un mismo individuo son mera casualidad. Sin embargo, esta tesis no parece ser del toda cierta, en un estudio realizado a una serie de pacientes, inicialmente con temblor asimétrico postural y características clínicas propias del TE, a lo largo de diez años progresó hasta desencadenar en la EP. Lo que sugiere precaución en el diagnóstico con pacientes con un inicio tardío de temblor asimétrico postural, incluso si no se observa presencia de un temblor de reposo, debido a que puede ser la fase inicial de una EP13. En otro estudio se analizó los errores cometidos en el diagnóstico inicial de 71 pacientes con TE con un clásico temblor postural, luego de 6 años de seguimiento, 26 pacientes (37%) es decir uno de cada tres pacientes desarrolló la EP14. Bajo estas circunstancias de error en el diagnóstico, otro estudio incluyó criterios más estrictos, aplicando un periodo de seguimiento de uno a cinco años, desde el inicio de los síntomas de TE con el fin de observar posibles manifestaciones de EP y lo que podría asegurar que ambos procesos pueden coexistir en un mismo individuo; éste estudio sugirió que algunos pacientes con TE tienen un aumento de riesgo genético para la EP15. Lo que actualmente los médicos utilizan para el diagnóstico de EP está basado en características clínicas que asisten en la diferenciación entre las semiologías del temblor postural de los pacientes con TE y EP e incluyen la posibilidad de un diagnóstico en el que coexistan ambos procesos, Tabla 1.3, en donde se indica las características para identificar pacientes con EP en los que coexiste el TE. Por otro lado, se puede identificar un paciente con TE si el temblor postural se manifiesta inmediatamente al colocar los brazos extendidos hacia adelante, en cambio un paciente con EP al tomar la misma postura existe una latencia de unos segundo e incluso minutos antes de que se exacerbe el temblor, es el llamado temblor reemergente; en conclusión un paciente de EP que presente temblor postural sin latencia, sugiere la coexistencia de TE16. 27 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. - Historia previa del temblor intencional de larga evolución (más de 5 años). - Antecedentes familiares de temblor. - Temblor postural sin latencia de inicio (el temblor se produce inmediatamente después de levantar las extremidades) - Presencia de temblor de la voz. - Temblor con la escritura, o con el dibujo de la espiral de Arquímedes. - Mejoría del temblor con alcohol o metabloqueadores. 16 Tabla 1.3 Características clínicas para identificar EP en los que coexiste el TE . Un estudio epidemiológico basado en el cohorte poblacional NEDICES sobre 3.813 personas mayores de 65 años, de los cuales 207 presentaban TE y 3.606 sin dicha patología, en una media de 3.3 años; indica que el riesgo de desarrollar la EP es cuatro veces mayor en los pacientes con TE que en los controles sin TE17. En otro estudio de casos y controles sobre 600 individuos, el 5.9% (12/204) de pacientes con EP demostraron tener TE en comparación al 1% (2/206) de controles enfermos sin EP y al 0.5% (1/190) de controles sanos. De lo que concluyó que el TE es entre 6 y 10 veces más probable en pacientes con EP que en los controles de enfermos y sanos sin EP18. Un trabajo en el que se examinaron a 678 pacientes con TE, con una edad media de 65.2 años con un número similar de hombres y mujeres, el 60% describió historia familiar, el 74% acudía a los efectos del alcohol para reducir el temblor, se concluyó que 6.1% de paciente con TE tuvieron coexistencia con EP.19 Otros estudios realizados por Shahed y Jankovic20, Minen y Louis21, Fekete y Jankovic22, Louis y Frucht23. Por lo tanto, estos estudios confirman y cuantifican la relación patológica entre TE-EP y que la frecuencia de la EP en el TE es mayor de lo que se informó en la población general, postulando al TE como un factor de riesgo para el desarrollo de la EP. 1.4.2 ESTUDIOS GENÉTICOS Existen algunos estudios realizados con el objetivo de describir alguna relación de base genética entre el temblor esencial y la enfermedad de Parkinson. En un estudio realizado sobre familiares en primer grado de pacientes con EP y controles, indicó que riesgo que un familiar en primer grado de un paciente de EP tiene de dos a tres veces probabilidad de tener TE en comparación a los controles sin EP. EL riesgo fue significativamente alto para paciente con EP que iniciaron con la enfermedad por debajo de los 66 años.24 Spanaki y Plaitakis25 en un estudio de casos y controles, se observó que el TE estuvo presente en el 3.6% de familiares en primer grado de los pacientes con EP en comparación con los pacientes de 28 ESTADO DEL ARTE control. El riesgo se incremento a 4.4 % si el paciente con EP tenía un temblor dominante. A pesar de estos estudios no se ha podido determinar ningún vínculo genético común entre ambas enfermedades. Un estudio en una cohorte de 272 pacientes con SE TE investigó el gen cinasa 2 de repetición rica en leucina LRRK2 identificada en casos de EP, a su mutación el gen G2019S y mutaciones adyacentes I2012T y I2020T, en cuyos resultados no se encontró mutaciones implicados con el TE26. En un cohorte de 110 pacientes con TE, se evaluó la relación entre las mutaciones del gen parkin (mutación causante del inicio precoz de la EP) y TE, los resultados indican que no se encontraron el gen parkin en paciente con ET. 27 Otro estudio se encontró y evaluó una variante del gen LINGO1 (rs9652490) sobre series de casos y controles de TE y EP; el gen LINGO1 está implicado en la regulación y supervivencia de las neuronas dopaminérgicas, dicha investigación demostró una asociación significativa entre este gen y ambas enfermedades, proporcionando la primera evidencia de un vínculo genético.28 Posteriormente, un estudio en la misma línea, investigó exhaustivamente el gen LINGO1 y su paralog LINGO2 mediante la secuenciación de ambos genes en los pacientes de TE y EP. Los resultados indicaron que ambos genes podrían determinar el riesgo y a lo mejor la edad de inicio de ambas patologías.29 Se necesitan más estudios para confirmar estos resultados y determinar los mecanismos patogénicos implicados. 1.4.3 ESTUDIOS CLÍNICOS La característica clínica entre el temblor esencial y la enfermedad de Parkinson es el temblor. Decir que el temblor de reposo es característico de la EP es una afirmación muy simple y no resulta aplicable en la práctica para un diagnóstico confiable, más aún cuando existe solapamiento clínico entre TE y EP, que puede provocar un diagnóstico erróneo entre ambas patologías. Sin embargo, existen divergencias semiológicas que aportan a su diferenciación: - El temblor postural está presente en un 92% en pacientes con EP.30 Los pacientes con TE muestran un temblor cinético con una amplitud mayor que el temblor postural, mientras que en los pacientes con EP ocurre lo contrario. - El temblor postural o temblor reemergente en pacientes con EP ocurre tras una latencia de varios segundo o minutos y afecta a grupos distales, especialmente a los dedos produciendo un movimiento de pronación-supinación; mientras que el temblor postural en pacientes con TE afecta a varios grupos articulares (hombro, codo, muñeca, dedos) provocando un movimiento de flexión-extensión en la muñeca. 29 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. - La prevalencia del temblor de reposo en pacientes con TE es del 30%31. La evaluación de la intensidad y frecuencia del temblor al caminar es clínicamente útil para diferenciar entre TE con temblor de reposo y EP, característicamente el temblor de reposo en pacientes con EP se incrementa al caminar, mientras que en pacientes con TE disminuye32. - El temblor cefálico (temblor de cabeza) es un temblor postural, las mujeres son más propensas a padecerlo33, El temblor cefálico es característico en el TE, pero puede estar presente en la EP hasta en un 17%34. En pacientes con TE tiende a desaparecer cuando el paciente se acuesta, mientras que persiste en los pacientes con EP en la postura de reposo. - la bradicinesia es propia de la EP, en un estudio se demostró que pacientes con TE tiene un cierto componente asociado de bradicinesia similar a la que presenta los pacientes con EP 35. 1.4.4 ESTUDIOS DE NEUROIMAGEN. El resultado de varios estudios de imagen funcional del sistema dopaminérgico con respecto a la relación entre temblor esencial y la enfermedad de Parkinson son controversiales. Aunque un gran número de estudios indican una clara diferencia entre ambas enfermedades, otras sugieren que existe algún grado de relación entre ellas. La tomografía por emisión de positrones (PET) y en la tomografía simple por emisión de fotón único (SPECT) son técnicas utilizadas como trazadores moleculares, el transportador de la dopamina (DaT) es un marcador de las neuronas dopaminérgicas y constituye la referencia para la monitorización del estado de la vía nigroestriada. Ciertas enfermedades como el Parkinson y algunas formas de demencia se caracterizan por el número significativamente reducido de DaT. Mediante la detección de la unión de DaTSCAN (escáner cerebral) para los transportadores de dopamina se ha podido observar un estriado anormal en pacientes con EP36. El DaTSCAN fue propuesto para diferenciar entre EP y TE, clásicamente se consideró que el TE no presenta alteraciones en el DaTSCAN37. Sin embargo, estudios señalan que un subgrupo de paciente con TE presenta cierta alteración de la vía nigroestriada con respecto a los controles pero no tan bajos como los pacientes con EP38. En otro estudio semicuantitativo de la imagen se observó presentaban niveles reducidos de DaT comparados con los controles39. Finalmente cabe decir que la gran mayoría de estudios demuestran que la mayoría de pacientes con TE no presentan alteraciones sustanciales en el DaTSCAN, lo que limita la asociación entre estas dos patologías en el ámbito de la neuroimagen y pueden ser considerados de forma fiable para el diagnóstico. 30 ESTADO DEL ARTE 1.5 LÍNEAS DE INVESTIGACIÓN DE PATOLOGÍAS DEL TEMBLOR Existen varias maneras de valorar el temblor humano, las formas más utilizadas por los médicos son las escalas de calificación de gravedad40,41, que son métodos en los que se pide al paciente realizar una serie de patrones como, círculos, espirales, líneas, curvas, etc., sobre las que un especialista hace una comparación en relación a otros realizados por pacientes con un diagnóstico confirmado y son puntuados de acuerdo a una escala numérica que generalmente va desde 0 a 4 o 5, siendo la puntuación mínima cuando el temblor no es visible y máxima cuando el temblor produce incapacidad. Este método meramente es una comparación visual y depende mucho de la experiencia y perspicacia del especialista. Además, hay información crítica que no está siendo tomado en cuenta, parámetros fundamentales como por ejemplo la frecuencia, la amplitud, velocidad entre otros. Como ya se mencionó, para un diagnóstico clínico bastante fiable del temblor aunque no preciso es necesario contar con un historial clínico del paciente bastante detallado con varios aspectos como: la edad de inicio del temblor, historia familiar, circunstancias en las que el temblor se exacerba, la existencia de comorbilidades, el consumo de drogas, tabaco o alcohol, trastornos emocionales que causen ansiedad, estrés, depresión y más. Para apoyar el diagnóstico clínico, es necesario realizar exámenes clínicos neurológicos con el fin de analizar los aspectos semiológicos que favorezcan a la identificación del tipo de temblor y las circunstancias en las que surge y excita el temblor, haciendo que el paciente adapte y mantenga varias posiciones o realizando movimientos con las extremidades, etc. En cuanto al temblor fisiológico no hay necesidad de adentrarse en técnicas más complejos para que el diagnóstico sea fiable, tal vez, podría ser necesario un exámenes de laboratorio para descartar enfermedades de tiroides o algún falló en el sistema extrapiramidal que podrían ser causantes del temblor. Por otro lado, el diagnóstico del temblor esencial y la enfermedad de Parkinson requieren de técnicas y análisis más profundo debido al solapamiento semiológico, a una relativa coexistencia de ambas enfermedades y al hecho de que una sea un factor de riesgo para la otra. Las técnicas de imagen funcional PET y SPECT pueden ser útiles en la diferenciación entre ambos temblores. Una de las formas más adecuadas de evaluar el temblor es dividirlo en una evaluación clínica que comprende características, evolución y tratamiento de la enfermedad y una evaluación biomecánica que mediante dispositivos electrónicos y herramientas matemáticas se adquiere y procesa la información; tomando en cuenta un análisis cualitativo y cuantitativo del temblor para ambas evaluaciones. 31 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. La evaluación clínica se compone básicamente de escalas de calificación del temblor confiables y válidas. Las escalas de calificación utilizadas para evaluar el temblor esencial durante el examen clínico son: wTRS42 , Fahn-Tolosa-Marin43 y TETRAS44. Cada escala de calificación escala subjetivamente la intensidad del temblor de 0 a 4; (0) normal, (1) ligeramente anormal, (2) levemente anormal (3), moderadamente anormal, y (4) severamente anormal. Por otro lado, para evaluar el temblor generado en pacientes con enfermedad de Parkinson las escalas de calificación utilizadas son: MDS-UPDRS45 y Hoehn y Yahr46. 1.5.1 MÉTODOS PARA MEDIR Y REGISTRAR EL TEMBLOR Una evaluación clínica basada en escalas de calificación no proporciona la suficiente información para explicar la evolución de la enfermedad, además de no tomar en cuenta las peculiaridades de cada paciente y de estar sujeto a la subjetividad, pericia y experiencia del especialista durante la evaluación y clasificación de cada paciente. Para superar este contraste, la evaluación biomecánica del temblor proporciona aspectos cualitativos y cuantitativos mediante métodos que han sido desarrollados en el laboratorio para medir y analizar el temblor electrónicamente. Los métodos más comunes son: acelerometría, electromiografía (EMG), sistemas de rastreo magnético, marcadores ópticos activos, tabletas digitalizadoras ("espirografía") y dispositivos hápticos (PHAMToN). Siendo este último utilizado en el sistema DIMETER del cual se obtuvieron las series temporales del temblor para ser analizados en el presente trabajo, la información del sistema DIMETER está detallada en la Sección 4.1. La evaluación biomecánica del temblor implica aspectos cualitativos y cuantitativos. En la Figura 1.7 se muestra la ubicación de un acelerómetro en la palma de la mano para medir la señal de tremor, mientras que el sensor de EMG colocado en el brazo da una medida de los movimientos musculares. Figura 1.7 Ubicación de acelerómetros y sensor de EMG para medir el movimiento provocado por el temblor. 32 ESTADO DEL ARTE 1.5.1.1 ACELERÓMETROS Y GIROSCOPIOS El método más utilizado para una valoración electrónica del temblor son los acelerómetros que se fijan a una o más partes el cuerpo afectadas por el temblor, por ejemplo en los dedos, en la muñeca de las manos, brazos, etc. Los acelerómetros son sensores que miden las fuerzas de aceleración lineal en tres direcciones ortogonales, son capaces de capturar y medir las fuerzas estáticas y dinámicas de aceleración o el movimiento producido por la acción de la gravedad y la acción muscular (temblor). Estos dispositivos generan una secuencia de valores o serie temporales que representan la aceleración instantánea como una función de tiempo de la parte del cuerpo afectada por el temblor para posteriormente ser analizados computacionalmente por técnicas matemáticas. Un estudio realizado por Deuschl et al. 1995, investigó sobre la base de los registros acelerómetricos monoaxiales de series temporales de 35 segundos para separar entre pacientes con temblor fisiológico, TE y EP. La frecuencia y la amplitud fueron suficientes para separar entre el temblor fisiológico y los temblores patológicos, mas no para separar entre TE y EP. La conclusión de ese trabajo fue que las series temporales son una herramienta poderosa para un análisis objetivo del temblor47. Muchos otros trabajos de investigación han utilizado los acelerómetros para la identificación y medición del temblor48,49. En la Figura 1.8 se muestra un ejemplo de medición del temblor con acelerómetros50. 50 Figura 1.8 Medición del temblor por medio de acelerometría. Izq. Paciente con temblor. Der. Paciente normal . Los acelerómetros son dispositivos electromecánicos y los más utilizados generalmente se basan en el efecto piezo-eléctricos y de variación de capacitancia. El primer tipo consiste en un cristal microscópico sensible a las fuerzas de aceleración generando un voltaje que puede ser medido. El segundo tipo tiene dos micro estructura ubicada de tal forma que existe una capacitancia entre ellos, la fuerza de aceleración mueven estas estructuras variando la capacitancia entre ellos, esta variación es 33 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. transformada en una tensión que se puede medir. El estudio realizado por Tsipouras et al, 2012 realizó una evaluación de la discinesia inducida por levodopa en pacientes con la enfermedad de Parkinson basándose en el análisis de las señales registradas por los acelerómetros que se colocaron en el cuerpo del paciente y mientras realizaban tareas específicas51. 51 Figura 1.9 Registro del temblor en cada uno de los ejes de los acelerómetros colocados en las extremidades . Otros métodos propuestos para medir el temblor son los giroscopios52, que son dispositivos para evaluar el desplazamiento angular provocado por el temblor detectando el cambio de orientación de la parte afectada y son insensibles a la fuerza de gravedad; y diferente tipos de transductores de posición/ velocidad53. En la Figura 1.10 se muestra la posición de los sensores (giroscopios: 1 sobre el metacarpiano, 2 sobre el borde del antebrazo, 3 abajo del olécranon, 4 sobre el olécranon) en la extremidad superior. 52 Figura 1.10 Medición del temblor por medio de giroscopios . 34 ESTADO DEL ARTE En la Figura 1.11 se ilustra un sistema de monitorización ambulatoria dedicada a pacientes con EP54, ofrece una evaluación motriz completa para la cuantificación de temblores, bradicinesia e hipocinesia. El sistema se compone de cuatro sensores de inercia, ubicados sobre la muñeca, muslo, pie y pecho; los sensores se conectan a un bus maestro que alimenta, registra y envía la información a un ordenador a través de bluetooth, además, permite la grabación de los movimientos. 53 Figura 1.11 Medición del temblor por sensores de inercia . Actualmente, existe una serie de dispositivos para evaluar y medir el temblor que integran acelerómetros y giroscopios, que utilizan tecnología wireless, bluetooth e internet para transmitir la información. 1.5.1.2 ELECTROMIOGRAFÍA (EMG) Otra herramienta muy útil es la electromiografía utilizada para diagnosticar muchos tipos de trastornos neuromusculares. La EMG es una técnica que evalúa y registra la actividad eléctrica producida por los músculos esqueléticos, consiste de electrodos (agujas o cables) colocados en la superficie de la piel y se fijan con adhesivos en los músculos tensores y flexores del antebrazo. La frecuencia (Hz), amplitud media (mV) y patrones (síncronos o alteros) se usan para evaluar el temblor55. En un estudio realizado por Sturman et al. 2005, analizó el cambio del temblor fisiológico con relación a la edad de los pacientes mediante electromiografía y acelerometría, evaluó la amplitud y la frecuencia del temblor postural y de reposo bajo condiciones con carga y sin carga como se puede apreciar en la Figura 1.12, los electrodos fueron ubicados sobre el músculo extensor del antebrazo y un acelerómetro sobre el dorso de la mano56. 35 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. Figura 1.12 Medición del temblor postural y de reposo, con carga y sin carga por electromiografía y 56 acelerómetros . En la Figura 1.13 se observa los resultados obtenidos en el trabajo57, que analiza la señal del temblor no rectificado obtenida por EMG del músculo extensor del antebrazo izquierdo y derecho de un paciente con temblor esencial, en el análisis espectral de frecuencia indica que temblor está en unos 5 Hz en ambos brazos. Figura 1.13 Típico registro de EMG de un paciente con temblor esencial bilateral. 1.5.1.3 TABLETAS DIGITALIZADORAS - ESPIROGRAFÍA Son dispositivos de superficie sensible al tacto de un lápiz especial (Figura 1.14) y proporciona la posibilidad de detección de la actividad de temblor en condiciones cinéticas. Las pruebas para medir el temblor sobre estos dispositivos consisten en analizar el dibujo realizado por el paciente sobre modelos de espirales de Arquímedes caracterizado por una distancia uniforme entre espirales. El paciente debe tratar de seguir la trayectoria de la espiral con la mayor precisión posible con la punta de un lápiz. 36 ESTADO DEL ARTE Figura 1.14 Tableta Digitalizadora. Una publicación realizada por Guilherme et al. 2007, indica la forma de cuantificar el temblor utilizando la tableta digitalizadora y ejecutando tareas de dibujos sobre ésta. En la Figura 1.15 se muestra dibujos de espirales de un individuo sano y paciente con temblor58. Durante la prueba el paciente tiene que mantener, siempre que sea posible, la pluma sobre la superficie de la tableta todo el tiempo. Las tabletas actuales pueden realizar un seguimiento del movimiento de la pluma, incluso cuando el lápiz está a pocos centímetros de la superficie. Esta característica permite que incluso los sujetos que no puede dibujar continuamente puedan ser examinados sin consideraciones adicionales. Figura 1.15 a. Plantilla de un espiral de Arquímedes; b. Dibujo de espiral de un individuo sano; c. Dibujo de espiral de un paciente con enfermedad de Parkinson. Este método para medir el temblor es mejor para entornos clínicos debido a su simplicidad y bajo coste, en contraste con los acelerómetros que requieren convertidores análogo-digitales. Hay varios estudios que utilizan este tipo de tabletas para cuantificar el temblor entre ellos los desarrollados por Feys et al.200759, Miralles et al. 200660, Liu et al. 200561 entre otros. Existen otros métodos poco utilizados como: el sistema de seguimiento magnético proporciona el desplazamiento de movimiento (x, y, z) y la orientación (cabeceo, balanceo y guiñada) de cada segmento del cuerpo con relación a un transmisor fijo (Ghassemi et al. 2006)62 y los marcadores ópticos activos de los se puede extraer la aceleración y mediante la trigonometría hace posible la descripción de la orientación del vector y la estimación de la postura del miembro (Albert et al. 2011)63. 37 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 1.5.2 MÉTODOS PARA EL ANÁLISIS DEL TEMBLOR Los temblores son movimientos cuasi sinusoidal, por lo que son susceptibles a un análisis matemático cuantitativo y de modelización con un alto grado de fidelidad en la ayuda en el diagnóstico clínico. Para registrar la actividad del temblor en la Sección 1.5.1 se indicó algunas técnicas y métodos. Todos estos dispositivos tienen la capacidad de registrar parámetros de posición, velocidad, aceleración, rotación entre otros, generados por el temblor. Las señales son registradas en secuencias digitales (series temporales), almacenadas en un ordenador y posteriormente analizadas. Con el avance de la tecnología, los ordenadores son capaces de procesar y analizar las señales en tiempo real a una velocidad de muestreo alta. La amplitud y la frecuencia son las características más importantes para evaluar el temblor. La frecuencia o número de oscilaciones por segundo es medido en (Hz). Para un N número de puntos muestreados durante un periodo de tiempo T en segundos, la tasa de muestreo está dada por N/T, la resolución de frecuencia o frecuencia de Nyquist está dada por N/2T. Así, si se considera una frecuencia de interés máxima de 25 Hz, de forma que cualquier temblor biológico caiga debajo de este rango, la frecuencia de muestreo de registro del dispositivo que se utilice para medir el temblor deberá ser de al menos 50 Hz, siendo preferible un valor más alto para lograr un procesamiento adecuado de las señales. Técnica de filtrado de baja frecuencia pueden ser útiles para mejorar la relación señal-ruido y eliminar el movimiento voluntario. Sin embargo, la frecuencia por sí sola no es suficiente para un diagnóstico, como se indicó en la Sección 1.3, los diferentes tipos de temblor presentan un solapamiento en los rangos de frecuencia lo que dificulta una diferenciación. A pesar de ser la frecuencia una característica muy importante por la que se describe a un tipo de temblor, los pacientes son más afectados por su amplitud llegando al punto de provocar discapacidad. El desplazamiento angular o lineal de la parte afectada por el temblor se mide en milímetros o grados y suelen ser evaluados y medidos con gran precisión por medio de acelerómetros o giroscopios. Los datos proporcionados por estos sensores son difíciles de interpretar clínicamente por sus unidades de aceleración y rotación, por lo que una integración de técnicas matemáticas es de ayuda para cuantificar el desplazamiento realizado por la oscilación de la parte del cuerpo provocada por el temblor. El procesamiento de señales y el análisis del temblor usualmente utilizan técnicas y algoritmos matemáticos y estadísticos. Los registros cuantitativos del temblor están dados en curvas oscilantes en el dominio del tiempo y son más complejas de tratar. Generalmente, las series temporales se procesan 38 ESTADO DEL ARTE mediante el análisis espectral basado en el análisis de Fourier que da los valores cuantitativos de frecuencia y amplitud del temblor. Mediante la Transformada Rápida de Fourier (FFT) la curva del temblor es aproximada a una serie de ondas de senos y cosenos de varias frecuencias y amplitudes. Debido a que la varianza de una onda sinusoidal pura es igual a la mitad del cuadrado de su amplitud pico, la varianza de la suma de las ondas puede ser utilizada como una medida de amplitud. El análisis de Fourier también proporciona un espectro de potencia que da valores cuantitativos de la amplitud en la frecuencia. En la Figura 1.16 se muestra un ejemplo del espectro de Fourier de los registros de un paciente con temblor obtenidos mediante acelerómetros64. El espectro normalizado de Fourier de la frecuencia del temblor está representado por la línea verde, y proporciona la distribución del temblor en una amplia banda de frecuencias determinada por la FFT, frecuencia media es de 7.8 Hz. Figura 1.16 Frecuencia obtenida mediante FFT. El análisis espectral basada en la Transformada Rápida de Fourier (FFT) es uno de los métodos más utilizados. Por ejemplo, Sanchez-Ramos et al. 201165, utilizó la FFT para determinar la distribución de potencia normalizada del temblor. Una modificación de esta técnica es Weighted-Frequency Fourier Linear Combiner (WFLC), que es un algoritmo adaptable que tasa el temblor utilizando un modelo sinusoidal, evaluando la frecuencia variante en el tiempo (estimando la frecuencia dominante única), amplitud y fase. Otro método similar es Band Limited Multiple Fourier Linear Combiner (BMFLC) que también es un algoritmo adaptativo desarrollado para el seguimiento de múltiples frecuencias dominantes en el temblor para un filtrado preciso. En un estudio realizado por Veluvolu y Ang, 201166, utilizó las técnica FFT, WFLC y BMFLC para estudiar las características de tiempo-frecuencia del temblor. Otros estudios incorporan al Filtro de Kalman (FK) como una nueva técnica para la estimación de los estados no visibles en los sistemas dinámicos con procedimiento recursivo. La formulación del filtro de Kalman se describe generalmente en la forma de espacio de estado. El FK constituye la solución óptima para los problemas de estimación, en el sentido de que minimiza la covarianza de un error de estimación 39 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. a posteriori. Un estudio realizado por (Gallego, et al. 2010)67 utilizó el método de WFLC junto con el FK para estimar la amplitud y frecuencia instantánea de los registros del temblor obtenido por giroscopios. En la Figura 1.17 se muestra los resultados de este estudio, previamente se realizó un filtrado del movimiento voluntario para analizar el temblor. El filtro de Kalman y WFLC proporciona la amplitud y la frecuencia instantánea, respectivamente. Figura 1.17 Estimación en tiempo real de parámetros instantáneos del temblor con WFLC y FK. Para aumentar la precisión de las técnicas de análisis mencionados, se han implementado otras modificaciones y/o algoritmos. Sin embargo, no es posible determinar la mejor estrategia de realizar estos análisis del temblor, ya que esto depende de los objetivos propios de cada estudio. En la literatura, no existen dos situaciones similares en trabajos publicados sobre el método de análisis del temblor, cada uno varía con la metodología utilizada (tamaño de la muestra, área geográfica, el agravamiento de la patología, grupo de edad, etc.), por lo que no es posible realizar comparación alguna y llegar a una conclusión sobre las metodologías más eficaces para la detección y diagnóstico de temblor. En la siguiente Tabla 1.4 se presenta un resumen de algunas técnicas más utilizadas por los investigadores independientemente del tipo de señal, la patología, y las muestras utilizadas12. 40 ESTADO DEL ARTE AUTOR 68 Caviness et al . PATOLOGÍA EXÁMENES EP. EEG, EMG. Acelerómetros Varios. Espirograma. 69 Elble et al . Farkas et al. 70 Piboolnurak et al. O'Suilleabhain y 72 Matsumoto Machowska73 Majchrzak et al. Rocon et al. Acelerómetros. TP. Acelerómetros, EMG. 95 pacientes, 37 controles. 92 pacientes. EP, TE, TP. EMG. 20 EP, 8 TE, 7 TP. FFT, Distribución de Wigner EP, TE, TC. EMG y Acelerómetros. 44 EP, 39 TE, 13 TC. FFT, Ventana de Hanning. EP, TE, TF. Acelerómetros. EP, TE. EMG. - Espirograma. FFT FFT Varios. Giroscopios. 31 pacientes. EP EP EP 24 pacientes. 16 pacientes. 16 pacientes. Análisis Estadístico. Perceptrón Multicapa. Análisis Estadístico. 62 Varios Giroscopios. Acelerómetros. Acelerómetros. Seguidores magnéticos de movimiento. Acelerómetros. Acelerómetros. Seguidores magnéticos de movimiento. Acelerómetros -Giroscopios 30 pacientes. Análisis Estadístico. 30 pacientes. 12 pacientes. Análisis Estadístico. Máquina de Soporte Vectorial. Análisis Estadístico y Máquina de Soporte Vectorial. Árboles de Decisión. 76 77 Burkhard et al. 79 Keijsers et al. 80 Hoff et al. Ghassemi et al. 81 Gour et al. 82 Patel et al. Chelaru et al. EP, TE. 78 75 Riviere et al. 959 pacientes. ANÁLISIS FFT y Análisis de Coherencia FFT y Coherencia entre Amplitud y TRS Poli espectro de Orden Superior, Redes Neuronales. Estimación Espectral Directa. Combinador Lineal de Fourier de Frecuencia Ponderada (WFLC). EMD, Espectro de Hilbert. Jakubowski et al. Lauk et al. 71 MUESTRAS 20 EP, 20 controles. 74 EP EP 83 Tsipouras et al. EP 84 EP 10 TE, 6 EP. - 29 pacientes. 16 pacientes. Tabla 1.4 Características clínicas para identificar EP en los que coexiste el TE. Finalmente, se puede indicar que todos los métodos utilizados para medir y registrar el temblor junto con el análisis computacional de las señales, proporcionan información que junto a herramientas de inteligencia artificial pueden proporcionar una excelente ayuda en la automatización en labores de clasificación en el ámbito de la salud como la ayuda y confirmación en el diagnóstico de enfermedades del temblor. Éstas técnicas de inteligencia artificial capturan el conocimiento implícito en los datos registrados y analizados del temblor son las llamadas Máquinas de Aprendizaje Automático. Dados dos o más tipos o clases de datos, estas máquinas son capaces de reconocer la pertenencia a una u otra clase a nuevos datos comparando la similitud de sus características con los datos sobre las que éstas se entrenan. Existe una variedad de máquinas de aprendizaje, entre estas están los Árboles de Decisión, Clasificador del vecino más cercano (k-NN), las Redes neuronales (MLP) y las Máquinas de Soporte Vectorial (SVM). Siendo esta última de interés y objeto principal del presente trabajo de investigación. Las SVMs son máquinas de aprendizaje muy robustas y eficaces especialmente para tareas de clasificación y reconocimiento de patrones que también forma parte de este estudio, la clasificación entre Temblor Fisiológico vs. Temblor Patológico y la clasificación entre pacientes con Temblor Esencial vs. Enfermedad de Parkinson. Las SVMs serán vistas en detalle en el Capítulo 2. 41 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 1.6 ANTERIORES INVESTIGACIONES PARA LA AYUDA AL DIAGNÓSTICO DE PACIENTES CON TRASTORNO DEL MOVIMIENTO Existen algunos trabajos que anteceden a esta investigación, cuyo objetivo principal común ha sido la caracterización del temblor. Todos los trabajos parten de una base de datos que contiene las pruebas realizadas a pacientes con temblor fisiológico, temblor esencial y enfermedad de Parkinson. El conjunto de pruebas consistió en una serie de patrones (figuras geométricas) ejecutadas en forma estática (manteniendo una postura), cinética (siguiendo la trayectoria del patrón) y dinámica (fuerzas generadas artificialmente) sobre la mano del paciente. Estas pruebas fueron registradas y almacenadas como series temporales por el sistema DIMETER que utiliza un dispositivo háptico llamado PHAMToN para la adquisición de los datos. Las series temporales necesitan ser analizadas matemática y estadísticamente para proporcionar atributos numéricos que sean capaces de caracterizar a los diferentes tipos de temblor. Una vez encontrados los atributos numéricos se hace uso de técnicas de Inteligencia Artificial para automatizar la clasificación entre los temblores, tarea que no siempre es fácil debido al solapamiento que existe en las semiologías de estas enfermedades. A continuación se hace referencia a los estudios realizados en la misma línea de investigación por otros compañeros. 1.6.1 PRIMER ESTUDIO Un primer estudio para caracterizar el temblor fue realizado por Carlos Rubio Martín85. Los objetivos de su proyecto fueron crear un filtro capaz de eliminar la componente involuntaria que acompaña al movimiento, identificar y caracterizar el temblor y finalmente clasificar las serie temporales del temblor utilizando el Perceptrón Multicapa como una técnica de las Redes Neuronales Artificiales. Para crear el filtro realizó pruebas en el dominio del tiempo y en el dominio de la frecuencia. En el dominio temporal filtró las series temporales, eliminando el movimiento voluntario y conservando el movimiento tembloroso, encontrando dificultades en el aprendizaje por la gran cantidad de información en la entrada de la red, posteriormente incrementó el número de redes y dividió las señales para el entrenamiento mejorando los resultados. El principal problema encontrado en los resultados fue la dependencia temporal que no permitió una aplicación directa. En un segundo análisis, en el dominio frecuencial utilizando la transformada de Fourier realizó varios ensayos. (1) Filtrando el movimiento voluntario de las series temporales del temblor. (2) Manteniendo la componente de la trayectoria de las series temporales y asociando a la salida de la red la señal filtrada. (3) Utilizando a la red neuronal para 42 ESTADO DEL ARTE elegir los parámetros necesarios a ser aplicado a un filtro digital. Los resultados no fueron satisfactorios, (1) el entrenamiento de la red fue imposible, (2) existió un problema en la entrada de la red que aunque no dependía directamente del tiempo no tenía relación con la señal del temblor y (3) la red no llegaba a converger y fue incapaz de generalizar correctamente. Para caracterizar el temblor utilizó los atributos numéricos proporcionados al aplicar estadísticas de segundo orden como es la densidad espectral de potencia PSD y las estadísticas de orden superior HOSA como son los poliespectros: biespectro y triespectro para los cumulantes de tercer y cuarto orden, respectivamente. Los 26 atributos numéricos obtenidos de las series temporales fueron los recopilados en este trabajo en la Sección 4.3.2. En la Tabla 1.5 se hace un resumen del error cometido en la clasificación con el procedimiento utilizado por Rubio. Donde los resultados obtenidos no fueron lo suficientemente satisfactorios. El error mínimo logrado fue del 20%, siendo el temblor esencial (TE) el que presentaba el mayor error en la clasificación en los 3 grupos en los que dividió cada análisis. El temblor fisiológico (TF) fue más fácil de clasificar, el temblor parkinsoniano (EP) presenta un error aceptable aunque no satisfactorio. Grupo PSD HOSA PSD+HOSA Tasa de error /número de neuronas en la capa oculta TF TE EP 4% valor medio 90% /2 - 71% /15 40% valor medio 8% /4 86% /4 - 71% /9 42% /4 10% valor medio 70% /4 40 % valor medio Error mínimo 19.42% /2 - 24% /10 24% /4 24% valor medio Tabla 1.5 Resumen de los resultados del estudio realizado por C. Rubio. De la taba anterior se concluyó que hacer un análisis de las series temporales utilizando los atributos de PSD y HOSA en conjunto ayudan a discriminar entre TE y EP. Además, de indicar que el número limitado de las muestras de TE fueron las causantes del alto error cometido. Sugirió buscar nuevos atributos y nuevas técnicas para la clasificación debido a que el perceptrón multicapa tiende la desventaja de los mínimos locales que en ocasiones no permitía la convergencia. 1.6.2 SEGUNDO ESTUDIO Siguiendo la misma línea de investigación, utilizando la misma base de datos del trabajo realizado por Rubio, Pedro Rojo y César Gutiérrez86 continuaron con la tarea de caracterización del temblor mediante técnicas de Inteligencia Artificial y con la clasificación entre temblor fisiológico y temblor patológico, y 43 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. entre temblor esencial y temblor parkinsoniano. Con el objetivo de mejorar los resultados introdujeron un nuevo atributo "discontinuidades" incrementando a 27 los atributos numéricos para caracterizar el temblor, además establecieron las condiciones de entrenamiento y simulación de la red neuronal. Los ensayos realizados se enfocaron en la clasificación entre los diferentes tipos de temblor y la clasificación sobre los diferentes patrones de prueba. Las condiciones de entrenamiento y el error cometido en la simulación con los 26 atributos se resumen en la Tabla 1.6. El resultado de la clasificación sobre los patrones de prueba se resume en la Tabla 1.7. Condiciones Entrenamiento Características Patrones Pesos Épocas Porcent. vectores simul. Vectores entrenamiento Vectores simulación Media de error Con discontinuidades Sin discontinuidades T. Patológico vs. T. Fisiológico 3-4-7-12 3-4-7-12 3-8-9-10-13-14-18 3-8-9-10-13-14-18 70*0.80=56 83*0.80=66 75 75 20% 20% 131 131 32 32 22.78% 23.70% 21.61% 23.41% T. Esencial vs. E. Parkinson 4-6-18-24 4-6-18-24 2-5-6-8-10-11-15-16 2-8-10-11-15-16 50*0.80=40 33*0.80=26 510 90 20% 20% 106 80 26 18 27.58% 26.21% 18.61% 26.67% 86 Tabla 1.6 Resumen de los resultados obtenidos al incrementar las discontinuidades . T. Patológico vs. T. Fisiológico T. Esencial vs. E. Parkinson Vectores Vectores Error Vectores Vectores Error Patrones Patrones Entrenam. Simulación Simulación Entrenam. Simulación Simulación 8 22 5 6.25% 3 14 3 28.75% 9 19 4 16.25% 6 14 3 15% 16 21 5 14.17% 8 12 3 36.25% 18 21 5 30.83% 6-7 16 2 16.25% 5-8 45 10 14.17% 6-11 30 4 19.38% 5-9 42 9 20.75% 7-11 16 2 7.50% 8-9 41 9 21% 8-17 21 4 25% 9-13 39 9 18.13% 10-11 28 6 29.38% 9-16 40 9 32.38% 11-12 15 3 12.50% 13-18 42 9 27% 11-16 26 6 21.25% 15-16 43 10 32.71% 15-16 26 6 20.63% 16-18 42 10 34.38% 86 Tabla 1.7 Resumen de los resultados en la clasificación sobre los patrones . Entre las conclusiones del estudio de Rojo y Gutiérrez, se puede indicar que la introducción de discontinuidades es conveniente, ya que disminuyó el error en la simulación en especial en el entrenamiento entre TE y EP de 26.67% a un error menor de 18.61%. En la clasificación sobre los patrones recomiendan utilizar los patrones 8, 16, 5-8, 9-13 para clasificar entre los temblores patológico y fisiológico, y los patrones 6, 6-7, 7-11, 11-12 para clasificar los temblores esencial y parkinsoniano. 44 ESTADO DEL ARTE 1.6.3 TERCER ESTUDIO Un tercer trabajo fue realizado por J. M. Ramón87 sobre técnicas de clasificación para la ayuda al diagnóstico de enfermedades neurodegenerativas, enfocándose a la clasificación entre el temblor esencial y temblor parkinsoniano. A este estudio se introdujo el Análisis de Componentes Principales (ACP) con el fin de trabajar con los atributos que aporten la mayor información reduciendo la dimensionalidad de los vectores de entrada a la red neuronal, debido a que no todas atributos aportan con información significante. En la Tabla 1.8 se muestra un resumen de los mejores resultados al entrenar la red neuronal con 150 épocas y con un 80% de las muestras para el entrenamiento y un 20% para la simulación. Además se muestra las condiciones de trabajo utilizadas para la red neuronal. Muestras Dinámicos Parkinson Cinéticos Suma ACP Media Geométrica ACP Distancia Euclídea ACP Muestras de Entrada TE Todos patrones EP Dinámicos TE Cinéticos EP Cinéticos TE Suma Absoluta EP Suma Absoluta TE Media Geométrica. EP Media Geométrica. TE Distancia Euclídea EP Distancia Euclídea Tamaño Atributos 94 2, 3. 101 55 14-71, 19-28. 56 22 6, 8, 9, 13, 16, 23, 26 35 22 5, 6, 7, 8. 35 22 6, 8, 9, 11-28. 35 % Error TE % Error EP 11 0 9.09 9.09 0 0 0 0 0 0 87 Tabla 1.8 Resumen de las condiciones y los resultados en la clasificación entre el TE y EP . La Tabla 1.9 muestra un resumen de los errores medios generados en todos los estudios realizados con el análisis de componentes principales. Se trabajó con 17 componentes que representaron la varianza del 99% de la información, reduciendo de esta forma la dimensionalidad de los vectores de entrada a la red neuronal y obviando información redundante que no aportaba para la caracterización del temblor. Estudio Suma absoluta Suma absoluta sin frecuencia Media geométrica Distancia Euclídea ACP si no si no si no si no Errores medios 13-20% 20-30% 18-25% 20-31% 14-27% 22-44% 18-25% 23-37% 87 Tabla 1.9 Resumen del rango del error medio en diferentes estudios con y sin ACP . De los resultados se concluyó que el estudio realzado con la media geométrica y el análisis de componentes principales proporcionó el menor error (14.27%) en la clasificación de los temblores. 45 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 1.6.4 CUARTO ESTUDIO Un cuarto estudio fue realizado por Pablo Martínez88 trabajó con un tipo de Red Neuronal llamado Learning Vector Quantization (LVQ) junto al algoritmo de Optimización con Enjambre de Partículas (PSO) con el fin de encontrar los mejores patrones y los atributos más representativos de la base de datos utilizada por [85, 86, 87] para la clasificación de las muestras de los pacientes con temblor esencial y la enfermedad de Parkinson, realizó varios estudios tomando en cuenta los resultados y las recomendaciones realizadas por los trabajos anteriores. En su primera hipótesis realizó cuatro experimentos para encontrar cuales son los patrones que proporcionen el menor error. En la Tabla 1.10 se muestra un resumen de las condiciones de contorno para el entrenamiento de la red. En la Tabla 1.11 se muestran el número de atributos que proporcionan el menor error para cada una de las pruebas-patrón en los 4 cuatro experimentos. Mapa del PSO Vectores sintéticos de parkinson Vectores sintéticos de esencial Vectores reales de parkinson Vectores reales de esencial Entrenamiento de la red Nº de pesos de la red Épocas Todos los pacientes reales 108 (80% del total de vectores de parkinson) 28 (80% del total de vectores de esencial) 27 (20% del total de vectores de parkinson) 7 (20% del total de vectores de esencial) Con el 80% de la población total (reales sintéticos) 25 o 40 150 88 Tabla 1.10 Mejores condiciones de contorno para el entrenamiento con LVQ y PSO del experimento 1 . Patrón 2 3 5 6 8 10 11 13 15 16 18 Experimento 1 Experimento 2 Experimento 3 Experimento 4 Atributo Error % Atributo Error % Atributo Error % Atributo Error % 20 2.87 21 4.47 21 12.96 20 4.47 20 4.71 3 9.65 20 4.18 15 26.28 17 1.85 17 2.23 17 2.98 17 7.4 3 2.35 3 14.39 1 16.67 3 9.61 17 4.16 2 7.41 2 7.41 1 37.56 4 2.78 17 4.47 1 4.43 8 14.81 11 3.72 11 4.4 11 2.94 11 12.17 3 1.04 1 1.67 2 3.33 3 2.083 2 1.8 3 2.98 17 2.98 3 5.5 11 3.3 15 4.64 11 5.39 15 12.17 10 1.9 2 7.69 1 6.06 17 16.66 Tabla 1.11 Tasa de error cometido en sobre cada prueba-patrón en 4 experimentos y número de atributos con los 88 que se logró los mejores resultados . De las tablas anteriores concluyó que el menor error cometido lo proporcionaron las condiciones del experimento 1, en las que se crearon el 80% de vectores sintéticos y el 20% fueron vectores reales. El 80% de una combinación aleatoria de vectores sintéticos-reales fueron elegidos para el entrenamiento y 46 ESTADO DEL ARTE un 20% para la simulación. El número de pesos de la red fueron 25 para las pruebas cinéticas y 40 para las dinámicas, en cuanto a las épocas se establecieron en 150. El rango de error medio mínimo cometido oscila entre 1.04 a 4.71% para un determinado número de atributos, que son resultados bastante buenos. En una segunda hipótesis intento disminuir el número de atributos, cuyos resultados indicaron que la supresión de tributos no tiene un resultado positivo, debido a que se estaba quitando información que podría ser útil. Una tercera hipótesis incluyó el análisis de componentes principales al PSO para determinar los mejores patrones con las condiciones del experimento 1 de la primera hipótesis. Utilizó diez componentes principales que representaban la máxima varianza. De esta hipótesis concluyó que si bien por un lado disminuye el costo computacional con el ACP, por otro lado, el doble tratamiento de los datos perjudica al diagnóstico realizado por la red incrementando la tasa de error de unos patrones y en otros reduciéndolo. En la Figura 1.18 se hace una comparación del error cometido aplicando o no el ACP. Figura 1.18 Error cometido sobre los patrones con o sin ACP. En una cuarta hipótesis, consideró las pruebas de los pacientes recomendados en los anteriores trabajos para entrenar la red LVQ con el PSO, concluyó que en la mayoría de ensayos se clasificaba a todos los enfermos dentro de un mismo grupo, de forma que el error de simulación en un grupo era muy bajo mientras que el error de simulación del otro grupo era muy alto. Considerando su primera hipótesis como la más adecuada. Finalmente, cabe indicar que entre sus futuros trabajos plantea buscar otro método de optimización con el fin de reducir aún más la tasa de error, así como aumentar el número de pruebas para el caso de temblor esencial. 47 CAPÍTULO 2 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN 2.1 GENERALIDADES DE LAS MÁQUINAS DE SOPORTE VECTORIAL SVM Las Máquinas de Soporte Vectorial SVM (por sus siglas en inglés, Support Vectors Machines), son estructuras matemáticas que han sido incorporados en el aprendizaje automático por la ciencia e ingeniería moderna, con el fin de capturar y aproximarse al conocimiento que se encuentra en la naturaleza y en el ser humano. En la práctica su desempeño ha sido exitoso y están siendo utilizadas especialmente en problemas de reconocimiento de patrones, estimación de regresión y predicción. Las SVMs son los primeros modelos matemáticos que en el marco de la Teoría de Aprendizaje Estadístico (SLT), no dependen de una distribución de probabilidad específica y tienen la capacidad de aprender a partir de un conjunto de datos experimentales que generalmente son tomados del entorno real y con una distribución dispersa en un espacio de entrada de alta dimensión. Las SVMs a diferencia de otras máquinas fueron desarrolladas a partir de un fundamento teórico matemático muy sólido. El fundamento de las SVMs fue desarrollado principalmente por Vladimir Vapnik y sus colaboradores que introdujeron el principio de minimización del riesgo estructural SRM como concepto superior al tradicional principio de minimización de riesgo empírico ERM, para expresar una cota superior sobre la probabilidad de una clasificación errónea sobre datos que no han sido vistos anteriormente, las SVMs basan su aprendizaje en el uso de un espacio de hipótesis lineales en un espacio de características de mayor dimensión inducido por una función kernel, las hipótesis son entrenadas por algoritmos de optimización convexa (es decir existe una única solución) y construye una estructura que depende de un subconjunto de datos llamados vectores soporte, que ayudan a la interpretación del modelo. 49 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. Las SVMs tiene sus orígenes a partir de la década de los 50 cuando la teoría de reproducción de kernels fue desarrollado por Aronszajn que son una de las bases teóricas de éstas máquinas (Aronszajn, 1950). Un hito se marco cuando a finales de los 60's F. Rosenblatt construyó la primera máquina de aprendizaje llamada Perceptrón (Rosenblatt, 1962). En 1963 Vapnik y Lerner introdujeron una versión lineal de las SVMs calculando el margen óptimo (Vapnik y Lerner, 1963). La interpretación geométrica de los kernel como producto escalar en un espacio de características que constituyen la clave de las SVMs no lineales, fue introducido por Aizerman y sus colaboradores (Aizerman et al., 1964). Cover en 1965, discutió sobre las ideas del margen amplio y datos dispersos, que son parte de los fundamentos de las SVMs (Cover, 1965). A finales de los 70's Smith introdujo la idea de las variables de holgura para tratar con datos ruidosos y no separables linealmente, que son herramientas útiles para las SVMs de margen flexible (Smith, 1968), al mismo tiempo la filosofía de la Teoría de Aprendizaje Estadísticos estaba siendo desarrollada por Vladimir Vapnik y Alexey Chervonenkis, sus primeros trabajos fueron conceptos teóricos como la entropía Vapnik-Chervonenkis y la dimensión Vapnik-Chervonenkis, que en 1974 derivó en un novedoso principio inductivo llamado minimización del riesgo estructural que dio un respaldo teórico muy fuerte a las SVMs (Vapnik y Chervonenkis, 1974; Vapnik, 1979), continuando con sus investigaciones en el marco de la teoría de aprendizaje estadístico, en 1989 introducen las condiciones suficientes y necesarias para la consistencia del principio de minimización del riesgo empírico, en 1992 Boser junto a Vapnik y Boser y Guyn extendieron las SVMs lineales a casos no lineales aplicando el truco kernel para maximizar el margen de los clasificadores (Boser et al.,1992), posteriormente, Cortes y Vapnik generalizaron los resultados iniciales como base para la técnica de las actuales SVMs introduciendo la versión de margen flexible, utilizando variables de holgura para tratar datos con ruido y que no separables linealmente (Vapnik y Cortes, 1995; Vapnik, 1998). Algunas de estas definiciones son tratadas con más detalle en las siguientes secciones. En los últimos años, el uso de las SVMs se ha incrementado especialmente en el área de la biomedicina y las ciencias, entre los trabajos destacables89 que utilizando las SVMs se pueden citar: el reconocimiento de dígitos escritos a mano (Cortes y Vapnik, 1995; Schölkopf, Burges y Vapnik, 1995,1996; Burges and Schölkopf, 1997), reconocimiento de objetos (Blanz et al., 1996), identificación de voz (Schmidt, 1996), reconocimiento de objetos en 3D (Pontil y Verri, 1998), detección de rostros en imágenes (Osuna, Freund y Girosi, 1997), categorización de textos (Joachims, 1997), categorización de spam (Drucker y Vapnik, 1999), entre muchos otros trabajos. 50 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN 2.2 EL APRENDIZAJE AUTOMÁTICO Con el creciente desarrollo de la tecnología ha hecho que las necesidades del ser humano sean más complejas e imperiosas de satisfacer, a la vez surgen nuevos sistemas más sofisticados y eficientes para hacer frente a este problema. El mundo real es impreciso, incierto y cambiante, la precisión acarrea un gran costo por lo que se tiene que implementar técnica de computación suave (soft computing) que ponen de lado los resultados exactos y precisos por otros que a pesar de no ser tan exactos y precisos proporcionan una solución satisfactoria. Estas técnicas son de gran interés cuando se desea modelar procesos o sistemas complejos que poco o nada conocidos y que generalmente son no lineales. La función primordial de la inteligencia humana no es realizar cálculos precisos, sino asegurar la supervivencia en la naturaleza, el cerebro humano es capaz de procesar millones de datos percibidos a través de sus sentidos y tiene la habilidad de aprender, generalizar, reconocer y tomar decisiones, sorprendentemente desde la experiencia y reglas aprendidas. Lo que se desea es transferir el conocimiento humano obtenido con de la experiencia, la habilidad y la heurística a modelos matemáticos, algoritmos, máquinas y sistemas inteligentes (software) a través de la denominada Inteligencia Artificial (IA), tratando de aproximar a la inteligencia humana con el fin de ser capaces de sobrevivir en un entorno altamente tecnológico, en donde las tareas sean resultas en base a experiencias previas en una razonable cantidad de tiempo, con la mejor exactitud y con el menor coste y que a la vez sea adaptable al impreciso, incierto y cambiante mundo que nos rodea. Sin duda la inteligencia artificial ha sido un éxito en programas computarizados que ayudan a doctores a diagnosticar enfermedades, a pilotos a aterrizar aviones, a economistas a predecir comportamientos financieros, en fin muchos de estos ámbitos dependen de alguna forma del reconocimiento de patrones. En el reconocimiento de patrones se estudia cómo las máquinas pueden lograr el aprendizaje a partir de datos experimentales, ejemplos, muestras, registros, medidas u observaciones del entorno, para luego aprender a distinguir patrones de interés a partir de sus antecedentes y tomar decisiones acertadas que concuerde con la categoría de los patrones. Cuando se trata con problemas complejos en el reconocimiento de patrones y según el tipo de datos con los que se cuenta, se puede dar solucionar mediante el método de la Teoría de Decisión que se utiliza para la clasificación de patrones en el que se emplean funciones de decisión y donde los datos se encuentran representados por vectores con valores característicos. 51 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. En la Figura 2.1, se presenta un ejemplo muy simple de clasificación para tener una idea de cómo se implementan los algoritmos a partir de la teoría de aprendizaje estadístico. La tarea es separar formas, es decir separar los círculos de los puntos rellenos, encontrando una función de decisión que en este caso está representado por una frontera (línea continua) que sirve como límite entre ambas clases. Figura 2.1 Clasificación de formas para tres modelos de fronteras o funciones de decisión. En la Figura 2.1, a la izquierda muestra una frontera o función de decisión que separa correctamente las formas haciendo que la solución sea compatible con cada una de las formas, sin embargo no está claro si ésta condición se mantiene para nuevas formas, por ejemplo ¿qué sucedería si existen nuevas formas como valores atípicos ubicados en medio de la otra clase?, tal vez estos valores atípicos degenerarían completamente la función de decisión, para tratar de evitar este problema se podría probar con un modelo más simple que haga caso omiso a estos valores atípicos. Si se considera un modelo más simple como el presentado en la figura de la derecha, que representa a una separación casi lineal, éste modelo sin embargo no solo clasifica erróneamente los valores atípicos sino que también a algunas formas que están cerca a la frontera de decisión (marcados con una cruz de color rojo). Lo que indica que la complejidad de la función de decisión es muy crucial en problemas de clasificación, si ahora se implementa un modelo intermedio en complejidad como el representado en la figura del centro que permite que los valores atípicos de alguna forma sean omitidos en la clasificación de manera que la frontera de decisión no se vea afectada pero garantiza que se clasifique correctamente la mayoría de las formas. Con este enfoque se puede decir que el objetivo de la teoría de aprendizaje estadístico es emplear estos argumentos en un marco matemático mediante la implementación de modelos de máquinas de aprendizaje que implemente la función óptima teniendo en cuenta la complejidad de su estructura para predecir nuevas formas. 52 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN 2.3 MODELO DE UNA MÁQUINA DE APRENDIZAJE El aprendizaje es entendido como el conocimiento adquirido sobre un sistema o concepto que hasta entonces ha sido desconocido o poco conocido, y si este conocimiento es adquirido a partir de un conjunto de datos experimentales da origen al aprendizaje estadístico. El procedimiento de aprendizaje a partir de datos se conoce como entrenamiento. Los datos experimentales son llamados también datos de entrenamiento, patrones, ejemplos, muestras, medidas, observaciones o registros. Si un sistema, algoritmo o máquina puede aprender desde los datos experimentales podrían ser considerados como inteligentes. Entre los sistemas inteligentes ideados por la ciencia y la ingeniería moderna a partir del aprendizaje estadístico se puede mencionar a las máquinas de soporte vectorial (SVM). La forma de aprendizaje de una máquina (aprendizaje artificial), es la parte más fundamental en el procesamiento de los datos para el reconocimiento y la clasificación de patrones, existen varios tipos de aprendizaje entre los que se destacan dos técnicas: el Aprendizaje Supervisado que es una técnica que genera una hipótesis en donde el proceso de aprendizaje durante la fase de entrenamiento es controlado por un agente externo (un usuario o un sistema) determinando la respuesta de la función, es decir se controla los datos de entrada a la máquina para que sean transformados en los resultados deseados y su principal objetivo es obtener una función a partir de los patrones que participaron en el entrenamiento de manera que dicha función puedan generalizar y predecir la categoría de los nuevos patrones con similares atributos que no han sido presentados anteriormente al sistema. El Aprendizaje No Supervisado es otra técnica en los datos que se le presenta a la entrada de la máquina no tiene una categorización es decir no existe un conocimiento a priori y su salida está representada por datos que se agrupan de acuerdo a cierta similitud o familiaridad, creando posibles categorías para nuevos patrones. De ambas técnicas presentadas el que corresponde a este estudio es el aprendizaje supervisado. La teoría de aprendizaje estadístico a partir de ejemplos experimentales (desarrollada por Vapnik 1998) se basa en que: a) los problemas modernos de la vida real son imprecisos, inciertos y de muy alta dimensionalidad (en el espacio de las entradas), lo que implica que un incremento de las variables independientes y por tanto un incremento en la complejidad, lo conduce a lo que se conoce como "la maldición de la dimensionalidad" y b) las reglas fundamentales de cómo se generan los datos de la vida real suelen estar muy lejos de una distribución normal. Los puntos anteriores no pueden ser tratados por la estadística clásica por lo que se debe reemplazar por nuevos principios inductivos capaces de generar modelos que resuelvan problemas con datos dispersos (distribución no Gaussiana) y que sea realizables cuando está disponible un pequeño número de datos. 53 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. Los modelos de máquina de aprendizaje que resuelven problemas con los hechos indicados anteriormente, son modelos no lineales y no paramétricos. El término no lineal se refiere a que el modelo no está restringido a un mapeo lineal de sus entradas- salidas y a la no linealidad del modelo con respecto a sus parámetros desconocidos que son sujetos del aprendizaje cuando se mide su bondad mediante alguna función de error que implementa funciones de activación o kernels no lineales. El término no paramétrico se utiliza para definir que los parámetros son establecidos durante el aprendizaje y depende de los datos utilizados en el entrenamiento de la máquina. Según la teoría de aprendizaje estadístico utilizado para describir el modelo de aprendizaje de una máquina a partir de ejemplos y con el fin encontrar la regla o función subyacente entrada-salida bajo un aprendizaje supervisado se necesitan tres componentes básicos90, representados en la Figura 2.2: 1. Un conjunto de N ejemplos llamados también muestras (M), donde cada muestra consiste de un par ( x i , y i ) conformado por un vector de características n-dimensional (generalmente de una alta dimensionalidad) x i X n , i 1 . . .N como dato de entrada, al que se le asocia como salida y i Y ( {1,1} o cualquier otro escalar) a una de las posibles clases a la que pertenece, lo que proporciona una fuente de confianza. El conjunto de muestras ( x i , y i ) están relacionados por una relación probabilística, es decir un elemento de X no determina de forma única un elemento de Y sino que representan una distribución de probabilidad sobre Y . Se asume que los vectores x fueron generados en forma independiente desde una fija pero desconocida función de probabilidad p(x) y la elección de los pares ( x i , y i ) para obtener un modelo de máquina fue de forma aleatoria y muestreada N veces. 2. Un sistema (S), que produce las respuestas y de cada vector de entrada x generados de acuerdo a una distribución de probabilidad condicional p( y | x) que también es fija y desconocida, la respuesta del sistema es utilizada para el entrenamiento de la máquina de aprendizaje. Se asume que se tiene un sistema determinista que utiliza la función y f (x) . 3. Una máquina de aprendizaje (MA), que usando las entradas x y la salida del sistema y , la tarea es encontrar una función de mapeo f : X Y , es decir la función subyacente f (x ) o relación de dependencia desconocida que existe entre ambas variables. Tal función se conoce como Regla de Clasificación que separa los datos. La máquina de aprendizaje debe ser capaz de 54 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN implementar una función de aproximación1 f a (x,) cuya salida debe ser lo más cercana a la respuesta del sistema y en donde cada función de aproximación está implementado por un conjunto de parámetros que no necesariamente tienen que ser un vector. Conjunto de Datos M Sistema x y S (Esta conexión está presente sólo en la fase de aprendizaje) MA yˆ Máquina de Aprendizaje Figura 2.2 Modelo de una máquina de aprendizaje. En la Figura 2.2, se muestra la relación que existe entre los componentes básicos del modelo de una máquina de aprendizaje supervisada, durante el proceso de aprendizaje la máquina observa las muestras de entrada conformado por los pares ( x i , y i ) , la tarea principal es aprender a mapear x i y i durante la fase de entrenamiento, tratando que el valor y se aproxime lo mejor posible a la respuesta del sistema y . La máquina de aprendizaje está definida por un conjunto de posibles mapeos x f a (x,) donde las funciones f a (x,) se etiquetan a sí mismas a través de los valores del parámetro (generalmente estos parámetros son llamados pesos). Se asume que la máquina es determinista, es decir que para un vector de entrada x i y la selección del parámetro siempre se obtendrá como resultado la misma salida f a (x,) . La selección óptima del parámetro da lugar a lo que se conoce como Máquina Entrenada. Una máquina de aprendizaje desde este punto de vista consta de una arquitectura determinada y de sus correspondientes parámetros2 que representan los pesos y los umbrales, son parámetros que tienen diferente significado físico o geométrico dependiendo del problema a resolver. 1 Las funciones de aproximación son modelos que son conocidos como redes (por su representación grafica), máquinas (referidas a algoritmos o modelos matemáticos) o como hipótesis. 2 Usualmente los parámetros de la función f a (x,) son: los pesos de las capas ocultas o de salida en el perceptrón multicapa, los coeficientes de un polinomio o una serie de Fourier truncada, los pesos de los vectores soporte de una SVM, etc. 55 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. La función buscada y f a (x, ) es la que mejor aproxima el valor de las salidas del sistema y f (x) para todos los vectores de entrada, es decir y y . Su selección se basa en el conjunto de datos de entrenamiento compuesto por N pares: ( x 1 , y1 ), ( x 2 , y 2 ), . . . , x N , y N (2.1) Se asume que las muestras se generan en forma independiente de acuerdo a una distribución de probabilidad desconocida P(x, y) que es una suposición estándar en la teoría de aprendizaje estadístico, los datos generados de esta forma se conocen como independiente e idénticamente distribuidos (i.i.d.) y bajo condiciones muy generales la distribución de probabilidad puede ser escrito como: P(x, y ) p(x) p( y | x) (2.2) Donde p( y | x) es la distribución de probabilidad condicional e indica que para la misma entrada x se genera una salida diferente y cada vez; y p(x) indica la probabilidad marginal de x . Cuando se trabaja con un conjunto de datos de entrenamiento disperso y contaminado con ruido, el término aproximación utilizado entre la salida de un sistema y (función subyacente f (x ) ) y la salida de la máquina de aprendizaje y (función de aproximación f a (x,) ), es importante. En un problema de aproximación existe dos elementos a tener en cuenta: a) el tipo de función de aproximación y b) la medida de cuan buena es una aproximación. En este sentido es mucho más importante elegir una función de aproximación, que elegir la manera en la que se mide la bondad de la aproximación, entendiéndose ésta como la función de distancia o norma que existe entre f (x ) y f a (x,) . Es muy difícil determinar a la función de aproximación que conduzca a una mejor aproximación, la ventaja es que existe solo unas cuantas funciones de aproximación estudiadas actualmente, entre ellos están las máquinas de soporte vectorial SVM. Si la función de aproximación es compatible con la función subyacente, entonces cualquier norma o función de distancia utilizada puede aproximarse a la función subyacente. De no ser compatible, difícilmente se podrá implementar una norma que consiga una buena aproximación. La norma de aproximación f a (x) es una medida específica de que tan bien, una función de aproximación coincide el conjunto de datos ruidosos. 56 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN No se busca un modelo en que la función de aproximación coincida con la función subyacente, es decir que y y , que en este caso se refiere a una interpolación, sino que se busca una función de aproximación a la función subyacente y y , la diferencia entre estos términos se representa en la Figura 2.3. f( x) función subyacente f( x) función subyacente curva de ajuste por aproximación f( x) f( x) curva de ajuste por interpolación x x Figura 2.3 Modelo de una función subyacente fa (x) con datos contaminados de ruido. Izq. Interpolación y sobreajuste de los datos con ruido. Der. Aproximación y suavizado de los datos (filtrado del ruido). Según la Figura 2.3, como el conjunto de datos de entrenamiento son dispersos, con ruido y complejos. En la interpolación se realiza un desempeño perfecto pasando sobre todos los datos de entrenamiento e incluso el ruido es interpolado y el error es igual a cero, pero esta condición provoca el indeseado sobreajuste y una pobre generalización sobre nuevos datos. En la aproximación realizada sobre los datos de entrenamiento, no es necesario atravesar por todos los datos sino solamente por aquellos más cercanos tratando de minimizar alguna medida de error, obteniendo un modelo de ajuste suavizado al filtrar el ruido tanto como sea posible. Para encontrar la mejor función de aproximación f a (x,) generada por la máquina de aprendizaje, generalmente se utiliza una función de pérdida, de costo o de discrepancia, representada como: L( y, f a (x,)) (2.3) La función (2.3) es obtenida desde el conjunto de datos de entrenamiento {( x i , y i )} , en estadística la función f a ( x, ) es llamada hipótesis y pertenece a un amplio conjunto llamado espacio de hipótesis de 57 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. las funciones 3 H , es decir f a H y minimiza alguna riesgo funcional R ( ) conocido también como pérdida promedio o pérdida esperada, que representa la esperanza estadística de la función de pérdida y está dado por: R ( ) L ( y , f a ( x, )) P ( x, y ) dx dy (2.4) Existen 3 casos que implementan las máquinas de aprendizaje y donde el problema de minimización del riesgo es tratado en función del conocimiento que proporciona los datos de entrenamiento y que dependiendo de la tipología de sus variables de salida (categóricas, numéricas) son divididos en: - Reconocimiento de patrones (clasificación). - Estimación de regresión (aproximación). - Estimación de la densidad. En los problemas de reconocimiento de patrones de dos clases (binario), al conjunto de salidas de una máquina de aprendizaje reciben el nombre de etiquetas y define la clase de pertenencia al que puede ser asignado un elemento de entrada. Las salidas de las entradas categóricas son transformadas en variables numéricas por medio de funciones indicadoras (que serán tratadas en la Sección 2.6). Para calcular una función de pérdida (2.3) se necesita de la salida del sistema y que generalmente toma dos valores {1} y de la mejor función de aproximación generada por la máquina de aprendizaje f a (x,) (función que al asignarle únicamente dos valores {1} se la conoce como función indicadora), así: L( y, f a (x, )) 0 L( y, f a (x, )) 1 si si y f a (x, ), y f a (x, ). (2.5) En forma general, la expresión (2.5) facilita la definición de una función de pérdida para el caso de reconocimiento de patrones, contabiliza el número de elementos clasificados correctamente y los que han sido clasificados de forma errónea en la fase de entrenamiento, llamando error de entrenamiento a las diferentes respuestas. La correcta clasificación o no, se mide por medio de la función de pérdida cero-uno (2.5) representada como: L ( y , f a ( x, )) 3 1 | y f a ( x, ) | 2 (2.6) Algunos espacios de hipótesis pueden ser modelos matemáticos, esquemas de clasificación, máquinas de cálculo. etc. 58 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN El lado derecho de la función de pérdida (2.6), es la diferencia en valor absoluto entre el valor a la clase a la que realmente pertenece una muestra y el valor proporcionado por la máquina de aprendizaje, donde la pérdida es 0 si la clasificación es correcta y es 1 caso contrario. 2.4 PROBLEMA DE MINIMIZACIÓN DEL RIESGO Durante el aprendizaje en la fase de entrenamiento se encuentra un conjunto de parámetros (x, y ) de la función de aproximación f a ( x, ) , a partir del conjunto de datos de entrenamiento aproximando la respuesta de la máquina de aprendizaje con la respuesta del sistema, ahora la mejor función de aproximación debe ser elegida para predecir la etiqueta de la clase y de pertenencia para cualquier vector de entrada x que no ha sido presentado anteriormente a la máquina, es decir el problema ahora es encontrar la mejor función estimador f que clasifique correctamente las muestras pertenecientes al conjunto de prueba de las que se desconoce la clase a la que pertenecen. Para medir la exactitud con la que un estimador realiza la tarea de clasificación binaria sobre el conjunto de prueba se puede redefinir el riesgo funcional (2.7) como el riesgo esperado R ( f ) o error promedio del estimador f y que está dado por: 1 R( f ) | y f (x) | P(x, y ) dx dy 2 (2.7) El riesgo esperado está definido sobre un gran espacio de clases de funciones sobre el que existe otro tipo de aprendizaje a partir de ejemplo-tareas, a dicho espacio se conoce como espacio objetivo T o espacio de clases y es el dominio del estimador f . Según (2.7), la función f (x) no tiene una dependencia explícita sobre los parámetros de pesos que definen las características relevantes de aproximación de f (x) . Ahora lo que se busca es la función f (x ) T que minimice el riesgo esperado y por tanto ser considerado como el estimador ideal. Este estimador es la función objetivo y se denota como: f 0 (x) arg min R ( f ) f T (2.8) 59 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. De la expresión (2.7) se puede deducir que si el sistema fuese determinista (libre de ruidos) es decir en el caso en que y f 0 ( x ) el riesgo esperado sería igual a cero, pero la salida y depende mucho del ruido del sistema, si el ruido en los datos es grande, de igual manera el error promedio será grande. Debido a que la distribución de probabilidad P(x, y) es desconocida, no es posible calcular y reducir el riesgo esperado, pero se dispone de un conjunto limitado de datos de entrenamiento con lo que se puede calcular una aproximación estocástica4, para lo cual es necesario emplear un principio de inducción que minimice el riesgo funcional, tal principio se conoce como principio de Minimización de Riesgo Empírico (ERM). 2.5 PRINCIPIO INDUCTIVO DE MINIMIZACIÓN DEL RIESGO EMPÍRICO ERM Las máquinas de aprendizaje intentan aprender la función subyacente entrada-salida mediante el algoritmo de aprendizaje supervisado, en otras palabras, encontrar la función objetivo (2.8) que minimiza el riesgo esperado, pero desafortunadamente como la función de distribución de probabilidad P ( x, y ) es desconocida, la función objetivo en la práctica no puede ser encontrado fácilmente. Para superar este inconveniente, se dijo anteriormente que es necesario implementar un principio de inducción que puede ser utilizado para el aprendizaje a partir de un conjunto de datos de entrenamiento (2.1) como única fuente de información; donde las entrada x i X n , i 1 . . .N y las respuesta del sistema y i Y son valores discretos para los problemas de clasificación (por ejemplo {1} ), así el riesgo esperado R ( f ) puede ser sustituido por el llamado principio de minimización del riesgo empírico ERM, comúnmente llamado riesgo empírico Remp ( f ) que reemplaza el promedio sobre la distribución de probabilidad P ( x, y ) por el promedio sobre las N muestras del conjunto de entrenamiento y está definido por: Remp ( f ) 4 1 N 1 | f ( x i , ) y i | N i 1 2 (2.9) Se denomina estocástico a un sistema cuyo comportamiento es intrínsecamente no determinista en la medida que el subsiguiente estado del sistema está determinado tanto por las acciones predecibles del proceso como por elementos aleatorios. 60 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN Tomando en cuenta la ley de los grandes números de la teoría de aprendizaje estadístico, asegura que el riesgo empírico Remp ( f ) converge en probabilidad al riesgo esperado R ( f ) si el número de datos es muy grande, es decir si N . lim (| R( f ) Remp ( f ) |) 0 (2.10) N Desde este punto de vista es más conveniente minimizar el riesgo empírico que tiene la ventaja de que puede ser calculado de manera fácil a partir del conjunto de entrenamiento y es una forma razonable de medir cuan buena es una función de estimación. Debido a que el mejor estimador debería generar el menor riesgo empírico, el mínimo valor de Remp ( f ) convergería al mínimo valor de R ( f ) . Denotando como f N a la función que logran minimizar el riesgo empírico en T , el problema ahora se centra en determinar si el riesgo esperado del minimizador del riesgo empírico es lo más cercano al riesgo esperado de f 0 como se muestra en la Figura 2.4, a lo cual se considera como un proceso de aprendizaje consistente. Riesgo (Error) muestra pequeña muestra grande muestra mediana R(f N ) inf R(f 0) R emp (f N ) T Tamaño del conjunto de datos N Figura 2.4 Proceso de aprendizaje según el principio de inducción de ERM. Para ser un proceso de aprendizaje consistente, se debe tener en cuenta bajo qué condiciones se cumple en probabilidad las siguientes afirmaciones: lim Remp ( f N ) lim R( f N ) inf R( f 0 ) N N (2.11) 61 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. En la expresión (2.11), haciendo referencia al segundo y tercer término indica que los valores del riesgo esperado convergen al mejor posible, mientras que entre el primer y tercer término indican que en función de los valores del riesgo empírico se puede estimar el valor mínimo posible del riesgo esperado. Pero lamentablemente, lo anterior es una condición imposible en el caso de una consistencia trivial, si el conjunto de funciones que minimizan Remp ( f ) no contienen a la función que minimiza el R ( f ) . Cuando una máquina de aprendizaje que minimiza el riesgo empírico se puede aproximar al más pequeño valor del riesgo esperado o no, es necesario tener en cuenta el concepto de convergencia uniforme de la teoría de aprendizaje (Vapnik y Chervonenkis 1989)90 cuyos resultados definen tres cantidades que miden la complejidad de un conjunto de funciones como son: la entropía VC y la annealed VC entropy para un análisis que depende de la distribución y la función creciente para un análisis independiente de la distribución. Para que el principio de ERM sea consistente, es una condición necesaria y suficiente que el riesgo empírico Remp converja uniformemente en probabilidad al riesgo esperado R, es decir: lim P sup | R ( ) Remp ( ) | 0 0 N (2.12) La ecuación (2.12) es un proceso de convergencia uniforme bilateral e indica la convergencia en probabilidad P a cero. El parámetro es el mismo para el riesgo empírico Remp y para el riesgo esperado R. En términos generales sup S , es el supremo de un conjunto no vacío S , definido como el elemento más pequeño s x para todo x S , si s no existe entonces sup S , además la propiedad teórica (2.12) es muy importante ya que la condición de consistencia del principio de ERM está determinada por la "peor" función de un conjunto de funciones de aproximación, que es la que proporciona el más grande error entre el riesgo empírico y el verdadero riesgo esperado, además ayuda a definir una cota válida para cualquier máquina de aprendizaje que este expresada en función del tamaño de su conjunto de entrenamiento N y de la dimensión VC (Vapnik-Chervonenkis) h que será tratado en la Sección 2.6. Además, (2.12) indica que la condición necesaria y suficiente para una tasa de convergencia rápida y para la consistencia del principio ERM e independiente de la distribución, es que la dimensión VC del conjunto de funciones de aproximación debe ser finita, Vapnik (1995). 62 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN Pero (2.12) no indica el proceso constructivo para diseñar un modelo, debido a que existe un infinito número de posibles soluciones que pueden surgir al buscar el valor mínimo del riesgo empírico. En la Figura 2.5, están representadas 3 funciones de aproximación, (curvas entrecortadas) de una infinidad posible, que interpolan correctamente los datos x del conjunto de entrenamiento haciendo que el resultado sea igual a cero para el riesgo empírico, es decir Remp 0 . Pero cada una de estas 3 funciones es un pésimo modelo de la verdadera función subyacente f (x ) (representada por la curva de color rojo), interpretan muy mal fuera de los datos de entrenamiento y por tanto no generalizan bien. y=f( X i) Xi Figura 2.5 Diferentes funciones que interpolan los datos del conjunto de entrenamiento, cada una tiene un riesgo empírico igual a cero pero ninguna generaliza bien. Existen otras funciones de aproximación generadas por las máquinas de aprendizaje que minimizaran el riesgo empírico pero no necesariamente minimizarán el riesgo esperado, esto debido al hecho de que la máquina es entrenada con algunas muestras de la verdadera función subyacente, generando así siempre funciones de aproximación sesgadas, éstas aproximaciones depende esencialmente del conjunto de pares de muestras ( x i , y i ) utilizadas en la fase de entrenamiento para el aprendizaje. La solución a este problema se da restringiendo el espacio de las hipótesis H a un subconjunto más pequeño que el espacio objetivo T mientras se controla la complejidad de las funciones de aproximación, este tema será abordado más adelante en el llamado principio de Minimización de Riesgo Estructural (SRM). 63 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 2.6 LA DIMENSIÓN DE VAPNIK-CHERVONENKIS CV La definición de la Dimensión de Vapnik-Chervonenkis VC, es un concepto muy importante en la nueva teoría de aprendizaje ya que permite generalizar el proceso de aprendizaje y dar solución al problema de sobreajuste. Inicialmente fue presentado para los problemas de reconocimiento de patrones / clasificación de dos clases, utilizando un conjunto finito de datos de entrenamiento y aplicándolo en el principio inductivo de minimización del riesgo empírico. El diseño de un modelo de máquina de aprendizaje debe ser analizado por la complejidad del conjunto de funciones indicadoras mediante su entropía o su función creciente (Vapnik y Chervonenkis 1968, 1971). Siendo la función creciente la que describe la condición necesaria y suficiente para la consistencia del método de ERM para cualquier medida de probabilidad P(x, y ) y sobre la que se debe construir una cota de convergencia aplicando la dimensión VC. Para explicar la función creciente de un conjunto de funciones indicadoras aplicadas a la tarea de clasificación de dos clases, se consideran un conjunto de N datos (x1 , x 2 ,...., x N ) y un conjunto I de funciones indicadoras f i (x, w) . Si se caracteriza la diversidad del conjunto de funciones indicadoras como N d (x) es decir el número de las diferentes etiquetas que pueden ser clasificadas en forma binaria por el conjunto I y considerando que el conjunto N puede ser etiquetado en 2 N posibles formas y por tanto N d (x) 2 N , entonces la función creciente es definida como: G( N ) ln(max (N d (x)) x (2.13) El valor máximo de la expresión (2.13) se toma sobre todos los datos del conjunto N , entonces se puede reescribir como: G( N ) N ln 2 (2.14) La consistencia (2.12) expresada en términos de la función creciente indica que para que exista una tasa de convergencia rápida debe satisfacer: lim N G( N ) 0 N (2.15) La expresión (2.15) indica que la relación entre la función creciente G (N ) y el número de muestras N debería disminuir mientras el número de muestras aumenta. La función creciente de un conjunto de 64 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN funciones en la práctica es difícil de calcular, por lo que se considera un límite superior a la función creciente que esta dado por la dimensión VC. Cabe indicar que si la condición (2.15) no es satisfecha, tampoco se satisface (2.12). La relación que existe entre la función creciente y la dimensión VC indica que, para un conjunto de funciones indicadoras la función creciente puede ser lineal o acotada por una función logarítmica, nada puede estar entre la función lineal y logarítmica, es decir la función N (curva punteada) no puede existir, este teorema está representado en la Figura 2.6. N ln 2 G(N) N h( ln(N/h)+1) 0 h N Figura 2.6 Una función creciente, puede ser lineal o acotada por una función logarítmica. Según la estructura de la función creciente90 G ( N ) N ln 2 , ésta crece linealmente si incrementa el número de muestras N . La máquina de aprendizaje es capaz de separar N datos de entrenamiento en todas las posibles formas 2 N y por tanto puede llegar a ser una función ilimitada, pero si existe algún N máximo que permita esta separación, éste número es la dimensión VC denotado por h . Si N h una función logarítmica acota a la función creciente y está dada por: N G ( N ) h ln 1 h (2.16) La dimensión VC es infinita si la función creciente es lineal y es finita e igual a h ( N h ) si la función creciente es acotada por una función logarítmica con coeficiente h es decir: G ( N ) G (h) h ln 2 y por tanto G(h 1) (h 1) ln 2 . La dimensión VC que es una medida más flexible para medir la complejidad de un conjunto de funciones indicadoras. 65 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. Para la tarea de clasificación de dos clases, sea f i (x, w) una función indicadora que puede tomar sólo dos valores, por ejemplo {1,1} , para clasificar un conjunto de N datos, éstos se pueden etiquetar en 2 N posibles formas, si la dimensión VC está definida como el mayor número h de datos que pueden ser separados en todas las posibles formas, entonces si en el conjunto de funciones indicadoras existen miembros que sean capaces de asignar todas las etiquetas correctamente, la dimensión VC de este conjunto de funciones será h N . Para examinar el término "separación" se da un ejemplo de función indicadora en un espacio dimensional 3 como se muestra en la Figura 2.7, donde f i (x, w ) sign ( p) es la función escalón y los datos de entrada son vectores en 2 , si se define al plano como p w0 w1 x1 w2 x 2 , entonces f i (x, w) sign ( w0 w1 x1 w2 x2 ) , ésta función indicadora es un plano que está representada como una línea recta orientada a la que se llama frontera de decisión o función de separación si p 0 y en donde los datos de entrada a una lado de la línea son asignados con "+1" clase 1 y los datos en el otro lado de la línea son asignados con "-1" clase 2, la dirección del vector w indica el lado en que la función indicadora es positiva. p dirección del vector pesos w x1 d= F ro d= C la se C la n te -1 se 1 ra d plano p w 1 ed e c is f i( x,w )=1 ió n 2 f i( x,w )=-1 p=0 x2 Figura 2.7 La función escalón es un ejemplo de función indicadora f i (x, w) sign ( p) ; donde sign 1 para p 0 y sign 1 para el caso contrario. Para clasificar un conjunto de 3 muestras en un espacio 2 , todas las posibles etiquetas que se pueden generar son 2 3 8 . En la Figura 2.8 se muestra como estos datos fueron separados mediante un conjunto de funciones indicadoras en todas las posibles formas, por tanto la dimensión VC h 3 . 66 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN Figura 2.8 Sólo 3 datos pueden ser separados en un espacio de representación 2 por un conjunto de funciones indicadora en las 8 posibles formas. En la Figura 2.9, se representan un conjunto de 4 datos en un espacio 2 , las funciones indicadoras f i (x, w ) sign ( p) no serán capaces de separar a todas las 2 4 16 posibles formas de etiquetado, existirán dos arreglos que no podrán ser separados. Por tanto la dimensión VC para este caso es h 3 . Figura 2.9 El conjunto de funciones indicadoras fi (x, w) sign ( p) no puede separar a 2 de las 16 forma de etiquetado para un conjunto de 4 datos. Pero en un espacio 3 o con una función cuadrática (línea entrecortada) si sería posible. De los dos ejemplos anteriores se puede deducir que para un espacio de entrada n-dimensional, la dimensión VC de un conjunto de funciones indicadoras f i (x, w ) sign ( p) es igual a h n 1 y que es igual al número de parámetros libres del vector pesos w , lo que hace suponer que si se incrementa la dimensión de w también incrementa h , pero esta suposición no es del todo cierta, pues existen funciones que con pocos parámetros la dimensión VC puede ser infinita. Cabe destacar que la dimensión VC inicialmente fue definida para funciones indicadoras y luego extendida a funciones reales, así la dimensión VC de una función de pérdida L( y, f a (x, )) es igual a la dimensión de una función de aproximación f a (x, ) . 67 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. En conclusión, la teoría de Vapnik y Chervonenkis demuestran que la condición necesaria y suficiente, independiente de la distribución para la consistencia de las máquinas de aprendizaje por el método de ERM y que además exista una rápida tasa de convergencia es que la dimensión VC h del espacio de las hipótesis sea finita. La dimensión VC, no es fácil calcular ya que depende: a) de la complejidad del conjunto de funciones de aproximación91 f a (x, ) implementada en una máquina de aprendizaje sobre los datos de entrenamiento y b) del tipo de problema de aprendizaje ya sea este de clasificación o regresión. Incluso si la dimensión VC de un conjunto de funciones no pudiese ser calculada, su concepto es muy importante en la construcción de una estructura sobre la clase de funciones de aproximación en el espacio de las hipótesis implementado en el principio de minimización del riesgo estructural (SRM). 2.7 PRINCIPIO INDUCTIVO DE MINIMIZACIÓN DEL RIESGO ESTRUCTURAL SRM La consistencia del principio de ERM y el concepto de la dimensión VC de una función, proporcionan las bases para controlar la habilidad de generalización de una máquina de aprendizaje, que consiste en obtener la cota más pequeña sobre el error de prueba minimizando el error en el entrenamiento, utilizando un conjunto de funciones con la dimensión VC (capacidad) más pequeña. Minimizar el error en el entrenamiento usando funciones con la dimensión VC más pequeña, son requisitos opuestos y el modelo de máquina está sujeto a elegir entre la exactitud de aproximación a los datos dados y la capacidad del conjunto de funciones utilizado para modelar dichos datos. Para dar solución a este problema, la teoría desarrollada por Vapnik-Chervonenkis derivada de la teoría de aprendizaje estadístico introduce un nuevo principio llamado principio de Minimización del Riesgo Estructural SRM (Vapnik 1995, 1998), que indica que la habilidad de generalización de una máquina de aprendizaje para con los datos de prueba depende de la complejidad y de la capacidad de las funciones implementadas y no del número de parámetros libres que son sujetos del aprendizaje (pesos); lo que conlleva a superar los problemas de trabajar con la dimensionalidad. Si la capacidad del conjunto de funciones tiene una capacidad alta provoca el indeseado sobreajuste así mismo una capacidad demasiada pequeña conduce a un modelado ineficiente de los datos. El principio SRM fue desarrollado para pequeñas muestras de datos. Un conjunto de tamaño N es considerada pequeño si la relación N / h 20 . Donde N representa el número de datos del conjunto 68 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN de entrenamiento y h es la dimensión VC de las funciones implementadas por la máquina de aprendizaje. La SRM selecciona de un gran número de funciones de aproximación (modelos o máquinas) disponibles, la que posee la mejor complejidad (capacidad) para que coincida con la complejidad de los datos durante el entrenamiento. Los modelos utilizados son parametrizados y con aumento del número de parámetros forman una estructura anidada, es decir: H 1 H 2 H 3 . . . H n1 H n . . . H (2.17) Un conjunto de funciones anidada se puede apreciar en la Figura 2.10, donde cada conjunto de funciones en el espacio de las hipótesis H i tiene un dimensión VC hi finita y más grande que el conjunto anterior, es decir h1 h2 h3 . . . hn 1 hn . Además, hay que recordar que H n pueden ser un conjunto de modelos matemáticos, máquinas o funciones de aproximación como por ejemplo las máquinas de soporte vectorial. El objetivo del aprendizaje mediante el principio de SRM es seleccionar una función fˆn, N que minimice el riesgo empírico R emp en H n , y para el cual el riesgo esperado sea mínimo, es decir: fˆn , N arg min Remp ( f N ) f H n (2.18) En lugar de minimizar el riesgo esperado utilizando la función f 0 en el espacio objetivo T , la función fˆn, N es obtenida minimizando el riesgo empírico sobre el más pequeño conjunto de H n . Debido a que el objetivo en el modelado, es elegir una función f n en el espacio de las hipótesis que este más cercano a la función subyacente f 0 que se encuentra en el espacio objetivo, con respecto a alguna medida de error, siempre existirá un error de generalización e gen que es expresado como: egen eapr eest (2.19) Donde eapr es el error de aproximación y eest es el error de estimación. Una representación gráfica del error se puede apreciar en la Figura 2.10. 69 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. subajuste sobreajuste Cota sobre el riesgo mejor modelo Riesgo (Error) Intervalo de confianza Riesgo Empírico (error de entrenamiento) h* egen. Error de f 0 generalización f n,N eest. fn eapr. Error de aproximación Error de estimación Espacio Objetivo U H n ... H U ..... H n-1 U H2 U U H1 h˜ n, capacidad (complejidad) T Espacio de las Hipótesis Figura 2.10 Estructura anidada de las hipótesis; diferentes errores durante el modelado; cota sobre el riesgo esperado y complejidad de un modelo según el principio de SRM El error de aproximación es la consecuencia de que el espacio de la hipótesis sea más pequeño que el espacio objetivo y de que la función subyacente pueda estar fuera del espacio de las hipótesis, una mala selección del espacio del modelo H n resultará en un error de aproximación grande. Este error no depende de los datos de entrenamiento sino únicamente del poder de aproximación de la hipótesis H n , y es expresado como: eapr R( f n ) R( f 0 ) (2.20) El error de estimación proviene de minimizar el riesgo empírico R emp utilizando un finito y disperso conjunto de datos de entrenamiento y de tal aprendizaje resulta el mejor aproximador fˆn, N , que hará que el riesgo empírico mejore si el número de datos N de entrenamiento aumenta, convergiendo al mínimo del riesgo esperado R. Este es un error debido al procedimiento de aprendizaje al seleccionar el modelo no óptimo desde el espacio de hipótesis y puede ser expresado como: eest | Remp ( f ) R( f ) | 70 (2.21) MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN De (2.20) y (2.21) se deduce que la selección del modelo óptimo en función de su capacidad, asegura la minimización del riesgo esperado91. Varias medidas del principio de ERM pueden ser implementadas por el principio SRM como son: el error de generalización R(w n ) , el error de aproximación Remp(wn ) , la dimensión VC h , el número de muestras del conjunto de entrenamiento N y la probabilidad o nivel de confianza 1 . Los pesos w n que definen a los diferentes riesgos son calculados sobre un conjunto de funciones f n (x, w n ) de complejidad creciente. Para la clasificación binaria, seleccionando tal que 0 1 , para una probabilidad de al menos 1 , la siguiente cota existe para el riesgo esperado: R ( w n ) Remp ( w n ) hln ( 2 N / h) 1) ln( / 4) N (2.22) La representación gráfica de esta cota se muestra en la Figura 2.10. El lado derecho de la desigualdad (2.22) define la cota sobre el riesgo, el primer sumando depende de una función específica del conjunto de funciones, mientras el segundo término llamado Intervalo de Confianza depende de la dimensión VC de todo el conjunto de funciones y es un término que disminuye en función del tamaño N del conjunto de entrenamiento y aumenta en función de los parámetros libres de la función de aproximación. Para poder minimizar la cota del riesgo, ambos términos tienen que hacer de la dimensión VC una variable de control. La complejidad del modelo es muy crucial en el aprendizaje a partir de los datos de entrenamiento. Un modelo muy simple ( n muy pequeño) tiene poco poder de representación, es decir pocos parámetros de ajuste y resulta en un error de aproximación (bias) alto, pero presenta un bajo error de estimación (varianza) porque son insensibles a los datos usados. Un modelo más complejo ( n muy grande) en cambio resulta en un bajo error de aproximación porque existen más parámetros que pueden ser ajustados, modelando muy bien sobre los datos de entrenamiento, caso que también debe evitarse debido a que se genera un sobreajuste haciendo que el error de estimación sea muy alto. Con los conceptos de complejidad y error mencionados, para minimizar el riesgo esperado hay un compromiso en elegir entre n y N . Determinar n será siempre más deseable ya que éste define la complejidad del modelo óptimo que se iguala a la complejidad de los datos de entrenamiento dados, un ejemplo de complejidad de modelos se puede ver en la Figura 2.1. 71 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 2.8 GENERALIDADES DE LA CLASIFICACIÓN DE PATRONES La clasificación de patrones92 (o formas) llamado también reconocimiento de patrones, es una disciplina orientada a la transformación de datos de un conjunto de procesos en entidades con significado, capaces de desencadenar en acciones y en tomas de decisión en forma automática. Se utiliza herramientas de estadística, geometría computacional y algoritmos matemáticos con el fin de extraer información a partir de datos de percepción suministrada por un sistema de sensores que adquieren la información del entorno y establecer propiedades comunes, dependencias o regularidades de entre conjuntos de dichos datos para ser definidos en clases o categorías. A continuación se definen los conceptos de algunos términos utilizados en la clasificación de patrones: Un patrón es cualquier objeto, forma, elemento, proceso o procedimiento físico, químico, industrial, etc. que está formada por un conjunto de atributos cuantitativos de entidades o hechos del mundo real. Una clase de patrones es un conjunto de formas que poseen cualidades o atributos semejantes y que se encuentran asociados a alguna categoría semántica. Un atributo es una variable usualmente numérica que caracteriza a un objeto y que puede ser cualquier medida experimental o valor calculado teóricamente que describe la estructura de un patrón, generalmente un atributo es llamado características, por ahora solamente se hace referencia al término atributo para evitar confusión con el llamado espacio de características que se verá más adelante. Una etiqueta es una interpretación, tag o puntero asignado a una entidad con el fin de vincularla a alguna otra entidad. Un clasificador se utiliza para hacer referencia a la función discriminante, que es el resultado de un proceso de entrenamiento y que genera la división de un espacio para asignar un patrón no etiquetado en una clase o categoría concreta conocida. Un conjunto de prueba, es un conjunto de muestras con etiquetas de la clase a la que pertenecen utilizados para la evaluación del rendimiento de un modelo clasificador que ha sido modelado durante la fase de entrenamiento. Un conjunto de entrenamiento, es un conjunto de muestras utilizado para el aprendizaje y optimización de un modelo clasificador. 72 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN El reconocimiento de patrones centra sus estudios en diversas disciplinas de la ciencia y la ingeniería, en la Tabla 2.1 se encuentran algunas aplicaciones basados en el reconocimiento de patrones. Campo o ámbito Aplicaciones Patrones de entrada Clases de patrones Bioinformática Análisis de secuencias ADN, Genoma, Espectrometría de masa, Estructuras proteicas Tipo de genes y estructuras biológicas. Biomedicina Diagnóstico computarizado de enfermedades. Imágenes microscópicas, rayos x, biorritmos, exámenes médicos. Identificación de enfermedades (benigno, maligno). Análisis de Imágenes Lectura para ciegos. Reconocimiento óptico de caracteres y formas. Imágenes, códigos, firmas, escritos a mano o a máquina. Palabras, caracteres alfanuméricos, símbolos. Clasificación de Documentos Filtración de spam. Búsqueda en internet. Correos, documentos de texto. Spam o no spam. Categorías semánticas. Recuperación de Datos Multimedia Búsqueda en internet. Video clips, letras de canciones. Géneros de video, canciones. Reconocimiento Biométrico Identificación personal. Forma del rostro, iris del ojo, huellas dactilares. Autorización de usuarios como accesos de control. Reconocimiento de voz Consulta de guía telefónica asistida. Forma de onda sonora de de la voz. Palabras habladas. Procesamiento de lenguaje natural Extracción de información. Frases, oraciones. Idioma, palabras, dialecto. Minería de datos Búsqueda de patrones significativos. Vectores en un espacio multidimensional. Agrupaciones de acuerdo a características. Automatización Industrial Inspección de procesos de fabricación. Rangos de imágenes, duración. Productos con defectos o sin defectos. Campo militar Reconocimiento automático del objetivo. Imágenes ópticas o infrarrojas. Tipo de objetivo. Tendencias y predicciones Finanzas, clima, mercado, desarrollo. Base de Datos históricos. Datos a priori. Indicadores de evolución. 93 Tabla 2.1 Aplicaciones del reconocimiento de patrones en diferentes disciplinas . En un sistema de reconocimiento de patrones existen dos líneas de procesos en interacción92, como se muestra en la Figura 2.11: 1) La fase de entrenamiento o aprendizaje automático en donde una vez seleccionados el conjunto de datos de entrenamiento y pre-procesada la información, se extraen los atributos y características apropiados para representar los datos de entrada y luego el clasificador es entrenado para dividir el espacio de características, el resultado del entrenamiento es un conjunto de parámetros llamados pesos w que definen a un clasificador o función discriminante que representa la frontera entre clases o regiones categóricas. Las fronteras pueden ser puntos, curvas, superficies e hipersuperficies en el caso 73 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. de que la dimensión de las características de los patrones de entrada sean de una, dos, tres, más dimensiones, respectivamente. 2) En la fase de prueba o de reconocimiento, el modelo del clasificador que ha sido entrenado, asigna a los nuevos datos de entrada a una de las clases según la similitud de sus características. Aprendizaje Automático Adquisiscion de datos del entorno físico-real Muestras patrón Datos de entrenamiento Preprocesamiento Selección / extracción de características Máquina de Aprendizaje (modelo) Muestra incógnita Datos de prueba Preprocesamiento Medición de características Función de decisión "Clasificador" Clase o Categoría Clasificación Figura 2.11 Sistema de Reconocimiento de Patrones. Cada proceso involucra esencialmente tres etapas: a) la adquisición de los datos ya sean estos sensoriales o abstractos y su pre-procesamiento (escalado, filtrado, etc.), b) la representación de los datos como vectores de característica o puntos en un espacio n-dimensional y c) la toma de decisión para la categorización o clasificación de un patrón. Los problemas radican en la selección del sensor que proporcionen la información adecuada, en la técnica de cómo se pre-procesa la información y las distintas estructuras que se puede optar para manipular dicha información así como la identificación de datos con medidas erróneas o valores atípicos y su posterior normalización, en la estructura de los datos que debe contener la información más relevante a través de sus característica más significativas y que en muchos casos pueden reducir su dimensionalidad aprovechando herramientas matemáticas y de software lo que conlleva a un ahorro computacional considerable y finalmente obtener un modelo clasificador que permita tomar decisiones correctas cuando al sistema se le presente nuevos patrones. En el reconocimiento de patrones cuando exista dificultades en la clasificación no se debe tratar de resolver el problema con teorías o técnicas más complejas sino direccionar los esfuerzos en buscar y obtener mejores características que definan mejor a los datos. 74 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN 2.9 CLASIFICACIÓN DE PATRONES CON MÁQUINAS DE SOPORTE VECTORIAL El reconocimiento de patrones implica el desarrollo y la aplicación de algoritmos que pueden reconocer patrones incrustados en los datos. Las máquinas de soporte vectorial SVM, pertenecen a las familia de clasificadores lineales y están dirigidas especialmente a la tarea de clasificación de dos clases. Son modelos matemáticos con una poderosa capacidad de modelado, que implementan el principio inductivo de minimización del riesgo estructural SRM desarrollado dentro de la nueva teoría de aprendizaje estadístico de V. Vapnik, destinadas a resolver problemas de clasificación con una distribución de probabilidad desconocida. Las SVMs son máquina que aprende desde un conjunto de datos de entrenamiento e intenta generalizar y hacer una correcta clasificación sobre nuevos datos. El conjunto de datos de entrenamiento son medidas provenientes de problemas reales, generalmente son limitados, dispersos y de alta dimensión. Las SVMs construyen separadores lineales o hiperplanos de separación94 en espacios de alta dimensión durante el aprendizaje o fase de entrenamiento, adquiriendo el conocimiento necesario desde el conjunto de datos de dos clases. Asumiendo que el conjunto de datos son linealmente separables, la idea es seleccionar un hiperplano que equidiste de los datos de cada clases, es decir el hiperplano que se encuentre en la posición más neutra entre ambas clases sin que este sesgado hacia la clase más numerosa o lo que es lo mismo a seleccionar el hiperplano que maximice la distancia mínima entre las dos clases, pero como puede existir un conjunto infinito de hiperplanos que logren separar correctamente los ejemplos, se implementa un sesgo inductivo llamado margen máximo, que enmarcado en el principio de minimización del riesgo estructural de la teoría de aprendizaje estadístico, equivale a seleccionar el hiperplano de separación con máximo margen (margen geométrico), que es una forma de minimizar la complejidad del conjunto de hiperplanos y a la vez contribuye a mejorar la cota superior sobre el error de clasificación y por ende a tener una mejor generalización para separar a los ejemplos que no participaron en el aprendizaje. Desde el punto de vista logarítmico, las SVMs están planteadas como problemas de optimización convexa que tiene una función objetivo cuadrático con restricciones lineales, que pueden ser tratados con poderosas técnicas actuales de programación cuadrática QP que son muy eficientes al momento de tratar conjunto de datos con muchos ejemplos. La convexidad del problema de optimización garantiza que existirá un mínimo global, que representa una ventaja en comparación con otras máquinas que se ven expuestas a la existencia de mínimos locales. 75 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. Para construir separadores no lineales, cuando el conjunto de entrenamiento tiene ejemplos que no son separables linealmente, se consigue con una transformación no lineal de los atributos del espacio de entrada en un espacio de características de alta dimensión, en donde los datos pueden ser separados linealmente. Para esto se implementa una función kernel o función núcleo que calcula el producto punto o producto escalar en el espacio de características sin calcular en forma explícita la transformación de los datos del conjunto de entrenamiento. Muchas veces, incluso en el espacio de características el conjunto de datos de entrenamiento no son separables linealmente y en ocasiones tampoco se necesita que se puedan separar exactamente, esto debido a que los datos son tomados de procesos o sistemas del entorno real y no están libres de errores, además están embebidos de ruido, de datos mal etiquetados, de valores atípicos (outliers), de atributos mal calculados, de incongruencias, entre otros. Lo que conduce a construir un modelo de SVM que admita ciertos errores por las causas mencionadas y evitar que el hiperplano de separación los tome en cuenta durante su construcción, esto se consigue con las SVMs de margen flexible que admiten ejemplos mal clasificados. La función objetivo a minimizar tiene dos términos, uno representa el margen geométrico y otro es un término de regularización que implementa un parámetro C que debe ser optimizado por el usuario. Encontrar la solución al hiperplano de separación con máximo margen equivale a encontrar los ejemplos sobre los cuales se construye el hiperplano de separación, es decir encontrar los ejemplos de cada clase más cercanos al hiperplano a los que se conoce como vectores soporte que dan el nombre a la máquina. Con el fin de fijar la notación, se va a considerar que el problema de clasificación de dos clases está dado por un conjunto de N datos {( x1 , y1 ), ( x 2 , y 2 ), . . . ( x N , y N )} . Donde cada dato es un par ( xi , yi ) conformado por xi X n e y i Y para i 1 . . .N . El conjunto de N datos está compuesto por muestras a los que arbitrariamente se les llama ejemplos o vectores y son representados con letras o signos con una flecha sobre ellos (por ejemplo x i ). Cada elemento x i es un vector con n atributos en el espacio de entrada n , es decir x i ( x1 , x 2 , . . . , x n ) , donde cada xi es un número real para i 1, 2 , ..., n . Los elementos y i son etiquetas e indica la clase a la que pertenece x i , para la clasificación binaria yi {1, 1} refiriéndonos a la clase 1 si un vector está etiquetada como "+1" o a la clase 2 si el vector está etiquetada con "-1". 76 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN En adelante se abordarán temas relacionados a los hiperplanos como superficies de decisión, luego se hará una descripción y formulación de las SVMs lineales de margen rígido que proporciona las bases para modelos más complejos y robustos tanto para datos separables linealmente como para datos casi separables linealmente; luego se introduce las funciones kernel como método de transformación del espacio de entrada en un espacio de características, así como los kernel utilizado en las SVMs para luego describir y formular las SVMs no lineales de margen flexible orientadas a resolver problemas complejos de la vida real y finalmente se plantea un ejemplo para entender el funcionamiento de la máquina. 2.9.1 HIPERPLANOS COMO SUPERFICIE DE DECISIÓN Un hiperplano95 es una superficie de decisión lineal que divide a un espacio n-dimensional n en dos partes (Figura 2.12), al que se le puede implementar una regla de clasificación de dos clases, los ejemplos que se encuentren a un lado del la superficie de decisión (objetos de color amarillo) son clasificados como una clase y los que se encuentran en el otro lado (objetos de color verde) son clasificados como la otra clase. En el espacio n-dimensional n , la superficie de decisión es un subespacio de dimensión n-1. Para un espacio de dimensión uno, dos, tres o más altas, la superficie de decisión son puntos, curvas, superficies o hiperplanos, respectivamente. Como generalmente los datos son vectores con muchos atributos, entonces la dimensión del espacio es n 3 y la superficie de decisión es llamada hiperplano. C lase 1 C lase 2 Figura 2.12 Izq. La superficie de decisión en 2 es una recta; Der. La superficie de decisión en 3 es un plano. Un hiperplano en forma matemática, para un espacio 3 está definido por un punto P 0 que pertenece al hiperplano y un vector w ortogonal a dicho hiperplano. Figura 2.13. 77 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. Figura 2.13 Representación de un hiperplano. Si P es un punto cualquiera sobre el hiperplano, O es el origen de las coordenadas y los vectores x0 OP0 y x OP representan a los puntos P0 y P respectivamente desde el origen, la condición para que el punto P pertenezca al hiperplano es que el vector x x 0 sea perpendicular a w. El producto escalar o producto punto entre dos vectores perpendiculares es igual a cero w ( x x 0 ) 0 ó lo que es lo mismo w x w x 0 0 , si se define al coeficiente b w x 0 entonces se obtiene la ecuación del hiperplano que es válida para todo n si n 3 . w x b 0 (2.23) Cuando el valor de b cambia en la ecuación del hiperplano, el hiperplano se desplaza de forma paralela a lo largo de la dirección de w dando lugar a hiperplanos paralelos como se observa en la Figura 2.14. Figura 2.14 Hiperplanos paralelos. 78 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN Considerando que un hiperplano está dado por la ecuación H ( x ) w x b , donde w n es el vector de pesos, x n es la representación vectorial de los datos y b es el bias del umbral de decisión, se puede plantear el producto escalar en el espacio n , en donde un hiperplano puede ser escrito como: {x n | w x b 0}, w n , b (2.24) Donde el producto escalar de (2.24) está definido por: n w x wi xi (2.25) i 1 Un hiperplano H ( x ) puede designarse como un par ( w, b) . Un conjunto de datos de entrenamiento puede considerarse separable si existe al menos un hiperplano definido por ( w, b) que separe correctamente a todos los datos, como se muestra en la Figura 2.15, en donde los ejemplos de la clase "+1" se encuentran en el región definida por w x b 0 y los ejemplos de la clase "-1" se encuentran en la región definida por w x b 0 y el hiperplano de separación está definido por w x b 0 . +1 w.xi + b = 0 -1 Clase "-1" w.xi + b < 0 -1 -1 -1 -1 -1 -1 +1 H +1 +1 +1 -1 +1 +1 +1 +1 -1 Clase "+1" w.xi + b > 0 +1 -1 Figura 2.15 Hiperplano H que clasifica datos linealmente separables en las clases"+1" y "-1". La pertenencia de un patrón x k a una clase u otra está dada por una regla de clasificación, tal que: 1 clase ( xk ) 1 si si w xk b 0 w xk b 0 (2.26) 79 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. Si se considera un conjunto de datos de entrenamiento linealmente separables, entonces existe un número infinito de hiperplano que los puede separar de forma correcta a la clase a la que pertenecen y aunque todos éstos hiperplanos clasificadores pueden separar los datos de aprendizaje correctamente sus capacidades de predicción no son iguales. Por ejemplo en la Figura 2.16 el hiperplano (línea roja) ubicado en la proximidad de la frontera de los ejemplos de la clase "+1" podría mal clasificar como "-1" a todos los nuevos ejemplos que estén ubicados muy cerca al hiperplano pero en la región "-1" y de la misma forma un hiperplano (línea azul) ubicado en la proximidad de la frontera de los ejemplos de la clase "-1" podría mal clasificar a nuevos ejemplos "-1" ubicados muy cerca al hiperplano pero que se encuentra en la región "+1". +1 +1 -1 -1 -1 -1 +1 +1 -1 -1 -1 -1 +1 -1 +1 +1 +1 +1 +1 -1 Figura 2.16 Existe un infinito número de hiperplanos que pueden clasificar sin errores los datos de entrenamiento. Entonces el objetivo se centra en hallar el hiperplano de separación o clasificador lineal que maximice la distancia de separación "margen" entre los vectores más cercanos de cada clase con el hiperplano de separación equidistando de las dos clases. El hiperplano con máximo margen se conoce como hiperplano de separación óptimo HSO y está situado en la posición más neutra con respecto a las clases representadas por el conjunto de datos, sin que éste se encuentre sesgado hacia la clase del conjunto de ejemplos más numeroso. La Figura 2.17 muestra un hiperplano HSO que separa los datos en dos clases y tiene la mayor distancia o margen entre los ejemplos de cada clase más cercanos al hiperplano, dichos ejemplos son conocidos como vectores de soporte (representados dentro de un círculo), cabe observar que sólo se considera como vectores de soporte a los vectores que se encuentran en las fronteras del margen del hiperplano de separación óptima. 80 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN HSO +1 -1 -1 -1 -1 -1 -1 0 +1 +1 +1 margen +1 +1 +1 -1 +1 -1 -1 Clase "-1" vectores soporte Clase "+1" +1 -1 -1 Figura 2.17 Hiperplano de separación óptimo con margen amplio y vectores de soporte. 2.9.2 DISTANCIA DE UN HIPERPLANO AL ORIGEN La distancia entre un vector x y un hiperplano H está definida por el par ( w, b) como96: | w x b| d ( x ; w, b) || w || (2.27) Donde el término || w || ( w w) es la norma euclidiana del vector w asociada al producto escalar en el espacio n . Clase "+1" w.xi + b > 0 w Hiperplano H= w.xi + b = 0 |b| ___ ||w|| 0 Clase "-1" w.xi + b < 0 Figura 2.18 Distancia desde un hiperplano H al origen. La distancia entre un hiperplano H y el origen de coordenadas como se muestra en la Figura 2.18, está definida por: d (0, H ) |b| || w || (2.28) 81 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 2.9.3 MARGEN MÁXIMO DE UN HIPERPLANO El hiperplano de separación óptimo HSO está dado por el hiperplano con máximo margen. Dado la representación de los ejemplos con sus respectivas etiquetas de clasificación, es necesario determinar el hiperplano H de máxima separación descrito por la ecuación w x b 0 representado por la línea azul en la Figura 2.19, los dos hiperplanos H 1 y H 2 que pasan a través de los ejemplos localizados en la frontera de las clases "-1" y "+1" respectivamente son hiperplanos paralelos al hiperplano H , representados como líneas punteadas los cuales son diferentes al hiperplano H solamente por el coeficiente b . No existen ejemplos de entrenamiento entre los hiperplanos H 1 y H 2 . Figura 2.19 Hiperplano de separación con margen máximo. Asumiendo que el conjunto de datos de entrenamiento es linealmente separable, se puede reescalar w y b a 1 de forma que la distancia de los vectores más cercanos al hiperplano de separación sea 1/ || w || , así al multiplicar w y b por una constante la distancia no varía. Los hiperplanos H 1 y H 2 tienen la misma forma que H , es decir: H1 : w x b 1 ó w x (b 1) 0 (2.29) H2 : w x b 1 ó w x (b 1) 0 (2.30) Con (2.29), la ecuación (2.28) determina la distancia desde el hiperplano H 1 al origen: 82 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN d (O , H 1 ) | b 1| || w || (2.31) Y con (2.30) la distancia del hiperplano H 2 al origen es: d (O, H 2 ) | b 1 | || w || (2.32) El máximo margen del clasificador lineal (osea del hiperplano de separación óptimo) H , está dada por la distancia entre los hiperplanos H 1 y H 2 , y es una función de la norma euclidiana w, así se tiene: máx margen d (O, H 1 ) d (O, H 2 ) | b 1 | | b 1 | b 1 b 1 2 || w || || w || || w || || w || (2.33) Dado que el algoritmo de la SVM busca el hiperplano de separación w x b 0 con un máximo margen, entonces se debe maximizar 2 / || w || o lo que equivale a minimizar || w || 2 / 2 . Sin embargo maximizar o minimizar las fórmulas anteriores respectivamente no conduce a encontrar el hiperplano de separación óptimo, debido a que debe cumplir ciertas restricciones para que el hiperplano resultante pueda clasificar todos los ejemplos de forma correcta en las dos clases, dichas restricciones son: w xi b 1 w xi b 1 si yi 1 si yi 1 (2.34) Es decir (y como se puede apreciar en la Figura 2.19), todos los ejemplos que se encuentren en la región debajo del hiperplano H 1 deben ser clasificados como negativos y todos los ejemplos que se encuentran en la región sobre el hiperplano H 2 deben ser clasificados como positivos. Matemáticamente, ambas restricciones (2.34) equivalen a: y i ( w x i b) 1 para i 1,..., N . (2.35) De manera que la solución del hiperplano de separación óptimo equidistante a las dos clases, es el hiperplano que maximiza su margen geométrico entre el conjunto de los ejemplos de entrenamiento y el hiperplano, con la restricción de que el margen funcional de cada patrón sea mayor o igual a uno. 83 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 2.10 SVMS LINEALES Las SVMs lineales son el modelo más sencillo e intuitivo y contiene muchas de las ideas fundamentales sobre las que se basan las SVMs no lineales. Una de las condiciones de estas máquinas es que el conjunto de datos de entrenamiento sea finito y linealmente separable en el espacio de entrada, es decir que los datos no necesiten de ninguna transformación para que puedan ser clasificados correctamente (sin errores) en dos clases, otra condición es que el hiperplano de separación óptima tenga el máximo margen. Para aplicar la clasificación de patrones a partir de la teoría de aprendizaje estadístico se debe: 1. Seleccionar un clasificador con el más pequeño riesgo empírico, es decir seleccionar el que menor error comete durante la fase de entrenamiento. 2. Elegir el clasificador de un conjunto de clasificadores que tenga la dimensión VC más pequeña (menor complejidad). En los siguientes apartados se abordará el estudio de las SVMs lineales para los siguientes casos: a. SVM lineales de margen rígido para datos linealmente separables. b. SVM lineales de margen flexible para datos casi linealmente separables. El término "margen rígido" (hard-margin) se emplea para indicar que todos los datos son linealmente separables y que la clasificación se realiza correctamente sin permitir errores por un hiperplano de separación con máximo margen. Los problemas reales traducidos en algún tipo de medida por lo general son linealmente no separables debido a varios errores que pueden haberse cometido durante su obtención, para lo cual más adelante se implementa el término "margen flexible" (soft-margin), el cual proporciona una solución a datos que son casi separables linealmente debido a ruidos y valores atípicos. Ambas formulaciones serán implementadas para el caso en donde el conjunto de datos de entrenamiento no son linealmente separables en el espacio de entrada, para lo cual se implementa las funciones kernel o funciones núcleo que transforma el espacio de entrada en un espacio de características en donde los datos pueden ser separados linealmente por el hiperplano de separación óptimo, que al igual que las anteriores SVMs tiene el margen máximo. 84 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN 2.10.1 SVM LINEAL DE MARGEN RÍGIDO PARA DATOS LINEALMENTE SEPARABLES Para el caso de datos que son linealmente separables, como ya se mencionó anteriormente el conjunto de datos de entrenamiento debe ser finito y el hiperplano seleccionado debe ser el hiperplano de separación óptima HSO w x b 0 que tenga el máximo margen (Figura 2.20). margen máximo HSO +1 -1 -1 -1 -1 -1 -1 w.x i+b > +1 +1 +1 +1 -1 -1 w.x i+b <-1 0 +1 +1 +1 -1 +1 +1 +1 -1 -1 w.x i+b = +1 w.x i+b = 0 w.x i+b = -1 Figura 2.20 Hiperplano de separación optimo para datos linealmente separables. En la Sección 2.9.3 se establecieron las condiciones necesarias para determinar el hiperplano de separación óptimo con el margen máximo. Según la Figura 2.20, dado un conjunto de N datos de entrenamiento {( x1 , y1 ), ( x 2 , y 2 ), . . . ( x N , y N )} un hiperplano definido por la ecuación w x b 0 es construido durante el entrenamiento, los hiperplano w x b 1 y w x b 1 son paralelos al hiperplano w x b 0 y pasan por los ejemplos fronterizos (vectores que están dentro de un círculo) de cada clase, la distancia entre éstos hiperplano fronterizos es el margen máximo (margen geométrico) del hiperplano de separación óptima que necesita ser maximizado y que es igual a 2 / || w || o su equivalente a minimizar || w || 2 / 2 , al que se necesita imponer restricciones para que clasifique correctamente, tal restricción está dada por la expresión (2.35) (margen funcional). Usando la teoría de optimización el problema se plantea mediante la formulación primal. 2.10.1.1 FORMULACIÓN PRIMAL La formulación primal o formulación original para las SVMs lineales de margen rígido, indica que encontrando los valores de w y b se minimiza el siguiente problema de optimización convexa: 85 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 1 Minimizar f ( x ) || w || 2 2 Función objetivo: (2.36) yi (w xi b) 1 para i 1,..., N Sujeto a la restricción: (2.37) La formulación primal es un problema de optimización convexa que consiste en minimizar una función cuadrática bajo restricciones de desigualdad lineal, utilizando programación cuadrática (QP), donde el hiperplano w x b 0 queda definido por los valores de los n atributos del vector de pesos w que indican la importancia de cada una al encontrar el hiperplano solución. Pero esta solución no es eficiente cuando el conjunto de datos de entrenamiento tiene un número de atributos mucho más elevado que el número de ejemplos, lo que conlleva a tener un problema de optimización muy costoso computacionalmente al tratar de encontrar los valores óptimo de w. Actualmente los modelos de las SVMs lineales y no lineales resuelven el problema de optimización utilizando la función de Lagrange, transformando la formulación primal en su formulación dual que presenta algunas ventajas en el proceso de optimización. Existen dos razones para cambiar el problema a una formulación de Lagrange: - La primera es que la restricción (2.37) será reemplazada por las restricciones de los propios multiplicadores de Lagrange, que será mucho más fácil de manejar al involucrar a menos variables para optimizar. - La segunda, que en esta reformulación, la solución se expresa como una combinación lineal de los ejemplos de aprendizaje, es decir sólo aparecerán los ejemplos de entrenamiento en forma de productos escalares, ésta es una propiedad fundamental que nos permitirá generalizar el procedimiento para el caso de datos que no son separables linealmente. 2.10.1.2 FORMULACIÓN DUAL Una manera de resolver el problema de minimización con restricción es aplicar la función Langraniana a la función objetivo (2.36) sujeto a la restricción (2.37). Para que la restricción pueda ser introducida en la función Langraniana debe ser de la forma g i ( x ) 0 , entonces: 86 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN Dado que y i ( w x i b) 1 , se reescribe la desigualdad como 1 y i ( w xi b) 0 , de donde: g i ( x ) 1 yi (w xi b) 0 (2.38) Aplicando los multiplicadores de Lagrange en la formulación primal del problema LP junto con la restricción (2.38) se tiene: maximizar i inf L P ( w, b, A) N f ( x ) i g i ( x ) w ,b i 1 1 2 N || w || i ( 1 y i ( w x i b)) 2 i 1 (2.39) N N 1 N || ( w w) i y i w x i i y i b i i 1 i 1 i 1 2 (2.40) Donde A (1 , 2 , . . ., N ) es el conjunto de multiplicadores de Lagrange con los que se "calibran" los ejemplos de entrenamiento con i 0 , para i 1, . . . , N . Ahora la función objetivo es la función Langraniana en la formulación primal LP ( w,b, A) . Para hallar el punto de silla "saddle" de LP (w,b, A) debe ser minimizada con respecto a las variables primales w, b y maximizar con respecto a las variables duales i , sujeto a la restricción i 0 para i 1, . . . , N pero esto es equivalente a resolver el problema dual de Wolfe (Fletcher, 1987), es decir, a maximizar la formulación primal LP con respecto a la variable i , sujeto a las restricciones de que el gradiente de LP con respecto a w, b debe ser igual a cero y que i 0 . Dado que la restricción de las gradientes igual a cero no es lineal y la función objetivo LP (w,b, A) no es cóncava, el problema dual de Wolfe es un problema de optimización no convexa y puede ser resuelto utilizando las condiciones Karush-Kuhn-Tucker (KKT) como restricciones lineales: a. Condiciones de gradiente: LP ( w, b, A) 0 w (2.41) LP ( w, b, A) 0 b (2.42) 87 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. LP ( w, b, A) 0 w Aplicando (2.41) en (2.42) se tiene: Del mismo modo aplicando (2.42) en (2.40) se tiene: N w i y i x i (2.43) N L P ( w, b, A) 0 i y i 0 b i 1 (2.44) i 1 b. Condiciones de Ortogonalidad: i [ y i ( w x i b) 1] 0 para i 1, . . , N (2.45) c. Condición de Factibilidad Primal: y i ( w x i b) 1 0 para i 1, . . , N (2.46) d. Condición de Factibilidad Dual de no Negatividad: i 0 para i 1, . . , N (2.47) En este punto se puede hacer algunas aclaraciones97: si la restricción (2.37) es infringida en (2.39), es decir cuando y i ( w x i b) 1 y la función LP (w,b, A) incrementa debido al aumento de los correspondientes i , entonces al mismo tiempo w y b deben cambiar para que LP (w,b, A) disminuya para así cumplir con la condición de factibilidad (2.46). De igual forma para que la condición de ortogonalidad (2.45) se cumpla y evitar que i [ y i ( w xi b) 1] llegue a ser un valor negativo muy alto w y b deberán variar asegurando la separabilidad y satisfaciendo la restricción. Cuando la condición (2.46) de factibilidad primal se cumple como una desigualdad, es decir cuando y i ( w xi b) 1 0 entonces i 0 ; pero si y i ( w xi b) 1 0 entonces i 0 y corresponde a los valores que maximizan la función LP (w,b, A) . Resolver la formulación primal LP (w,b, A) equivale a encontrar una solución a las condiciones de KKT, formulando el problema dual de Wolfe que consiste en maximizar W D ( A) en función de los multiplicadores i . Reemplazando (2.43) y (2.44) en (2.40) se tiene: 88 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN Función objetivo: 1N N N N N Maximizar W D ( A) i y i x i j y j x j i j y i y j x i x j i 2 i 1 j 1 i 1 j 1 i 1 N i i 1 Sujeto a las restricciones: i 0 N 1 N i j y i y j ( xi x j ) 2 i , j 1 y i y i 0 i 1 para i 1, . . . , N (2.48) (2.49) La solución de maximizar la función objetivo (2.48) sujeto a las restricciones (2.49) de la formulación dual también es un problema de optimización convexa pero con N variables para i , i 1, . . . N , donde N es el número de muestras del conjunto de entrenamiento. Los i definirán el vector de pesos w y el umbral b para ello se requiere de la aplicación de programación cuadrática (QP) y el algoritmo más utilizado para las SVMs es el de optimización mínima secuencial SMO propuesta por (Platt, 1999). Hay que tener en cuenta que las funciones Langranianas LP y W D provienen de la misma función objetivo (2.36) pero con diferentes restricciones y la solución está dada por minimizar LP ( w,b, A) o maximizar WD (A) , así la función objetivo tendrá el mismo valor en ambos casos. Según la formulación dual no es necesario acceder a los datos originales de cada ejemplo xi , sino que solamente se requiere el producto escalar entre pares de los ejemplos de entrada, esto conlleva a un ahorro computacional cuando el número de características es mucho mayor que el número de ejemplos. 2.10.1.3 VECTORES SOPORTE Al plantear la función Langraniana (2.39), se introdujo los multiplicadores de Lagrange i a cada ejemplo del conjunto de entrenamiento a través de la restricción (2.38). Los elementos del vector A0 (10 , 20 , . . . N0 ) son los multiplicadores de Lagrange que pertenecen a un subconjunto de ejemplos de entrenamiento, de donde si i0 0 entonces los ejemplos xi están exactamente sobre el hiperplano w x i b 1 o w x i b 1 (Figura 2.17), es decir solo si se cumple que el margen funcional sea igual a uno y i ( w x i b) 1 , éstos ejemplos son llamados vectores soporte (SV) y el número de vectores soporte se representan como N SV . 89 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. Por otro lado, los ejemplos de entrenamiento xi donde i0 0 no son importantes para obtener el hiperplano y tienen un margen funcional mayor a uno y pueden ser removidos sin que causen efecto alguno a la solución. Por tanto se puede decir que cualquier modelo de SVM está definido por el conjunto de vectores de soporte y sus correspondientes multiplicadores de Lagrange. 2.10.1.4 HIPERPLANO DE SEPARACIÓN ÓPTIMO Hallados los vectores de soporte y sus respectivos multiplicadores i0 , se puede calcular el vector pesos w, que define el hiperplano de separación óptimo HSO con máximo margen w xi b 0 (ver la Figura 2.20), y se obtiene utilizando la ecuación (2.43), lo que indica que w* se puede expresar como una combinación lineal de los N SV en términos de i0 : NSV w* i0 yi xi (2.50) i 1 El umbral b * del hiperplano de separación óptimo se calcula considerando la condición KKT (2.45), sustituyendo con el vector w* (2.50) y tomando dos ejemplos arbitrarios con diferentes etiquetas de clasificación xi y x j con i0 y 0j positivos respectivamente: Para la etiqueta yi 1 : y i (w xi b) 1 w xi b 1 Para la etiqueta yi 1 : y i (w xi b) 1 (2.51) (w xi b) 1 (2.52) 1 b* ( w * x j w * x i ) 2 (2.53) Igualando (2.51) y (2.52) se tiene: w x i b ( w x j b) Lo que es igual a: b* 1 N SV k y k ( x k x j x k x i ) 2 k 1 (2.54) Se debe tener en cuenta que mientras que w * se determina de manera explícita por el procedimiento de entrenamiento, el umbral b * no, éste se determina de forma implícita. 90 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN Por tanto, la formulación del hiperplano de separación óptimo es: N SV HSO f ( x , A 0 , b*) i0 y i ( xi x k ) b * i 1 (2.55) 2.10.1.5 CLASIFICACIÓN DE NUEVOS DATOS Para clasificar nuevos ejemplos aún no vistos por la SVM, osea el conjunto de datos de prueba, utilizando w * y b * obtenidos durante la fase de entrenamiento se emplea la función sign, que es igual a +1 si su argumento es positivo y -1 si su argumento es negativo. Formulación primal: Para clasificar un ejemplo x k en la formulación primal, está dado por el vector de pesos w y b encontrados por el algoritmo de aprendizaje empleado. f ( x k ) sign ( w x k b) (2.56) Formulación dual: Si se utiliza la formulación dual para la clasificación de nuevos ejemplos x k , se debe tener en cuenta que los ejemplos que no son vectores de soporte, es decir los que tienen i 0 , no influyen en la clasificación del nuevo ejemplo. Después del entrenamiento y luego de haber obtenido el hiperplano de separación óptimo con margen máximo, se puede predecir la clase de pertenencia de un nuevo ejemplo diferente a los usados en el entrenamiento, así la clase a la que pertenece el nuevo ejemplo x k está determinada por (2.26), y dependerá del signo de la expresión w * x k b * . La ecuación (2.55) ofrece la posibilidad de predecir la clase a la que pertenece el nuevo ejemplo solamente utilizando los vectores soporte con sus correspondientes multiplicadores de Lagrange: N SV f ( xk ) sign i0 yi ( xi xk ) b * i 1 (2.57) La ecuación (2.57) presenta una importante ventaja y es que para clasificar el nuevo patrón x k solamente es necesario calcular el producto escalar entre x k y cada vector soporte, lo que significa un 91 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. ahorro en el tiempo de cálculo computacional, tomando en cuenta que el número de vectores de soporte es pequeño comparado con el número de ejemplos del conjunto de entrenamiento N. La solución anterior solo se verifica para datos que son linealmente separables desde el espacio de las entradas pero la ecuación (2.57) puede ser fácilmente adaptable a datos que no son linealmente separables y que deben ser ligeramente modificadas con nuevas variables , que miden la cantidad en la cual las restricciones son violadas al permitir errores causados por ejemplos con valores atípicos o mal etiquetados, lo que da origen a una nueva formulación de SVM de margen flexible. 2.10.2 SVM LINEAL DE MARGEN FLEXIBLE PARA DATOS LINEALMENTE NO SEPARABLES La separación lineal no es una suposición válida para problemas de aplicación de la vida real, en estos casos el algoritmo anterior no encuentra una solución satisfactoria. Con el fin de permitir cierta flexibilidad, cuando los datos son linealmente separables pero existen mediciones erróneas, ejemplos mal etiquetados o valores atípicos (Figura 2.21). Se introduce una formulación avanzada a la SVM anteriormente expuesta que permita manipular dichos casos sin cambiar la familia de funciones de decisión, buscando un hiperplano que separe el conjunto de entrenamiento con el error más pequeño manejando un parámetro C que controla la compensación entre errores de entrenamiento y los márgenes rígidos, creando así un margen flexible que permita algunos errores en la clasificación a la vez que los penaliza. margen máximo HSO +1 +1 -1 -1 -1 -1 0 +1 "outlier" +1 -1 "outlier" -1 +1 "noise" -1 -1 -1 -1 +1 +1 +1 +1 +1 +1 +1 -1 -1 Figura 2.21 Representación de datos que son no separables debido a mediciones erróneas "noise" o valores atípicos "outliers" o ejemplos mal etiquetados. 92 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN Dado un conjunto de N ejemplos {( x1 , y1 ), ( x 2 , y 2 ), . . . ( x N , y N )} . Donde cada ejemplo es un par ( xi , yi ) conformado por el vector xi X n y la etiqueta y i Y para i 1 . . .N representados como se muestra en la Figura 2.22, los datos pueden ser separados linealmente, excepto para un pequeño número de ejemplos, entonces dado que los datos son no linealmente separables, no existe un hiperplano que separe en dos clases el conjunto de entrenamiento sin errores, las ecuaciones (2.36) y (2.37) no proporcionará una solución viable. En las secciones anteriores se determinó que el hiperplano de separación óptima está definido por el par ( w , b ) que es un frontera entre las dos clases de datos "+1" y "-1" y que tiene el margen máximo. La frontera hacia la clase "+1" está definida por el hiperplano w x b 1 mientras que la frontera hacia la clase "-1" está definido por el hiperplano w x b 1 , para el hiperplano de separación óptimo todos los datos de la clase "+1" satisfacen w x b 1 y para los datos de la clase "-1" satisface w x b 1 y el conjunto de entrenamiento de aprendizaje es clasificado sin errores. Para obtener un clasificador óptimo para datos no separables la máquina de soporte vectorial asigna a cada ejemplo una variable no negativa i 0, i 1, . . . , N llamada "variable de holgura" para los ejemplos mal clasificados como se puede observar en la Figura 2.22. Figura 2.22 Hiperplano para datos que son ligeramente no separables y variable de holgura i . Para un ejemplo ( xi , yi ) que pertenezca a la clase "+1", la variable de holgura i está definida como la distancia (escalado por la mitad del tamaño del margen) desde el ejemplo al hiperplano w x b 1 si el patrón xi es positivo y no se encuentra en la región que le corresponde a su clase, caso contrario si el ejemplo fue clasificado correctamente y se encuentra en su región correspondiente i 0 , es decir: 93 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 1 (w xi b) i (w,b) 0 w xi b 1 si w xi b 1 si (2.58) De igual forma para un ejemplo ( xi , yi ) de la clase "-1", la variable de holgura está definida como la distancia (escalado por la mitad del tamaño del margen) desde el ejemplo al hiperplano w x b 1 si el ejemplo xi es negativo y no se encuentra en la región que le corresponde a su clase, caso contrario si el ejemplo es clasificado correctamente y se encuentra en su región correspondiente i 0 , así: 1 (w xi b) i (w,b) 0 w xi b 1 si w xi b 1 si (2.59) De las ecuaciones (2.58) y (2.59) y de la Figura 2.22 se observa que la variable de holgura i ( w, b) es igual a cero para todos los ejemplos "+1" clasificados correctamente por el hiperplano w x i b 1 y para todos los ejemplos "-1" clasificados correctamente por el hiperplano w x i b 1 . Por otro lado la variable de holgura i ( w, b) tiene una distancia positiva que mide la distancia entre un ejemplo xi y el correspondiente hiperplano w xi b yi . Para los ejemplos de la clase "+1" situados en la región comprendida entre los hiperplanos H y H 1 , y para los ejemplos de la clase "-1" situados en la región comprendida entre los hiperplanos H y H 2 , la variable de holgura toma valores entre 0 y 1 y no son considerados como mal clasificados pero tiene una penalización añadida a la función objetivo. Si algún ejemplo xi está localizado en una región de la clase que no le corresponde como los ejemplos encerrados en un cuadrado en la Figura 2.22, entonces la variable de holgura es mayor a uno i ( w, b) 1 y el ejemplo es considerado como clasificado erróneamente, combinando las ecuaciones (2.58) y (2.59) para la variable de holgura de las dos clases de ejemplos, se tiene: 1 yi (w xi b) i (w,b) 0 yi (w xi b) 1 si yi (w xi b) 1 si (2.60) Cuando las variable de holgura son introducidas para cada ejemplo para penalizar aquellos ejemplos que son mal clasificados o son ejemplos que están situados en las zonas comprendidas entre el hiperplano H y los hiperplanos paralelos H 1 y H 2 las restricciones que se imponen a la función objetivo son las siguientes: 94 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN w xi b 1i w xi b 1 i si yi 1 si yi 1 donde i 0, i 1, . . ., N (2.61) Matemáticamente, ambas restricciones de (2.61) equivalen a: yi (w xi b) 1 i (2.62) Con la formulación de la ecuación (2.62), la labor de encontrar el hiperplano de separación óptimo es mucho más difícil porque el clasificador está comprometido a dos condiciones opuestas. La primera condición es que el mejor hiperplano clasificador con el margen más amplio posible garantice un buen rendimiento en la predicción de nuevos ejemplos que se obtiene con la minimización de la función objetivo (2.36). La segunda condición es que el hiperplano se separación optimo debe minimizar el número de errores de clasificación y por tanto minimizar el error de clasificación de los ejemplos que se traduce en minimizar el número de variables de holgura positiva y a la vez minimizar el valor de cada variable de holgura. La segunda condición tiene la tendencia de disminuir el ancho del margen del hiperplano óptimo de clasificación que es una contradicción a la primera condición. Una manera sencilla de combinar estas dos condiciones y asignar una penalización a los errores de clasificación es cambiar la función objetivo (2.36) a ser minimizada introduciendo un término de regularización que depende de las variables de holgura y que establece un compromiso entre el margen y la magnitud de las mismas, así: f (x) 1 2 || w || 2 maximizar el margen k N C i 1 i (2.63) minimizar error de entrenamie nto Cabe notar que las SVM están enmarcadas en el principio SRM, que indica que cota superior de generalización está dada por dos términos como en (2.36), el término que minimiza el error empírico o error de entrenamiento y el término de complejidad o dimensión VC que en este caso está sujeto al máximo margen del hiperplano, el mismo que representa que posee la mejor capacidad de separación y la solución se establece en controlar ambos términos simultáneamente, en este caso por medio de C . 95 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 2.10.2.1 PARÁMETRO C El término de regularización incluye una constante C que es un parámetro que puede ser ajustado por el usuario y determina la holgura del margen flexible aumentando o disminuyendo la penalización para los errores de clasificación. margen máximo margen máximo HSO +1 +1 -1 -1 -1 -1 -1 +1 -1 -1 -1 0 +1 +1 +1 -1 HSO +1 "noise" +1 +1 +1 -1 -1 -1 +1 -1 -1 0 +1 -1 +1 "noise" -1 -1 -1 -1 -1 a +1 +1 +1 +1 +1 +1 +1 +1 +1 -1 -1 b Figura 2.23 Influencia del parámetro C: a) con valor C grande b) con valor de C muy pequeño. - Cuando C tiene un valor grande (Figura 2.23a) para cada i diferente de cero, tiene una gran contribución en la función (2.63) y se asigna una penalidad muy alta a la clasificación de errores minimizando así el número de ejemplos de entrenamiento mal clasificados a la vez que disminuye el margen siendo equivalente a una SVM de margen rígido. - Si C toma un valor pequeño (Figura 2.23b) para cada i diferente de cero, tiene una muy pequeña contribución a la función (2.63) y maximiza el margen de modo que el hiperplano de separación óptimo es menos sensible a los errores del conjunto de aprendizaje y puede que haya demasiados datos de entrenamiento mal clasificados además que el vector de pesos w adquiere una norma muy pequeña. En general el parámetro C tiene que ser seleccionado para el conjunto de datos y manipulado por el usuario u optimizado por medio de alguna estrategia automática de selección. Es obvio que utilizando un valor muy grande de C equivale a tener una SVM de margen rígido, resultando en un buen hiperplano, sin embargo este no es el caso común, por lo que usando una SVM de margen flexible y optimizando el valor de C es más beneficioso. 96 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN La ecuación (2.63) es un problema de programación convexa y tanto para k 1 o k 2 siguen siendo un problema de programación cuadrática, con k 1 tiene la ventaja que ninguna variable de holgura i y sus multiplicadores de Lagrange no aparecen en la formulación del problema dual de Wolfe. Con estas consideraciones se establece la formulación primal para un clasificador lineal y errores de clasificación. 2.10.2.2 FORMULACIÓN PRIMAL La formulación primal para las SVM lineales de margen flexible, está dada en la siguiente expresión: Función objetivo: Sujeto a las restricciones: N 1 Minimizar f ( x ) || w || 2 C i 2 i 1 yi (w x b) 1 i i 0 (2.64) para i 1,..., N (2.65) Con C 0 , es parámetro definido por el usuario. La restricción y i ( w x b) 1 i significa que cada ejemplo xi es clasificado correctamente o clasificado incorrectamente pero que se encuentra dentro de la distancia separación, es decir su error de clasificación se encuentra limitado por i desde el hiperplano de i que es mayor a cero. El problema de optimización de la formulación primal para un clasificador de margen flexible requiere encontrar los valores de n variables del vector de pesos w y de N variables de holgura i que definan el hiperplano w x b 0 , que puede ser muy costoso computacionalmente si el conjunto de datos de entrenamiento tiene un gran número de características. Como en el caso del algoritmo de la SVM lineal de margen rígido, se puede replantear la formulación primal de la SVM lineal de margen flexible a su formulación dual de Lagrange, matemáticamente equivalente, pero que presenta menos variables a optimizar. 97 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 2.10.2.3 FORMACIÓN DUAL Para resolver el problema de optimización cuadrática restringida de la formulación primal, se aplica la función Langraniana Lp , definiendo los multiplicadores de Lagrange A (1 , 2 , . . ., N ) para cada restricción y i ( w x b) 1 i y los multiplicadores de Lagrange M ( 1 , 2 , . . ., N ) para cada restricción i 0 para i 1, . . . , N . Las restricciones (2.65) para poder ser introducidas en la función Langraniana tienen que ser de la forma g i ( x ) 0 y hi ( x ) 0 , cambiando la notación se tiene: g i ( x ) 1 i y i ( w x b) 0 (2.66) hi ( x ) i 0 (2.67) Teniendo en cuenta esta notación y aplicando la función primal Langraniana a la función objetivo (2.64) y las restricciones (2.66) y (2.67) se tiene: maximizar i , i N N inf L ( w , b , A , M ) f ( x ) g ( x ) i hi ( x ) P i i w ,b i 1 i 1 N N N 1 2 || w || C i i [1 i y i ( w x b )] i ( i ) i 1 i 1 i 1 2 (2.68) N N N N N N 1 2 || w || C i i y i ( w x i ) i y i b i i i i i i 1 i 1 i 1 i 1 i 1 i 1 2 (2.69) Para encontrar el límite inferior del problema de minimización primal, al igual que en las SVM lineales de margen rígido, se resuelve el problema dual de Wolfe maximizando la formulación primal LP y utilizando las condiciones Karush-Kuhn-Tucker (KKT) como restricciones lineales: a. Condiciones de gradiente: LP ( w, b, A, M ) 0 w LP ( w, b, A, M ) 0 b Aplicando las derivadas parciales (2.70) en (2.69) se tiene: 98 L P ( w , b , A, M ) 0 i (2.70) MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN LP ( w, b, A, M ) 0 w N w i y i x i (2.71) i 1 N LP ( w, b, A, M ) 0 i y i 0 b i 1 (2.72) N N L P ( w , b , A, M ) 0 C i i 0 C i i 0 i i 1 i 1 (2.73) b. Condiciones de Ortogonalidad: i [ y i ( w x i b) 1 i ] 0 para i 1, . . , N (2.74) i 1, . . , N (2.75) c. Condición de Factibilidad Primal: yi (w xi b) 1 i 0 para d. Condición de Factibilidad Dual de no Negatividad: i 0 i 0 i 0 i i 0 para (2.76) i 1, . . , N Reemplazando las condiciones de gradiente KKT (2.70), se tiene la formulación dual de Wolfe que equivale a encontrar los multiplicadores i que maximicen L D ( A) . Función objetivo: 1N 2 i 1 N N N N i 1 i 1 j 1 N N N i 1 i 1 i 1 Maximizar LD ( A) i yi xi j y j x j C i i j yi y j xi x j i i i i i j 1 N N 1N N i i j yi y j xi x j i (C i i ) 2 i 1 j 1 i 1 i 1 N i i 1 1 N i j yi y j ( xi x j ) 2 i , j 1 (2.77) 99 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. Sujeto a las restricciones: 0 i C y N i y i 0 i 1 para i 1, . . . , N (2.78) Se observa que la función dual de la SVM de margen flexible es idéntica a la función dual de la SVM de margen rígido, solamente difiere en el valor de las restricciones. El vector peso w* se obtiene de la misma forma que en la SVM lineal de margen flexible, utilizando la ecuación (2.71). El umbral b * es obtenido como en la ecuación (2.54) pero solamente con los ejemplos de entrenamiento arbitrarios de las dos clases que tienen los multiplicadores de Lagrange comprendidos en el intervalo: 0 i C que son los que representan los vectores soporte, la deducción b * de proviene de las condiciones de KKT, de la ecuación (2.74) y reemplazando el multiplicador i de la ecuación (2.73) en la cuarta condición de (2.76), obteniendo: i [ yi (w xi b) 1 i ] 0 ; (C i ) i 0 (2.79) De las ecuaciones anteriores se tiene que la variable de holgura i 0 sí i C , es decir b * será promediada solamente utilizando aquellos ejemplos que tiene variable de holgura igual a cero y caen sobre los hiperplanos de separación. Analizando la relación que existe entre la posición de un ejemplo xi y los correspondientes valores i , i y C de distinguen las siguientes situaciones9. 1. ( i 0; i 0) : Cuando los multiplicadores de Lagrange i 0 , los ejemplos de entrenamiento se encuentran en las regiones que le corresponde a su clase y ninguno de ellos son vectores soporte y no son importantes para definir el modelo de la SVM, no influyen en la solución y pueden ser borrados del aprendizaje sin ningún efecto; si i 0 implica que no existen errores de clasificación, en esta situación los ejemplos se encuentran clasificados correctamente dentro de sus respectivas regiones w x i b 1 para la clase "+1" y w x i b 1 para la clase "-1" es decir la distancia desde el hiperplano de separación al ejemplo es más grande que 1/ || w || . 100 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN 2. (0 i C; i 0) : En esta situación con i 0 implica que no existe errores en la clasificación de los ejemplos que cumplen esta igualdad; para el multiplicador de Lagrange comprendido en este intervalo 0 i C indica que se trata de los ejemplos que se encuentran sobre los hiperplanos (Figura 2.22) H 2 : w xi b 1 y H 1 : w xi b 1 , la distancia entre estos ejemplos y el hiperplano de separación es 1/ || w || , estos son los llamados vectores soporte. 3. ( i C;0 i 1) : Los ejemplos que cumplen con estas condiciones son clasificados correctamente por el hiperplano de separación óptima (Figura 2.22), pero son los ejemplos de la clase "+1" que se encuentran en la zona comprendida entre el hiperplano H : w x i b 0 y el margen del hiperplano de la región "+1" H 2 : w xi b 1 y también son los patrones de la clase "-1" que se encuentran en la zona comprendida entre el hiperplano H : w x i b 0 y el margen del hiperplano de la región "-1" H 1 : w xi b 1 ; la distancia de esto ejemplos al hiperplano de separación es más pequeño que 1/ || w || . 4. ( i C; i 1) : Estos ejemplo son los que están clasificados incorrectamente, los ejemplos de la clase "+1" están situados en la región de la clase "-1" definido por el hiperplano w x i b 0 mientras que para los patrones de la clase "-1" se encuentran en la región de la clase "+1" definido por el hiperplano w x i b 0 . De igual forma, para definir el hiperplano óptimo se utiliza la ecuación (2.55) y para la clasificación de nuevos ejemplos x k se aplica la función signo de la ecuación (2.57) que solo depende de los vectores soporte y sus respectivos multiplicadores de Lagrange y el valor óptimo de b * , el vector w * no necesita ser calculado. Cabe mencionar que la dimensión del vector w * no es importante. 2.11 SVMS NO LINEALES En las dos modelos anteriores de SVMs lineales tiene aplicaciones muy limitadas para problemas en donde las clases no se sobreponen y el hiperplano de separación puede ser una superficie lineal. En la Figura 2.24 se puede ver como el conjunto de datos no es linealmente separable como sucede en problemas de la vida real, no existe una superficie de decisión lineal que pueda separar las dos clases de datos sin errores, pero se observa en el desarrollo anterior de las SVM lineales con margen flexible para 101 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. datos no linealmente separables que depende de la existencia de un producto escalar o producto punto en el espacio de entrada (ecuaciones 2.71 y 2.77), que será esencial para tratar este tipo de problemas. x2 Espacio de entrada Clase "-1" Clase "+1" x1 0 Figura 2.24 Ejemplo de un conjunto de datos no linealmente separable. En el aprendizaje se quiere tener la capacidad de generalizar a los datos desconocidos, en el caso de reconocimiento de patrones significa que dado un conjunto de nuevos ejemplos o conjunto de datos de prueba x X se quiere predecir su correspondiente clase y {1} , de modo que exista algún sentido similar a los ejemplos de entrenamiento, en este sentido se necesita introducir conceptos de similitud entre X e y . Caracterizar la similitud de las salidas y es fácil en la clasificación binaria en donde ocurren únicamente dos situaciones, las etiquetas de las salidas pueden ser idénticas o diferentes. La selección de una medida de similitud para las entradas es un tema de fondo que representa el núcleo de las máquinas de aprendizaje. Considerando como medida de similitud a la forma9: K:X X , ( x , x ') K ( x , x ') (2.80) La expresión (2.80) representa un número real caracterizado por su similitud. La función K es conocida como una función kernel. La medida de similitud de esta forma, generalmente es difícil de estudiar, pero existe una medida que matemáticamente es más fácil de tratar como lo es el producto escalar o producto punto. Por ejemplo, dado dos vectores x y x ' n el producto punto está definido como: N ( x x ' ) [ x ] i [ x ' ] i i 1 102 (2.81) MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN Donde [ x]i indica a iésima entrada de x . En donde la interpretación geométrica del producto escalar es el cálculo del coseno del ángulo entre el vector x y x ' siempre que sean normalizados a longitud 1, además que permite calcular la longitud o norma de un vector x como || x || ( x x ) . De igual forma la distancia entre dos vectores es calculado como la longitud del vector diferencia, por tanto si se calcula el producto escalar equivale a ser capaz de llevar a cabo todas las construcciones que pueden ser formulados en términos de ángulos, longitud y distancia. Con de fin de ser capaces de utilizar el producto escalar como una medida de similitud es necesario representar los vectores en algún espacio de producto escalar, dicho espacio es conocido como espacio de características y está representado por h qué no necesariamente coincide con la dimensión n . 2.11.1 MAPEO DE LOS DATOS DE ENTRADA AL ESPACIO DE CARACTERÍSTICAS El hiperplano de separación o superficie de decisión en muchos problemas de clasificación podrían no ser lineales, pero las máquinas de soporte vectorial pueden ser extendidas para manipular datos no separables linealmente construyendo una superficie de separación no lineal utilizando funciones características (x ) . La ampliación de las SVMs a conjuntos de datos no lineales se basa en el mapeo de las variables de los ejemplos de entrada n en un espacio de características de dimensión mucho más alto h que es un espacio de Hilbert de dimensión finita o infinita y realizar una clasificación lineal en este espacio de alta dimensión. Espacio de características R h Espacio de entrada Rn x2 Clase "-1" O(x) Clase "-1" Clase "+1" 0 Clase "+1" x1 Figura 2.25 Los datos en el espacio de entrada son mapeados a un espacio de mayor dimensión donde pueden ser separados a través de un hiperplano. 103 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. En la Figura 2.25 se considera un conjunto de datos no separables linealmente en el espacio de entrada en donde no se puede implementar un clasificador lineal y no podrían ser clasificados incluso con las variables de holgura las SVMs de margen flexible vistas anteriormente pero sí podrían ser clasificados en un espacio de características en donde con la ayuda de las funciones características (x ) se transforma y combina los atributos originales de los ejemplos mapeándolos a un espacio de alta dimensión h en donde si pueden ser separados por un hiperplano lineal, ésta propiedad es de vital importancia y puede ser usada para las SVMs anteriores y generalizarlas para problemas donde los datos no son separables linealmente. Considerando un conjunto de N ejemplos de entrenamiento y cada uno con sus respectivas clases {(x1 , y1 ),( x2 , y 2 ), . . . ( x N , y N )} donde cada x i es un vector con n atributos en el espacio de entrada n es decir xi ( x1 , x 2 , . . . , x n ) . Definiendo un conjunto de funciones características como 1, 2 , . . . , h . Cualquier ejemplo es mapeado a un vector real (x ) de la siguiente forma: x ( x1 , x2 , . . . , xn ) ( x ) (1 ( x ), 2 ( x ) . . . , h ( x )) (2.82) Luego de realizar el mapeo de los N ejemplos de entrenamiento en un conjunto de características, se obtiene los puntos en el espacio de características h : {( ( x1 ), y1 ), ( ( x2 ), y2 ), . . . ( ( x N ), y N )} (2.83) Si las funciones de características (x ) fueron seleccionadas apropiadamente para mapear el conjunto de entrenamiento (inicialmente no separables linealmente), se espera que el conjunto (2.83) pueda ser separable linealmente en el espacio de características aplicando la formulación de las SVMs lineales. De la misma forma se espera que este enfoque conduzca a la solución de un problema de optimización con restricciones lineales de desigualdad en el espacio h . Si se sustituye los vectores x por sus vectores características (x ) en la SVM de margen flexible, el problema de optimización es similar a (2.64) con las restricciones de (2.65) y la función de decisión para nuevos ejemplos (2.57) estará determinado por: N SV f ( xk ) sign i0 yi [ ( xi ) ( xk )] b * i 1 104 (2.84) MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN La función (2.84) que es un hiperplano de decisión (clasificador lineal) en el espacio de características h creará una hipersuperficie de separación no lineal en el espacio de entrada n . En la Figura 2.26, se presenta un ejemplo de un conjunto de datos que no son linealmente separables en el espacio de entrada y que pueden ser separados en un espacio de características. Figura 2.26 Los datos en el espacio de entrada x1 , x 2 son mapeados a una función característica x12 . El conjunto de datos consta de 9 puntos ubicados en un espacio de R 2 de coordenadas x1 , x 2 en donde los puntos rojos pertenecen a la clase "+1" y los puntos azules pertenecen a la clase "-1", en el espacio de entrada estos ejemplos no pueden ser separados por un clasificador lineal. Las funciones características son combinaciones de los datos de entrada, así se aumenta una coordenada x12 , después de la transformación se representan en un espacio de mayor dimensión, es decir R 3 . Adhiriendo la superficie x12 como una función característica, se mapea los datos de entrada sobre esta superficie cóncava y se puede observar que los ejemplos de la clase "+1" quedan en la parte inferior mientras que los ejemplos de la clase "-1" se ubican en la parte superior, con esta forma ya puede construir un hiperplano que separe las clases (existe un infinito hiperplanos) como se puede ver en la Figura 2.27, la intersección entre el espacio de características y el hiperplano (plano) de separación definen las fronteras de decisión, que son dos líneas rectas en el espacio de entrada. 105 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. Figura 2.27 Hiperplano de separación en el espacio de características y frontera de decisión. No existe un procedimiento que indique que tipo de funciones características son las más adecuadas para una separación óptima, además existe otro problema al momento de seleccionar la dimensión del espacio de características debido a que computacionalmente puede ser intratable si el número de características es muy grande, incluso el espacio de características podría ser infinito. Afortunadamente en la función (2.84) existe el término ( xi ) ( xk ) , que es una propiedad muy importante para los clasificadores no lineales ya que solo es suficiente conocer el producto escalar y no es necesario conocer en forma explícita las funciones (x ) . 2.11.2 FUNCIONES KERNEL PARA SVM Transformar el espacio de entrada a un espacio de características de más alta dimensión usando las funciones (x ) y permitir la clasificación es la esencia de las SVMs pero lo que ahora se busca es eliminar el producto escalar de las funciones (x ) que puede conducir a un espacio demasiado alto, para ello se introduce una nueva clase de funciones especiales llamados funciones kernel o funciones núcleo, que permiten calcular el producto escalar en el espacio definido por el conjunto de datos de entrenamiento, es decir en el espacio de entrada en lugar de hacerlo en el espacio de características 8. Una función kernel es: K ( xi , x j ) ( xi ) ( x j ) 106 Donde K ( xi , x j ) : n R n (2.85) MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN La expresión (2.85) se puede definir sólo bajo ciertas condiciones, sea K una función simétrica positiva en el espacio de entrada, puede representar un producto escalar en el espacio de características si satisface las condiciones de Mercer98 (Vapnik, 1995): K ( xi , x j ) ak k ( xi ) k ( x j ) , ak 0 k 1 K ( x i , x j ) g ( x i ) g ( x j ) dx i dx j 0 g L 2 ( R n ) (2.86) (2.87) Donde g () es cualquier función con una norma L2 finita en el espacio de entrada, es decir una función para la cual g 2 ( x ) d x . Las condiciones de Mercer, según la teoría de Hilbert-Schmidt (Courant y Hilbert, 1953), caracterizan a las funciones simétricas aceptables K ( xi , x j ) (Mercer, 1909). Como ejemplo, sea un vector x i ( x1 , x 2 ) 2 y sean las funciones características de dicho vector ( x ) ( x12 , x 22 , 2 x1 x 2 ) . La función kernel correspondiente a partir de las funciones características es: K ( xi , x j ) ( xi ) ( x j ) ( xi x j ) 2 (2.88) Entre las funciones kernel utilizadas frecuentemente en el reconocimiento de patrones por medio de las SVMs se presentan a continuación: Kernel lineal: El producto escalar definen a este kernel. Es utilizado generalmente como una prueba de no linealidad en el conjunto de datos de entrenamiento, así como cuando el conjunto de datos es disperso. K ( xi , x j ) xi x j (2.89) Kernel polinomial: Este es un método simple y eficiente para modelar conjunto de datos no separables linealmente. K ( xi , x j ) ( p xi x j ) d p , d (2.90) Tiene como desventaja que mientras aumenta el grado del polinomio d la hipersuperficie de decisión se hace más compleja, ajustándose cada vez más a los datos, lo que conlleva a un sobreajuste. Kernel Gaussiano RBF: Son las más utilizadas y recomendadas cuando no existe información del comportamiento de los datos, la salida del kernel es dependiente de la distancia euclidiana 107 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. || xi x j || 2 donde uno será un vector soporte y el otro un dato de prueba. El parámetro libre determinará el área de influencia que este vector soporte tiene sobre el espacio de datos aumentando o disminuyendo el ancho de la campana y puede optimizarse utilizando técnicas de validación cruzada. || xi x j ||2 K ( xi , x j ) exp 2 2 0 (2.91) Kernel Exponencial: Son kernel utilizados para cuando el hiperplano acepta discontinuidades. || x i x j || (2.92) K ( x i , x j ) exp 0 2 2 Kernel Sigmoidal: Utiliza la función tangente hiperbólica, con una forma sigmoide, muy utilizada como función de transferencia en redes neuronales artificiales. K ( x i , x j ) tanh( sx i x j r ) s, r (2.93) En la Figura 2.28 es la representación gráfica del ejemplo planteado en la Sección 2.11.1 utilizando una función kernel polinomial (2.90) con p 0 y d 2 . Los datos fueron mapeados a un espacio de características en donde pudieron ser separados fácilmente por un plano. El kernel polinomial (2.88) es K ( x i , x j ) ( x i ) ( x j ) ( x i x j ) 2 y la función ( x ) ( x12 , x 22 , 2 x1 x 2 ) . Figura 2.28 Representación del mapeo de de los datos en un espacio de características utilizando una función kernel polinomial de grado 2. 108 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN 2.11.3 SVM NO LINEALES DE MARGEN RÍGIDO En la Figura 2.29, se muestra la estructura de un clasificador no lineal de una máquina de soporte vectorial, la capa de entrada está representada por los vectores soporte x i para i 1, . . . , N SV y por los ejemplos del conjunto de prueba x k que son transformados y mapeados a un espacio de características por el producto escalar de la función kernel con cada uno de los vectores soporte. Los valores proporcionados por el kernel seleccionado se multiplican con los multiplicadores de Lagrange formado por todos aquellos multiplicadores diferente de cero, y la salida es un clasificador no lineal (2.84), en donde el producto escalar de las funciones características es reemplazado por la función kernel K ( xi , x j ) . Las SVMs no lineales de margen rígido son similares a las presentadas en la Sección 2.10.1 en cuanto en su formulación matemática, únicamente difiere en que los vectores x i son reemplazados por sus funciones características ( x i ) y luego el producto escalar de dos funciones características es reemplazado por una función kernel. Figura 2.29 Estructura de las máquinas de soporte vectorial no lineales, para datos no separables linealmente. De este modo la función de decisión para un clasificador SVM no lineal de margen rígido, está definido por los vectores soporte con sus correspondientes multiplicadores de Lagrange i 0 y la función kernel K ( xi , x j ) : N SV f ( x k ) sign i0 y i K ( xi x k ) b * i 1 (2.93) 109 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 2.11.4 SVM NO LINEALES DE MARGEN FLEXIBLE Como ya se ha mencionado anteriormente, la mayor parte de los casos los problemas de aplicación de las SVMs se enfoca a resolver problemas en donde las clases se traslapan sobre la otra clase, datos que presentan ruidos en su medición, datos mal etiquetados, inconsistencias, datos dispersos y más, para lo cual las máquinas de soporte vectorial no lineales de margen flexible, es un modelo robusto y eficiente, su formulación es obtenido de forma similar a la SVM lineal de margen flexible de la Sección 2.10.2, en donde se introdujo la variable de holgura i para ser más flexible y penalizar los errores debido a las causas de error ya mencionadas y un término C para controlar la capacidad del modelo de la máquina por parte del usuario. Usualmente el valor de C se determina con técnicas de validación cruzada tratando de optimizar la cota superior de generalización descrita en el principio de SRM. La función de decisión para esta máquina es similar a (2.93). 2.12 ALGORITMO DE LA SVM En la Figura 2.30 está representado los pasos de cómo se procesa el algoritmo de una SVM para hallar la función de decisión o clasificador a partir de un conjunto de datos de entrenamiento y que permita asignar la etiqueta correcta a cualquier ejemplo del conjunto de datos de prueba. Figura 2.30 Algoritmo simplificado para encontrar un clasificador a través de la SVM. 110 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN En la figura anterior están esbozados en forma muy general los pasos para obtener la función de decisión de un problema de clasificación utilizando las máquinas de soporte vectorial, en forma resumida estos pasos son: 1. Determinar el tipo de problema e identificar la información q priori como separabilidad del conjunto de datos, dimensionalidad, rango, entre otros, que serán de importante ayuda para la elección del modelo de SVM a aplicar, así como de su función kernel y demás parámetros. 2. No existe un procedimiento para determinar la función kernel a utilizar por lo que su elección se hace en un proceso de prueba y error, ajustando parámetros de los kernel disponibles y 3. Se construye la matriz kernel H comparando resultados. , llamada matriz Hessiana que debe ser definida semi-positiva que garantiza la convexidad del problema y por tanto la existencia de la solución, esta matriz H está formada por algunos términos de la función objetivo de la formulación dual de Wolfe (2.48). i, j y i y j K ( xi x j ) 4. Se aplica el algoritmo de optimización mínimo secuencial SMO (propuesto por Platt, 1999 99) a la matriz Hessiana para hallar los multiplicadores (bloque de procesos del centro y la derecha de la Figura 2.30). La función objetivo a maximizar esta dado por la ecuación (2.48) y (2.49) y su formulación cambia para el aprendizaje, así: 1 Wd ( A) f T T 2 H Maximizar sujeto a y T 0 , 0 Donde se utiliza el vector unitario f [1, 1, . . , 1]T 5. Durante la optimización se verifica la condición de terminación, si ésta no se ha cumplido aún se procede a una nueva iteración. La condición de terminación generalmente se establece con un valor menor a un umbral predeterminado. 6. Finalmente, con los valores óptimo de y sus correspondientes vectores soporte se construye la función de decisión, que permitirá la clasificación correcta de nuevos ejemplos. 2.13 EJEMPLO DE APLICACIÓN DE LAS SVMS Para ilustrar la capacidad de las máquinas de soporte vectorial SVM de margen flexible para construir hipersuperficie no lineales, se considera el conjunto de datos de la Tabla 2.2. 111 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. Dato 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 x1 1.0 0.6 0.3 0.4 -0.1 -0.2 -0.4 -0.5 -0.9 -0.7 -0.4 -0.1 -0.3 0.2 0.2 0.4 0.6 0.6 0.5 0.9 x2 0.0 0.2 0.5 0.9 0.0 0.6 0.8 0.3 0.4 -0.1 -0.2 -0.5 -0.8 -0.5 -0.8 -0.9 -0.4 -0.3 -0.3 -0.1 Clase 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Dato 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 x1 1.2 1.0 1.3 0.9 0.9 0.2 -0.7 -0.7 -1.0 -1.3 -1.2 -1.6 -1.3 -1.0 -0.8 -0.3 0.1 0.7 1.1 1.1 x2 0.1 0.6 0.8 1.0 1.1 1.3 1.1 0.8 0.6 0.6 0.1 0.5 -0.5 -0.7 -1.0 -1.0 -1.2 -1.0 -1.0 -0.5 Clase -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 Tabla 2.2 Conjunto de datos linealmente no separables, utilizados modelar una SVM de margen flexible. La Tabla 2.2 contiene 40 muestras con dos atributos x 1 y x 2 , es decir el espacio de representación de los datos de entrada es bidimensional 2 , la función subyacente f (x) es una circunferencia (con línea entrecortada) de radio 1 centrada en el origen. Las muestras en el interior de la circunferencia se les asignó la clase (etiqueta) "+1" y están representadas por un asterisco (*) de color verde, mientras a las muestras del exterior de la circunferencia a la clase (etiquetas) "-1" y están representadas por el signo más (+) de color rojo, como se puede apreciar en la Figura 2.31, los datos se encuentran dispersos y lógicamente utilizando una hiperplano no podrían ser separados. Para resolver este problema, se utilizará una SVM no lineal de margen flexible, se aplicarán varios kernel de los ya estudiados anteriormente y se realizará una comparación de los resultados El conjunto de datos fue divido en un conjunto de entrenamiento y un conjunto de prueba de 30 y 10 muestras respectivamente, en cada gráfica existe la leyenda indicando las muestras tomadas para el entrenamiento y las muestras tomadas para la clasificación, así como también los vectores soporte están dentro de un círculo indicando que en base a dichos vectores se construye el clasificador. 112 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN 1.5 1 Clase "-1" 0.5 0 Clase "+1" -0.5 -1 -1.5 -1.5 -1 0.5 0 1 0.5 1.5 Figura 2.31 Algoritmo simplificado para encontrar un clasificador a través de la SVM. Hay que recordar que la función kernel que se utilice permite construir un hiperplano de clasificación óptima en un espacio de características de dimensión mucho más alta, en donde los datos pueden ser separados linealmente, pero en el espacio de entrada el hiperplano toma la forma de una hipersuperficie. En la Figura 2.32, se utilizó un kernel lineal (2.89), lógicamente no es un buen clasificador, ya que de inicio el problema no es lineal, en el entrenamiento se tomaron a todas las muestras como vectores soporte N SV 30 , el clasificador no es capaz de discriminar los dos tipos de muestras, lo que conlleva a que durante la fase de prueba existan muchas muestras mal clasificadas. 1.5 1 0.5 0 -0.5 -1 -1.5 -2 -1 (training) -1 (classified) 1 (training) 1 (classified) Support Vectors -1.5 -1 -0.5 0 0.5 1 1.5 Figura 2.32 Modelo del clasificador SVM con kernel lineal. 113 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 1.5 1.5 1 1 0.5 0.5 0 0 -0.5 -0.5 -1 -1.5 -2 -1 (training) -1 (classified) 1 (training) 1 (classified) Support Vectors -1.5 -1 -1 -0.5 0 0.5 1 1.5 -1.5 -2 -1 (training) -1 (classified) 1 (training) 1 (classified) Support Vectors -1.5 -1 -0.5 0 0.5 1 1.5 Figura 2.33 Modelo del clasificador SVM no lineal con kernel polinomial. Izq. Polinomio de grado 2. Der. Polinomio de grado 5. En la Figura 2.33 se muestra un modelo clasificador SVM aplicando un kernel polinomial (2.90), como era de esperar el polinomio de grado 2 (gráfica de la izquierda) hace una correcta separación de las clases y se aproxima mucho a la función subyacente original utilizando un correcto número de vectores soporte N SV 12 (6 vectores soporte por cada clase). El problema de este kernel es que si el grado del polinomio aumenta, el clasificador se ajusta demasiado a cada muestra provocando un sobreajuste y disminuyendo la capacidad de predicción. En el kernel polinomial de grado 5 (gráfica de la derecha) los vectores soporte disminuyen N SV 8 pero la capacidad de predicción va disminuyendo, aumentando los errores en la clasificación (existen más muestras mal clasificadas). Las muestras (dentro de un círculo) son los vectores soporte que definen el modelo de la SVM y pueden ser usados para predecir la pertenencia de nuevas muestras. Las muestras de las dos clases que no están dentro de un círculo, en ambas gráficas no son importantes para definir el modelo de la SVM y pueden ser eliminados del conjunto de entrenamiento sin que la solución sea afectada. La misma observación se puede aplicar sobre otros modelos que implementen otros kernels. En la Figura 2.34 se utilizó un kernel Gaussiano RBF (2.91) para modelar la SVM, hay que recordar que la función Gaussiana crea abultamientos o hundimientos sobre las muestras a manera de campanas y el parámetro de ajuste lo que hace es controlar el ancho de las campanas, valores demasiados pequeños (gráfica de la izquierda) crea una forma de islas sobre cada muestra, en casos en donde las clases estañan desbalanceadas, estas islas se forman sobre la clase con menos muestras, en este caso toma a todas las muestras de entrenamiento como vectores soporte N SV 30 además se puede 114 MÁQUINAS DE SOPORTE VECTORIAL - CLASIFICACIÓN observar que existirán muchas muestras de prueba mal clasificadas, en el otro caso, cuando aumenta demasiado (gráfica de la derecha) tiende a comportarse como un kernel lineal, y por tanto vuelve aumentar los vectores soporte N SV 30 , pero si este parámetro es ajustado correctamente puede ser un buen clasificador como se muestra en la Figura 2.36 (gráfica de la derecha). 1.5 1.5 1 1 0.5 0.5 0 0 -0.5 -0.5 -1 -1.5 -2 -1 (training) -1 (classified) 1 (training) 1 (classified) Support Vectors -1.5 -1 -1 -0.5 0 0.5 1 1.5 -1.5 -2 -1 (training) -1 (classified) 1 (training) 1 (classified) Support Vectors -1.5 -1 Figura 2.34 Modelo del clasificador SVM no lineal con kernel RBF. Izq. para -0.5 0 0.5 1 1.5 0.1 . Der. para 3 El parámetro C es un valor que debe ser ajustado por el usuario, su finalidad es ajustar el margen del clasificador, en la Figura 2.35 y 2.36 se varía este parámetro junto con un kernel Gaussiano RBF, si tanto como C son elegidos correctamente por algún método de validación cruzada, resulta en un modelo con una buena generalización. 1.5 1.5 1 1 0.5 0.5 0 0 -0.5 -0.5 -1 -1.5 -2 -1 (training) -1 (classified) 1 (training) 1 (classified) Support Vectors -1.5 -1 -1 -0.5 0 0.5 1 1.5 -1.5 -2 -1 (training) -1 (classified) 1 (training) 1 (classified) Support Vectors -1.5 -1 -0.5 0 0.5 1 1.5 Figura 2.35 Modelo del clasificador SVM no lineal con kernel RBF con 0.1 pero variando C que controla el ancho de margen del clasificador. Izq. C 10 . Der. C 100 115 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. En la Figura 2.35, se mantiene fijo el parámetro y se varía C , el modelo de SVM resultante en ambos casos es bastante bueno, con la diferencia que cuando un valor pequeño (gráfica de la izquierda) el margen es más amplio, y hay muchos más vectores soporte que caen dentro de ese margen N SV 16 así como puede que existan muchas muestras de prueba mal clasificadas. Por otro lado, cuando C se va incrementando (grafica de la derecha) el margen disminuye, así como el número de vectores soporte N SV 12 , aunque lo más aconsejable es tener un margen amplio. 1.5 1.5 1 1 0.5 0.5 0 0 -0.5 -0.5 -1 -1.5 -2 -1 (training) -1 (classified) 1 (training) 1 (classified) Support Vectors -1.5 -1 -1 -0.5 0 0.5 1 1.5 -1.5 -2 -1 (training) -1 (classified) 1 (training) 1 (classified) Support Vectors -1.5 -1 -0.5 0 0.5 1 1.5 Figura 2.36 Modelo del clasificador SVM no lineal con kernel RBF, variando C que controla el ancho de margen del clasificador. Izq. 0.1 y C 1000. Der. 2 C 32 . Finalmente, en la Figura 2.36 utilizando un valor de C bastante elevado lo que se logra es reducir aún más los vectores soporte N SV 10 pero el margen habrá disminuido mucho más. Mediante una validación cruzada se obtuvo los valores de y C (figura de la derecha), cuyo modelo logra clasificar correctamente las muestras de prueba, se aproxima mucho a la función subyacente utilizando un bajo número de muestras como vectores de soporte N SV 14 sin llegar a disminuir del todo su margen. En conclusión, utilizar un kernel Gaussiano es muy recomendable cuando los parámetros de ajuste son optimizados por una validación cruzada, los kernel polinomial son una buena opción siempre y cuando el grado del polinomio no sea elevado para evitar el sobreajuste, los kernel lineal debería utilizarse en aquellos problemas donde se tiene indicios de que los datos puedan ser separados linealmente, cuando los datos están totalmente sobrepuestos entre clases o cuando los atributos de los datos son demasiado grandes, en ese caso no hace falta mapear a un espacio de características de mayor dimensión para separarlos con ningún kernel no lineal, será suficiente probar con un kernel lineal. 116 CAPÍTULO 3 TÉCNICAS Y HERRAMIENTAS UTILIZADAS La Máquina de Soporte Vectorial SVM, a pesar de ser una un modelo de aprendizaje que lleva algunos años siendo desarrollada desde la década de los 70's por V. Vapnik y sus colaboradores introduciendo fundamentos y generalizando estudios anteriores para los problemas de clasificación, no fue hasta 1998 cuando realmente empezó a despertar interés cuando fue presentado el modelo de SVM de margen flexible, que estaba diseñada para tratar problemas reales. En la actualidad el modelo se encuentra en desarrollo continuo con muy buenos resultados de aplicación en diferentes áreas de la ciencia y la ingeniería, lo que ha llevado a implementar multitud de paquetes software, incluyendo algunas herramientas gráficas para representaciones en 2D. Este capítulo está dedicado a recoger todas las técnicas y herramientas que se utilizaron para el tratamiento de la información, a manera de recoger los procedimientos que fueron empleados en el transcurso de la investigación, iniciando con una explicación de la librería LIBSVM con sus herramientas y luego se citan las Toolbox de MATLAB empleadas así como las funciones. 3.1 LIBRERÍA LIBSVM La librería LIBSVM100 desarrollada por C. Chang y C. Lin en la National University of Taiwan (ANEXO 1), es un paquete software completo y con muchos scripts que permite experimentar fácilmente con diferentes funciones kernel y trabajar con miles de datos y con miles de atributos (características o variables), soporta problemas de clasificación y regresión. Esta complementada con herramientas como 117 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. ayuda a la partición del conjunto de datos en forma aleatoria (conjunto de entrenamiento y conjunto de prueba), otra herramienta como la validación cruzada para la selección de parámetros para el modelo clasificador y normalización de los atributos. Implementa el algoritmo de optimalización SMO con una eficiencia muy buena. Para utilizar algunas herramientas es necesario instalar PYTHON y GNUPLOT, el primero es un lenguaje de programación con una sintaxis bastante legible e interpretativa, el segundo es un programa que genera graficas en formato de imagen y será muy útil para determinar rangos en ajuste de algunos parámetros que pueden someterse a una validación cruzada. El código fuente de los scripts se encuentran desarrollados en C/C++, también tiene interface para utilizarlo con MATLAB. Para entrenar el modelo de la SVM se utilizará Python en la pantalla Command promp de Windows mientras que para el procesamiento de los datos se utilizará MATLAB. A continuación se indican algunas herramientas de LIBSVM. 1. Formato de los datos: Phyton admite los datos como vectores en el siguiente formato: <etiqueta> <índice1>:<atributo1> <índice2>:<atributo2>. . . . . Cada línea contiene una muestra, para la clasificación de dos clases <etiqueta> puede tomar el valor de "+1" o "-1" indicando la clase a la que pertenece cada muestra del conjunto de entrenamiento. Para el conjunto de prueba la etiqueta es utilizada para predecir la exactitud en la clasificación. El par <índice>:<atributo> indica cada uno de los atributos de las muestras; <índice1> es un número que inicia en 1 hasta el número total de muestras en forma ascendente, <atributo> debe ser un número real. Para comprobar que los archivos se encuentren en este formato se puede comprobar con el siguiente comando: > python checkdata.py [Archivo] Donde: [Archivo]: es el nombre del fichero que se desea analizar y que contiene el conjunto de datos que serán utilizados para el entrenamiento y la prueba. Si los datos se encuentran en el formato correcto en pantalla la salida es 0 cuando no hay errores caso contrario la salida es 1. 2. Selección de subconjuntos (subset.py): Cuando se tiene el archivo con los datos en el formato adecuado, Phyton ofrece un programa útil que divide el conjunto de datos en subconjunto, es decir ayuda a seleccionar el conjunto de 118 TÉCNICAS Y HERRAMIENTAS UTILIZADAS entrenamiento y el conjunto de prueba garantizando que exista la misma distribución de las clases, usando el siguiente comando: >python subset.py [Archivo][-s][Número][][Entren][Prueba] Donde: [-s]: es el método de selección de los datos para cada subconjunto; -s 1, para una selección aleatoria; -s 0, para una selección estratificada (por defecto). [Número]: para indicar cuantas muestras se desea que conformen [Entren], las demás muestras son almacenados en [Prueba]. [Entren]: es el nombre del conjunto de entrenamiento. [Prueba]: es el nombre del conjunto de prueba. 3. Normalizado o escalado de los datos (svm-scale): Como en la mayoría de técnicas de aprendizaje para mejorar la estabilidad numérica del aprendizaje, es aconsejable normalizar los valores numéricos de los atributos antes de aplicar la SVM, por ejemplo escalándolo de [0,1], [1,-1] (normalizando a media=0 y varianza=1), es necesario que tanto el conjunto de entrenamiento y el conjunto de prueba se encuentren escalados al mismo rango, para esto se utiliza los siguientes comandos: >svm-scale [-l][-u][-s][Rango][Entren] > [Entren.escala] >svm-scale [-r][Rango][Prueba] > [Prueba.escala] Donde: EL primero comando normaliza el conjunto de entrenamiento y el segundo comando normaliza el conjunto de prueba utilizando el mismo rango del conjunto de entrenamiento. [-l]: límite inferior de la escala, puede ser -l -1 ó –l 0. [-u]: límite superior de la escala; -u 1. [-s]: guarda los factores del escalado del conjunto de entrenamiento en [Rango]. [-r]: lee los factores de [Rango] para escalar el conjunto de prueba. [Rango]: Archivo en donde se guardan los factores del escalado. [Entren.escala]: nuevo archivo con los datos de entrenamiento escalados. [Prueba.escala]: nuevo archivo con los datos de prueba escalados. 119 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 4. Para el entrenamiento (svm-train): Para obtener el modelo de la SVM, se tiene que entrenar con las muestras del conjunto de entrenamiento aplicando diferentes kernel y ajustando varios parámetros, el comando es el siguiente: >svm-train [Tipo_svm][Tipo_kernel][Parámetros][Entren.escala] Donde: [Tipo_svm]: selecciona el tipo de SVM (por defecto -s 0). -s 0: para seleccionar la SVM de clasificación binaria. [Tipo_kernel]: para seleccionar la función kernel (por defecto -t 2). -t 0: kernel lineal K ( x i , x j ) x i x j -t 1: kernel polinomial K ( x i , x j ) ( p x i x j ) d -t 2: kernel Gaussiano RBF K ( x i , x j ) exp || x i x j || 2 1/ 2 2 [Parámetros]: parámetros de ajuste que especifican los valores del kernel utilizado. -d: ajusta el grado del kernel polinomial (por defecto 3). -g: ajusta el valor de en la función kernel RBF (por defecto 1/número de atributos). -r: ajusta el coeficiente p del kernel polinomial (por defecto 0). -c: ajusta el parámetro C de control del margen del clasificador (por defecto 1). Luego del entrenamiento, la máquina genera un modelo del clasificador y lo guarda en un nuevo archivo [Entren.escala.model] para utilizarlo posteriormente para la clasificación de las muestras del conjunto de prueba. En la pantalla devuelve algunos datos importantes como: obj: es el valor objetivo óptimo del problema dual SVM. rho: es el término bias b * en la función de decisión. nSV: es el número de vectores de soporte. nBSV: es el número de vectores de soporte que se encuentran acotados por el margen. 5. Para la prueba (svm-predict): 120 TÉCNICAS Y HERRAMIENTAS UTILIZADAS Con el modelo de clasificador, solo queda por comprobar cuan eficiente resulta para generalizar los datos del conjunto de entrenamiento, para ello se utiliza el siguiente comando: >svm-predict [Prueba.escala][Entren.escala.model][Prueba.predict] El comando svm-predict genera el resultado de la clasificación y lo guarda en un archivo [Prueba.predict] que contiene a las muestras de prueba con las etiquetas de la clase a las que según el modelo pertenecen, además se muestra en pantalla el porcentaje de error cometido en la clasificación y el número de muestras mal clasificados. 6. Selección de parámetros (grid.py): Una herramienta muy útil cuando se utiliza el kernel Gaussiano RBF para modelar la SVM es el comando grid.py, éste utiliza una técnica de validación cruzada (cv) sobre las muestras del conjunto de entrenamiento para estimar la exactitud de cada combinación de parámetros ( y C ) en un rango especificado y ayuda a decidir los mejores parámetros para el problema. Durante el entrenamiento existe la opción de dibujar el contorno de la validación cruzada usando el software gnuplot. Esto se logra con el siguiente comando de línea: >grid.py [Opciones_Grid][Entren.escala] Entre las opciones disponibles [Opciones_Grid] en la selección de parámetros se tiene: -log2c {inicio, fin, paso}: ajusta el rango del parámetro C y crea un mallado en ese intervalo, para reducir o ampliar la finura del mallado se modifica el paso. Cada iteración está dada por rango_c = 2^ {inicio,..., inicio + k*paso,..., fin} (los valores por defecto -5, 15, 2). -log2g {inicio, fin, paso}: especifica el rango de los valores del parámetro y crea un mallado en ese intervalo, para reducir o ampliar la finura del mallado se modifica el paso. rango_g = 2^ {inicio,..., inicio + k*paso,..., fin} (los valores por defecto 3, -15, -2). -v n: los datos son separados n partes y bajo parámetros dados cada parte es validada usando el modelo con las restantes partes (por defecto n=5) -gnuplot {path}: cuando se desea graficar el contorno de la validación cruzada del ajuste de los parámetros se puede ocupar esta opción junto con el path del ejecutable gnuplot.exe, la gráfica se guarda en un archivo tipo imagen (por defecto dataset.png). 121 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 3.2 FUNCIONES DE MATLAB Para el tratamiento de los datos y obtención de atributos o características a partir de las señales obtenidas durante las pruebas se utilizan varias Toolbox y funciones de MATLAB que serán utilizadas en el Capítulo 4 y 5 para indicar la metodología de los distintos ensayos durante las fases de entrenamiento y clasificación de las muestras utilizando el algoritmo de las máquinas de soporte vectorial. A continuación se exponen las herramientas utilizadas. 3.2.1 TOOLBOX DE ESTADÍSTICA DE ORDEN SUPERIOR HOSA En esta Sección se hace un breve análisis de las herramientas de estadística de orden superior HOSA (Higher-Order Spectral Analysis) que proporciona las funciones necesarias para estimar características de orden superior y que más adelante serán utilizadas en un script para la caracterización de los datos obtenido en las pruebas del temblor realizado a los pacientes. Por ahora solamente se hará mención de la utilidad de éstas herramientas y la sintaxis utilizada en el comando de línea de Matlab. La importancia de estas herramientas estadísticas conocidas también como cumulantes o momentos y sus correspondientes transformadas de Fourier como poliespectros, ayuda a obtener información sobre la amplitud de un proceso así como su fase y difieren de los métodos estadísticos de segundo orden porque éstas son ciegas a la fase. Son herramientas eficientes en aplicaciones reales en donde las señales o procesos a tratar son no lineales y no Gaussianos, extrayendo más información que la contenida intrínsecamente en su función de autocorrelación. Permiten eliminar el ruido blanco o coloreado aditivo Gaussiano del espectro de potencia desconocida, extraer información debido a las desviaciones de un proceso Gaussiano, detectar y caracterizar las propiedades no lineales de las señales101. Así, éstas técnicas son muy útiles ya que se considera que las señales obtenidas de las pruebas realizadas a los pacientes son series temporales que están contaminadas por ruido proveniente de varias fuentes como las condiciones físicas y psicológicas de los pacientes, así como en la forma en que estas señales fueron obtenidas y la precisión de los dispositivos utilizados para ello. Las técnicas derivada de la estadística de orden superior son el Biespectro, que es el espectro de tercer orden definido por la transformada de Fourier de los cumulantes de tercer orden; y el Triespectro que es el espectro de cuarto orden que corresponde a la transformada de Fourier de los cumulantes de cuarto 122 TÉCNICAS Y HERRAMIENTAS UTILIZADAS orden, hay que tener en cuenta que el espectro de potencia PSD, puede ser considerado como el espectro de segundo orden dentro de HOSA. La estadística de orden superior se representa en el dominio temporal. Sea g ( k ) un proceso real, discreto, estacionario no Gaussiano cuyos momentos existen hasta un orden n , entonces un momento de orden n se define como: m n (k 1 , k 2 , . . . , k n 1 ) E{g(k) g(k k 1 ) . . . . g(k k n 1 )} k, k 1 , k 2 . . . , k n 1 0, 1, 2, 3, . . . . Donde Y E{.} representa al operador Esperanza estadísticas, donde el momento de orden n solo depende de los desplazamientos temporales de k, k 1 , k 2 . . . , k n 1 . Entonces el momento de segundo orden pertenece a la función de correlación clásica: m 2 (k1 ) E{g(k) g(k k1 )} El momento de tercer orden viene representado por: m 3 (k 2 ) E{g(k) g(k k 1 ) g(k k 2 )} Y se procede de la misma forma para establecer momentos de orden superior. Los espectros de orden superior se representan en el dominio de la frecuencia y se obtienen al aplicar la transformada de Fourier multidimensional Fn [.] sobre la estadística de orden superior. Para un orden n los espectros se definen como: S n ( w 1 , w 2 , . . . , w n 1 ) Fn [ m n ( k 1 , k 2 , . . . , k n 1 ] El espectro de segundo orden, Espectro de Potencia o Densidad Espectral de Potencia se define como: S 2 ( w 1 ) m 2 ( k 1 ) e j( w 1k 1 ) k1 Donde | w 1 | y m 2 (k 1 ) corresponde a la secuencia de correlación del proceso x ( k ) . 123 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. El biespectro representa la contribución del producto medio de tres componentes de Fourier y donde una frecuencia es la suma de las otras dos, se define como: S3 (w 1 , w 2 ) c 3 (k 1 , k 2 ) e k1 , k 2 j( w 1k 1 w 2 k 2 ) Donde | w1 | , | w 2 | , | w1 w 2 | y c 3 (k1 , k 2 ) es la secuencia de cumulantes de tercer orden del proceso x ( k ) . La misma secuencia se utiliza para calcular el triespectro. Hay que tener en cuenta que los espectros para un orden n 3 están en función de sus cumulantes. Las funciones utilizadas en Matlab de las técnicas para el análisis del espectro de orden superior son: Para calcular el biespectro utilizando el método directo basado en la FFT, se utiliza la función bispecd, su sintaxis es la siguiente: [Bspec, waxis] = bispecd (X, NFFT, WIND, SEGSAMP, overlap) X representa la serie temporal. NFFT es la longitud de la muestra que se quiere representar. WIND define las especificaciones de la ventana para el dominio de frecuencia. SEGSAMP son las muestras por segmento y OVERLAP es el porcentaje de solape de las secciones de la muestra. Bspec es el biespectro estimado. waxis es el vector de frecuencias asociadas a las filas y columnas de Bspec. El triespectro se calcula con la función trispect con la siguiente sintaxis: [Tspec, waxis] = trispect (MA, AR, NFFT, F3); MA y AR son las series temporales. NFFT es la longitud de la muestra que se representa (el valor por defecto es 512). F3 es la frecuencia fija del tercer argumento (el valor por defecto es 0 y el rango nominal es [-0.5, 0.5]). Tspec es el triespectro de un modelo auto regresivo de media movil ARMA. waxis es el vector de frecuencia asociados con las filas/columnas del Trispect. 124 TÉCNICAS Y HERRAMIENTAS UTILIZADAS 3.2.2 TOOLBOX DE PROCESAMIENTO DE SEÑALES PSD Una de las herramientas más utilizada de la Toolbox de procesamiento de señales es la función de Densidad Espectral de Potencia PSD, para el análisis de señales en frecuencia. La PSD mide la potencia promedio de una señal versus su frecuencia y muestra las periocidades de un proceso o sistema. En el apartado anterior se indicó que el PSD es el momento y espectro de segundo orden y su representación tanto en el dominio del tiempo como en el de frecuencia. La función pwelch es una forma funcional de PSD que estima la Densidad Espectral de Potencia a través del método Welch, su sintaxis en Matlab es: [Pxx, W] = pwelch(X, WINDOW, NOVERLAP, NFFT) Donde: Pxx es la distribución de potencia por unidad de frecuencia. W: Es el vector de frecuencias normalizadas en la que se estima el PSD, tiene unidades de rad/muestra. X es la señal en tiempo discreto a transformar. WINDOW indica el tipo de ventana a utilizar, la ventana por defecto (Hamming) tiene una atenuación de 42,5 dB. NOVERLAP indica el porcentaje de solapamiento de las secciones de la muestras, el valor por defecto es del 50%. NFFT especifica el número de puntos FFT utilizados para calcular la estimación de PSD, NFFT=2^(floor(log2(n))) donde n es el tamaño de la muestra. 3.2.3 TOOLBOX DE ESTADÍSTICA ACP El Análisis de Componentes Principales ACP, es una herramienta de la Toolbox de Estadística que tiene por objetivo reducir la dimensión de un conjunto de variables conservando la mayor cantidad que sea posible. El ACP permite visualizar la correlación que existe entre un número determinado de muestras (observaciones) en función de la relación de sus variables (atributos), gira las coordenadas de los datos originales a nuevas coordenadas haciendo los datos lo más "planos" como sea posible y genera una nueva matriz con el mismo número de variables, llamados componentes principales. Cada componente principal es una transformación lineal de todo el conjunto de datos original. Los coeficientes de los componentes principales se calculan de forma que el primer componente principal contiene la varianza máxima (se puede pensar tentativamente como la "máxima información"). El 125 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. segundo componente principal se calcula que tiene la segunda máxima varianza y lo más importante que no está correlacionado linealmente con el primer componente principal. Los otros componentes principales muestran una varianza menor y no están correlacionadas con el resto de componentes principales. Los componentes principales es una combinación de las variables originales que tiene máxima varianza, para su cálculo se considera un conjunto de n muestras de p variables dispuestos en una matriz A de dimensión n p , las filas contienen las muestras y las columnas contienen las variables y donde la media de cada uno de sus variables es cero y su matriz de covarianza está dada por S (1/ n ) A' A . Lo que se desea es encontrar un espacio de dimensión m más reducida tal que m p , tratando de no distorsionar la información inicial. Si se representa el primer componente principal como102: z1 Aa 1 Si las variables originales tienen de media igual a cero, entonces también z1 también tendrá de media igual a cero, entonces su varianza será: 1 1 z '1 z a'1 A' Aa 1 a'1 Sa 1 n n Maximizando la expresión anterior con los multiplicadores de Lagrange, de donde derivado e igualando a cero se tiene: Sa 1 a 1 Lo que significa que a1 es un eigen vector de la matriz S asociado el eigen valor que corresponde a la varianza de z1 , es decir, que el eigen vector asociado al mayor eigen valor de S corresponde al primer componente principal. La matriz A tiene el mismo rango p de la matriz S existiendo entonces tanto variables como componentes principales. Para aplicar el ACP la base de datos debe ser una matriz normalizada Z de media 0 y varianza 1, lo que se logra con la función score: Z = zscore(A) A es la matriz formada por las muestras (filas) y los atributos numéricos (columnas). Los componentes principales se obtienen con la función pca: 126 TÉCNICAS Y HERRAMIENTAS UTILIZADAS [COEFF, SCORE, LATENT] = pca (Z) COEFF es una matrix pxp, cada columna contiene los coeficientes para un componente principal, las columnas están en orden decreciente de la varianza del componente. SCORE contiene los componentes principales reales, es la representación de Z en el espacio de componentes principales. Cada columna corresponde a las observaciones (muestras) y cada columna a los componentes. LATENT contiene la varianza de los componentes principales. Para calcular la varianza acumulada contenida en cada componente principal se utiliza: cumsum (var(SCORE)) / sum(var(SCORE)) 3.2.4 COEFICIENTE DE CURTOSIS Empleando el coeficiente Curtosis se puede determinar la concentración de los datos que se encuentran más cerca a la media de la distribución independientemente del valor que tome su varianza. El coeficiente de Curtosis está basado en el cuarto momento con respecto a la media. Si se determina que los datos están concentrados alrededor de la media se puede aplicar la distancia de Mahalanobis para determinar aquellos vectores atípicos de las muestras pertenecientes a una clase o que pertenecen a la otra clase y que podrían provocar errores en la clasificación con la SVM. El coeficiente de Curtosis viene dado por la fórmula: n k n xi x m 2 i 1 x x 2 m i i 1 n 2 3 Donde xi es cada uno de los valores; n número de datos y xm media aritmética. Si k 0 los datos se distribuyen de forma normal y se denomina mesocúrtica, si k 0 la distribución es más empinada que la curva normal se denomina leptocúrtica, si k 0 la distribución es más aplanada que la curva normal y se denomina platicúrtica. En Matlab se utiliza la función kurtosis: k= kurtosis(X) Donde X es la matriz de datos de entrada y k contiene un vector fila con los coeficientes de Curtosis para cada columna. 127 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 3.2.5 DISTANCIA DE MAHALANOBIS La distancia de Mahalanobis es una forma de determinar la similitud entre dos variables aleatorias multidimensional y ayuda a la detección de valores atípicos; y está definida como: d m2 ( x , y ) ( x y ) T 1 ( x y ) Donde: es la matriz de covarianza entre x e y , 1 es su inversa. Además, su importancia radica en ofrecer medidas de distancia en un espacio invariante ante los cambios de escala (no depende de las unidades de medida) en el que se corrigen las correlaciones entre las variables; es decir, su valor disminuye a medida que aumenta la correlación entre las variables. Se puede hacer algunas observaciones: 1.) Si las variables no están correlacionadas r 0 la distancia de Mahalanobis coincide con la distancia euclídea normalizada. 2.) Si la varianza de las variables son iguales a 1 (matriz identidad) o si la distancia de Mahalanobis es calculada en el espacio de los componentes principales, ambas coinciden con la distancia euclídea. Aunque Matlab tiene su propio script para calcular distancia de Mahalanobis, en esta ocasión se prefirió crear un código aparte que mostró mejores resultados para esta investigación en particular. Para el cálculo de esta distancia se utilizó la matriz SCORE obtenida en el espacio de los componentes principales (se utilizó 2 componentes principales) y el código es el siguiente: Se obtiene la matriz de covarianza con la función: Y = cov (SCORES) Luego la matriz inversa de la matriz de covarianza Y, con la función: Yi = inv(Y) El valor medio de las muestras con la función: Amean= mean (SCORES) Se obtiene el tamaño de la matriz SCORE: [n m] = size (SCORES) La distancia de cada muestra al valor medio: d1 = (SCORES –repmat (Amean, [n 1])) Finalmente, se obtiene la distancia de Mahalanobis: d2 128 = sqr (diag (d1*Yi*d1')) CAPÍTULO 4 FUENTE DE LOS DATOS. PREPARACIÓN DE LAS MUESTRAS Uno de los objetivos de la presente investigación se enfoca al área de la salud, en ayudar en el diagnóstico de pacientes que sufren algún tipo de trastorno en el movimiento mediante técnicas basadas en el aprendizaje automático y la toma de decisiones en tareas de clasificación. En el Capítulo 1 se indicó que el temblor es una de las enfermedades neurológicas más frecuentes de los trastornos del movimiento y con propósitos de este estudio se lo había dividido en: temblor fisiológico, como el temblor normal que presentan todo tipo de persona y que en la mayoría de personas es imperceptible; y temblor patológico, como el temblor de los pacientes en donde predominan las alteraciones en forma y velocidad de sus movimientos, entre estos están el temblor esencial (TE) y el temblor provocado por la enfermedad de Parkinson (EP). Hasta el momento se ha hecho referencia a las herramientas y las técnicas las cuales serán de gran ayuda para conseguir este objetivo, pero antes de utilizarlos se menciona la fuente de los datos y la preparación de las mismas en base a conseguir los mejores atributos (medidas) que caractericen a cada una de las muestras, obtenidas durante las pruebas realizadas a los pacientes a través de un novedoso sistema llamado DIMETER que utiliza un dispositivo háptico llamado PHAMToN. 4.1 PRUEBAS PARA EVALUAR EL TEMBLOR La base de datos fue obtenida a través de varias pruebas realizadas a los pacientes con temblor esencial y enfermedad de parkinson del Hospital Ramón y Cajal y el Hospital La Princesa de Madrid-España, mediante un sistema denominado DIMETER, capaz de generar un entorno virtual para el paciente (aplicación de fuerzas) y transmitir información entre ellos a través del sentido del tacto al manipular 129 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. objetos virtuales, el sistema realiza el sensado de la posición en 3 dimensiones (a lo largo de los ejes X, Y, Z) efectuando respectivamente la retroalimentación de fuerzas, sobre el movimiento realizado por la mano o dedo del paciente, éstos datos posteriormente permitirá realizar una identificación e interpretación del temblor y establecer técnicas para el diagnóstico de pacientes. El sistema DIMETER consta de un software, un ordenador y un dispositivo periférico llamado PHAMToN. El PHAMToN, es un dispositivo electromecánico de interfaz háptica que permite la interacción del ser humano en un ambiente de visualización virtual. Es un dispositivo dotado de sensores de posición y velocidad angular en sus articulaciones, y de motores que crean las fuerzas de retorno hacia el sistema kinestésico (sensaciones de movimiento originados por el músculo, tendones y uniones) para simular la sensación de tocar, manipular, sentir, crear o coger, es decir la interacción con objetos virtuales, sólidos o deformables como por ejemplo, una esfera, una línea, un punto, una herramienta, etc. El usuario no solo envía información al ordenador a través del PHAMToN sino que también puede recibir información del ordenador y ser percibida en forma de sensación. Son dispositivos que funcionan bajo el control de impedancia con respecto a su entrada/salida, es decir el usuario mueve el dispositivo (desplazamiento) y si es necesario el dispositivo reacciona con una fuerza La información del temblor de cada paciente fue obtenida a través de un conjunto de pruebas y procedimiento supervisados por expertos médicos e ingenieros quienes guían a los pacientes durante su ejecución. El paciente sentado frente a la pantalla de un ordenador coloca su dedo en un dedal acoplado en el extremo del brazo articulado del PHAMToN y se le muestra en la pantalla un modelo de objeto virtual, que consiste en una serie de "patrones" que el paciente tiene que ejecutar, similar a lo mostrado en la Figura 4.1, el sistema captura los datos a una frecuencia de 100 muestras de segundo, posteriormente son guardados en un ficheros de texto, ficheros que contiene información como la posición y las fuerzas en cada uno de los 3 ejes que permitirá bajo un procesamiento adecuado caracterizar el temblor. Las pruebas realizadas utilizan objetos virtuales en 2D y 3D y están divididas en pruebas estáticas, cinéticas y dinámicas. En las pruebas estáticas, el paciente conserva una postura inmóvil mientras ejecuta la prueba. Las pruebas cinéticas al paciente se le indica que mueva su mano ejecutando el patrón que se le presenta en la pantalla. Las pruebas dinámicas crean las fuerzas que se opondrán al movimiento de ejecución del patrón. El sentido de dividir las pruebas está dirigido a encontrar mejores características discriminantes para lograr clasificar los temblores, así un paciente con EP cuando su actividad muscular está ausente 130 FUENTE DE LOS DATOS – PREPARACIÓN DE LAS MUESTRAS presenta un temblor de reposo y mientras realiza las pruebas estáticas se pretende que éste comportamiento se distinga de los pacientes con TE. De igual manera con las pruebas cinéticas un paciente con TE aumenta su temblor cuando cambia su postura o realiza un movimiento especialmente cuando trata de alcanzar un objetivo (temblor intencional), y las pruebas dinámicas en las que se utilizan fuerzas que se oponen al movimiento y con ello atenúan al temblor. Cabe indicar que la fidelidad de las pruebas depende de muchos factores entre estos: la edad del paciente, de si ese encuentra bajo medicación, del su estado físico, del estado de ánimo y predisposición del paciente, consumo de drogas, si tiene otras enfermedades, progreso de la enfermedad e incluso de la experticia de quien supervisa las pruebas. Exactamente estas condiciones complejas del mundo real son las que hacen posible que se creen algoritmos y procedimientos computacionales, cada vez más potentes que logren encontrar solución a los problemas a los que se enfrenta el ser humano. Figura 4.1 Espacio de trabajo. Ordenador, Dispositivo háptico PHAMToN y paciente. La base de datos proporcionada por el tutor sobre la que se origina la investigación consta de las muestras realizadas a 23 pacientes con la enfermedad de parkinson, 7 pacientes con temblor esencial y 20 pacientes que fueron diagnosticados con temblor fisiológico, cada uno realizó varias pruebas con los patrones virtuales sobre sus dos manos, en algunos casos se realizaron en dos sesiones y cuando lo consideraron factible se hicieron las pruebas sobre una mano, la más afectada y en ocasiones la misma prueba dos veces, con lo que más adelante se necesita examinar cada uno de los ficheros para evitar información incompleta o duplicada. 131 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 4.2 OBTENCIÓN DE PATRONES Cada una de las pruebas que realizan los pacientes siguiendo el modelo de una figura virtual mostrada en la pantalla del ordenador, constituyen las muestras o patrones y que fueron diseñados de forma que cada paciente las pueda ejecutar, se consideraron patrones simples como hacer un punto o una línea hasta patrones más complejos como una espiral o una sinusoide, con el fin de obtener la mayor información relacionada a cómo el temblor actúa cuando al paciente realiza un movimiento voluntario. Existen 19 patrones divididos en cinéticos, estáticos y dinámicos. Durante las pruebas se registra la posición de la mano en los 3 ejes X, Y, Z con respecto al tiempo y a las coordenadas de referencia del PHAMToN. El paciente verá simulado sus movimientos por medio de un cursor en la pantalla. Las gráficas de los patrones fueron obtenidos del trabajo desarrollado por [88] y son citados en el presente trabajo de investigación porque son la fuente de la base de datos para ser analizados. 4.2.1 PATRONES ESTÁTICOS Existen dos pruebas realizadas con este patrón, registrados como PT1 y PT2 en los ficheros, el paciente no realiza ninguna acción de movimiento con la mano, permanece inmóvil con el dedo en el dedal durante las pruebas, especialmente orientados a los pacientes con parkinson para evaluar su temblor de reposo. Patrón 1 (PT1): En esta prueba el paciente permanece sentado frente a la pantalla en donde visualiza una diana como la presentada en la Figura 4.2 y con el codo descansando sobre un apoyo y formando un ángulo de 90 grados entre el brazo y el antebrazo mantiene esa postura durante el periodo de prueba. Figura 4.2 Patrón 1 y 2 de las pruebas estáticas. 132 FUENTE DE LOS DATOS – PREPARACIÓN DE LAS MUESTRAS Patrón 2 (PT2): El paciente mantiene estirado su brazo apuntando el centro de la diana mostrada en la pantalla (Figura 4.2), indicando el área de color rojo, con el fin de capturar el temblor de postura en los pacientes con TE que tienden a temblar más cuando adquieren una postura contraria a la dirección de la gravedad (brazos extendidos), aunque a la vez resulte complicado en pacientes con EP quienes presentan rigidez en sus músculos lo que impide que puedan extender el brazo en su totalidad. 4.2.2 PATRONES CINÉTICOS Son doce patrones utilizados en las pruebas cinéticas denominadas desde PT3 hasta PT14 en los ficheros de cada muestra, éstos son patrones ideados y diseñados para capturar el comportamiento del temblor cuando el paciente trata de alcanzar un objeto (temblor intencional) sin ninguna fuerza que lo restrinja. Existen patrones dirigidos a realizar el movimiento en una dirección y otros más complicados en dos direcciones, tanto en 2D como en 3D, que miden la capacidad del paciente para realizar la tarea. Los pacientes deben seguir la figura presentada en la pantalla mediante un cursor, iniciando desde el punto A hasta el punto B y luego regresar. Las medidas que se toman es la desviación con respecto a la trayectoria del patrón. Entre estos patrones se tiene: El patrón 3 (PT3), es una línea recta horizontal como la mostrada en la Figura 4.3, el movimiento es de izquierda a derecha. El patrón 4 (PT4), es una línea inclinada como la mostrada en la Figura 4.4, el movimiento es de abajo hacia arriba. Figura 4.3 Patrón 3. Figura 4.4 Patrón 4. El patrón 5 (PT5), es una línea inclinada como la mostrada en la Figura 4.5, el movimiento es de arriba hacia abajo. El patrón 6 (PT6), es una línea recta vertical, el movimiento es de abajo hacia arriba, está representado en la Figura 4.6. 133 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. Figura 4.5 Patrón 5. Figura 4.6 Patrón 6. El patrón 7 (PT7), es una elipse como la mostrada en la Figura 4.7, los datos registrados de la posición van a estar variando en dos direcciones con respecto a los X e Y. Figura 4.7 Patrón 7. Figura 4.8 Patrón 8. Figura 4.9 Patrón 9. El patrón 8 (PT8), es una espiral de Arquímedes, como la indicada en la Figura 4.8 el objetivo es seguir la trayectoria desde el exterior hacia el centro. El patrón 9 (PT9), también es una espiral a diferencia de la anterior, el camino de la trayectoria es más estrecho, se muestra en la Figura 4.9. El patrón 10 (PT10), es 134 FUENTE DE LOS DATOS – PREPARACIÓN DE LAS MUESTRAS una sinusoide, el paciente tiene que seguir la trayectoria (línea negra) que va desde el punto A hasta el punto B como se muestra en la Figura 4.10. El patrón 11 (PT11) se muestra en la Figura 4.11 al igual que la anterior es una sinusoide pero de amplitud variable, iniciando en el punto A con una amplitud mayor y conforme se acerca al punto B la amplitud disminuye. En todos éstos patrones los datos registrados son la posición en el plano X e Y, además requieren del paciente mayor concentración para coordinar sus movimiento mientras realiza las pruebas. Figura 4.10 Patrón 10. Figura 4.11 Patrón 11. Para los patrones 12, 13 y 14 se construyó una estructura con las dimensiones que se indican en la Figura 4.12 se trata de dos varillas sobre las que se coloca una goma elástica, se pueden dar diferentes configuraciones para obtener patrones en 3D. Figura 4.12 Estructura utilizada en patrones 12, 13 y 14. Figura 4.13 Patrón 12. El patrón 12 (PT12) es una línea recta horizontal como se indica en la Figura 4.13, el patrón 13 (PT13) es una línea recta tiene con la configuración que se muestra en la Figura 4.14 y el patrón 14 (PT14) es tal como se muestra en la Figura 4.15, una línea transversal. 135 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. Figura 4.14 Patrón 13. Figura 4.15 Patrón 14. 4.2.3 PATRONES DINÁMICOS Los patrones incluidos en las pruebas dinámicas son similares a los utilizados en las pruebas estáticas y cinéticas, pero en este caso el sistema genera las fuerzas que tratarán de oponerse al movimiento de la mano del paciente percibiendo una sensación de colisión con un objeto virtual por lo que éste tendrá que realizar un mayor esfuerzo para ejecutarlas. Para calcular las fuerzas que siente el paciente se determina por la ley de elasticidad de Hooke. Cabe destacar que cuando se aplican fuerzas externas al temblor en reposo (pacientes con EP) tiende a atenuarse en gran medida, por lo que se considera que ayudará como una prueba determinante para diferenciar del resto de temblores. El patrón 15 (PT15) es similar al patrón 2; el patrón 16 (PT16) y el patrón 17 (PT17) utiliza el patrón 3 pero con diferentes valores de fuerzas; el patrón 18 (PT18) es similar al patrón 8 y finalmente el patrón 19 (PT19) es igual al patrón 13 (en 3 dimensiones y con aplicación de fuerzas). 4.3 FILTRADO Y CARACTERIZACIÓN DEL TEMBLOR Entre los futuros desarrollos presentados por los trabajos anteriores, siguiendo la misma línea y objetivos de la investigación, propusieron buscar nuevas técnicas de optimización para lograr mejorar los resultados obtenidos. La máquina de soporte vectorial, es una herramienta robusta y eficaz con muy buenos resultados en la aplicación de tareas de clasificación en problemas de la vida real y que ayudará a conseguir el objetivo planteado, clasificar entre las distintas clases de patologías del temblor. En base 136 FUENTE DE LOS DATOS – PREPARACIÓN DE LAS MUESTRAS que este trabajo de investigación es una continuación de trabajos anteriores, muchos de los fragmentos son citados nuevamente, con el fin de dar continuidad y ser más explícitos en los nuevos métodos y procedimientos de los ensayos que se realizaron. Muchos esfuerzos fueron realizados por C. Rubio en su trabajo [85], tratando de encontrar la parte invariante del temblor y creando un filtro que tenga la capacidad de eliminar el temblor que acompaña al movimiento. Los datos de las muestras de los pacientes (Sección 4.2) fueron analizadas mediante un tipo de red neuronal artificial llamada perceptrón multicapa MLP. Varias pruebas fueron realizadas en el dominio del tiempo y en el dominio de la frecuencia (transformadas de Fourier) para filtrar las series temporales de las pruebas realizadas, a pesar de haber modificado varios parámetros como: el número de vectores de entrenamiento, el número de épocas, el número de neuronas en la capa oculta y de la capa de salida; la red no fue capaz de aprender, de forma que para cualquier muestra nueva presentado a la red su salida era la misma. Otro método utilizado fue que la red neuronal sea quien ayude a definir los parámetros para crear el filtro, pero esto no condujo a resultados satisfactorios, el error mínimo alcanzado fue del 20%. Con estos antecedentes, la labor fue orientada a conseguir medidas que caractericen al temblor. El uso de estadísticas de segundo orden PSD, no fue suficiente para lograr discriminar los tipos de temblor debido a que la densidad de poder espectral y la frecuencia del temblor se encuentran en rangos muy similares. Pero existe un factor muy importante a ser tomando en cuenta y es que muchas de las muestras pueden estar contaminadas de ruido provenientes de varios factores, así se está en presencia de un proceso no lineal y no Gaussiano, por lo que se optó utilizar las herramientas de estadística de orden superior HOSA, los espectros de tercer y cuarto orden llamados biespectros y triespectros, respectivamente, que son capaces de detectar y caracterizar las propiedades no lineales de una señal. Como se mencionó, lo que se busca es caracterizar cada tipo de temblor y que posteriormente sirva para diferenciarlos, para ello se aplicó las estadísticas de segundo orden PSD y los espectros de orden superior HOSA para extraer medidas de cada una de las pruebas. Hay que recordar que cada prueba fue obtenida siguiendo la trayectoria de un patrón determinado y la información fue registrada por el sistema DIMETER a una frecuencia de 100 muestras por segundo a través del dispositivo háptico PHAMToN, cuya precisión es de 0.03 mm, lo que significa que durante las pruebas la posición de mano del paciente será registrado con una alta precisión. 137 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 4.3.1 FILTRADO DEL TEMBLOR Para iniciar con la extracción de medidas se contó inicialmente con una base de datos de 93 muestras válidas, donde los pacientes realizaron la mayor cantidad de pruebas (las pruebas de cada mano se considera una muestra), de las cuales: 10 pertenecen a los 7 pacientes con temblor esencial, 47 corresponden a 23 pacientes con temblor parkinsoniano, y 36 que pertenecen a 20 pacientes con temblor fisiológico. Las series temporales de las pruebas realizadas necesitan ser filtradas, para ellos se emplea un filtro digital paso alto para eliminar las componentes del movimiento sobre la trayectoria de algunos patrones como las espirales o las sinusoides y también eliminar las tensiones de offset. El rango de frecuencia en la que se produce el temblor en pacientes con EP y TE según lo indicado en el Capítulo 1, éste se encuentra entre generalmente en un rango de 3-12Hz, por lo que es conveniente que todas las frecuencias menores sean descartadas. Se construyó un script en Matlab con la función butter que permite diseñar un filtro digital paso alto Butterworth de orden N y devuelve en el vector B (numerador) y en el vector A (denominador) de longitud N+1 los coeficientes del filtro: [B, A] = butter (N, Wn, 'high') Donde: N=7; Wn: es la frecuencia normalizada definida como fcutoff/fNyq; fcutoff=3Hz; fNyq= Fs/2; Fs=100Hz es la frecuencia de muestreo. 'high': diseña el filtro paso alto. Una vez diseñado el filtro digital paso alto, se filtran las señales que ingresan en forma de vectores, como cada prueba varía en duración, se estableció que cada vector de entrada tenga un periodo de observación de aproximadamente 10 segundos, posteriormente se filtró cada señal utilizando la función filtro, pasando los datos de cada muestra en el vector x por el filtro descrito por los vectores A y B: X = filtro (B, A, x) Donde: X es la señal filtrada. 138 FUENTE DE LOS DATOS – PREPARACIÓN DE LAS MUESTRAS 4.3.2 CARACTERIZACIÓN DEL TEMBLOR El temblor esencial (TE) y la enfermedad de parkinson (EP), se encuentran entre los trastornos de movimiento más frecuentes, el solapamiento entre los síntomas y signos conlleva a que clínicamente sean confundidos por ser patologías muy similares (temblor) y más aún cuando se habla del hecho de que una sea el factor de riesgo para la otra. Si bien la EP presenta el típico temblor de reposo, también se expresa como un temblor postural muy similar al del TE y es una de las causas que dificulta el diagnóstico. Una forma de temblor postural en la EP es el temblor reemergente y se manifiesta tras un periodo de latencia al mantener una postura en concreto presentando y es muy similar al temblor de reposo parkinsoniano, especialmente en su frecuencia. Otros síntomas como la depresión, la fatiga, la pérdida de peso y el deterioro cognitivo también relacionan a ambas patologías. Con respecto al tratamiento, ambas patologías tiene caminos distintos, las terapias y medicamentos utilizados para tratar la EP no funcionan para tratar el TE y viceversa; si un médico diagnostica erróneamente la enfermedad de un paciente puede someterlo a tratamientos equivocados. Éstos antecedentes reafirman el objetivo de esta investigación, caracterizar al temblor de forma que logren ser diferenciados y mediante técnicas de aprendizaje automático contribuir al diagnóstico. En el trabajo realizado por C. Rubio [85] se logró encontrar medidas para caracterizar el temblor. Utilizando la densidad espectral de potencia PSD con el método de Welch se obtuvo 9 medidas y con los espectros de orden superior: biespectro y triespectro se obtuvo 10 y 7 medidas respectivamente (el código utilizado en Matlab es el indicado en la Sección 3.2.1 y 3.2.2). El código del programa utilizado en [85] tuvo que ser ligeramente modificado con el que se obtuvo vectores con 26 medidas (atributos numéricos), a partir de las series temporales de cada prueba. En la Tabla 4.1 se indica las medidas y su formulación. Una vez obtenidas las medidas de todas las pruebas, se debe hacer una inspección minuciosa de la base de datos en búsqueda de información faltante, de hecho se pudo comprobar que no todos los pacientes realizaron todas las pruebas o al menos en la base de datos no se encontraron algunos registros, optando por separarlos ya que la matriz de datos (formados por los muestras y sus atributos) que servirá como entrada para entrenar la máquina de soporte vectorial debe en lo posible evitar datos incompletos. 139 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. Durante el procesamiento de los datos se pudo encontrar en las muestras, atributos con valores cero o valores muy pequeños que el algoritmo LIBSVM los redondeaba a cero, al momento de normalizarlos no existía un máximo ni un mínimo provocando advertencias. Otra circunstancia que se observó es que existían pruebas realizadas dos veces por el paciente con la misma mano, se optó por conservar la que tenía la mayor cantidad de pruebas. Un problema que ya se puedo visualizar para el caso de la clasificación entre las muestras EP y TE, fue el desbalance en número. Las muestras de la EP fueron 5 veces más que las muestras de TE, más adelante se indica bajo que análisis se basó para disminuir esta relación. Las SVMs tienen esa desventaja, que en la clasificación de dos clases cuando éstas están desbalanceadas, la clase mayoritaria tiende a prevalecer y cuando se presenta un nuevo patrón de cualquier clase tiende a ser asignado a la clase mayoritaria. Descripción de la medida Fórmula 1. Máximo valor de PSD. max (PSD) 2. Máximo de la frecuencia de PSD. fmax (PSD) 3. Número de muestras del espectro para valores de PSD por encima del 0.72%. N0.72% (PSD) 4. Número de muestras del espectro para valores de PSD por encima del 2.42%. N2.42% (PSD) 5. Número de muestras del espectro para valores de PSD por encima del 95.3%. N95.3% (PSD) 6. Momento de primer orden de PSD (media). m1 (PSD) 7. Momento de segundo orden de PSD (varianza). m2 (PSD) 8. Momento de cuarto orden de PSD. m4 (PSD) 9. Momento de quinto orden de PSD. m5 (PSD) 10. Suma de los valores de la diagonal del biespectro. S (diag|bisp|) 11. Suma de los valores del biespectro. S (|bisp|) 12. Suma de los logaritmos de los valores de la diagonal del biespectro. S (log(diag|bisp|)) 13. Suma de los logaritmos de los valores del biespectro. S (log(|bisp|)) 14. Momento de primer orden de la diagonal del biespectro. m1 (diag|bisp|) 15. Momento de segundo orden de la diagonal del biespectro. m2 (diag|bisp|) 16. Momento de primer orden del logaritmo de la diagonal del biespectro. m1 (log(diag|bisp|)) 17. Valor máximo de la diagonal del triespectro. max (diag|trisp|) 18. Suma normalizada de los valores de la diagonal del triespectro. Sr (diag|trisp|) 19. Momento de primer orden de la diagonal del triespectro. m1 (diag|trisp|) 20. Momento de segundo orden de la diagonal del triespectro. m2 (diag|trisp|) 21. Momento de tercer orden de la diagonal del triespectro. m3 (diag|trisp|) 22. Número de muestras de la diagonal del biespectro por encima del 0.29%. N0.29% (diag|bisp|) 23. Número de muestras de la diagonal del biespectro por encima del 4.3%. N4.3% (diag|bisp|) 24. Número de muestras de la diagonal del triespectro por encima del 0.15%. -6 N0.15% (diag|trisp|) 25. Número de muestras de la diagonal del triespectro por encima del 5.6x10 %. N5.6e-6% (diag|trisp|) 26. Momento de quinto orden de la diagonal del biespectro. m5 (diag|bisp|) Tabla 4.1 Caracterización de temblor como vectores de 26 medidas. La fuente de esta tabla es [85]. 140 FUENTE DE LOS DATOS – PREPARACIÓN DE LAS MUESTRAS 4.4 NORMALIZADO Y ESTANDARIZADO DE LOS DATOS Debido a la naturaleza de las medidas "atributos numéricos" y sus distintas magnitudes, es necesario escalarlos o estandarizarlos para poder ser utilizados en los distintos procedimientos que se desarrollan en esta investigación. En primer lugar se hacen unas definiciones: Normalizado de un vector significa dividir par una norma del vector para hacer la longitud euclidiana del vector igual a uno. Muchas veces normalizar se refiere al cambio de escala por el valor mínimo y el rango del vector de modo que todos los elementos se encuentren entre [0,1] o [-1,1] y aunque el rendimiento es el mismo, el tiempo de cálculo puede ser diferente. Para los datos con muchas entradas cero, el escalado [0,1] mantiene la dispersidad de los datos de entrada y por lo tanto puede ahorrar el tiempo Estandarizar de un vector significa restar el valor medio de los datos a cada uno de sus componentes y luego dividirlo para la desviación estándar y así se obtiene una variable aleatoria de media cero y desviación estándar uno. El normalizado de los datos será necesario para la fase de aprendizaje y clasificación con los conjunto de entrenamiento y prueba, respectivamente. El estandarizado se aplicará sobre la matriz compuesta por las muestras y sus atributos para el análisis de los componentes principales. Tanto en el normalizado como en el estandarizado, involucra un escaldo de los datos, por ofrecer las siguientes ventajas: Evitar que los atributos de rangos numéricos altos prevalezcan sobre los de rangos numéricos más pequeños. Evitar dificultades numéricas durante el cálculo, debido a que los valores del kernel depende de un producto escalar de los vectores características, atributos con valores muy altos podrían causar problemas numéricos. La fase de aprendizaje es más rápida. Hay que tener en cuenta que el método de escalado se calcula a partir de los datos del conjunto de entrenamiento. Los datos de prueba deben escalarse en el mismo rango que los datos de entrenamiento. En la librería LIBSVM (Sección 3.1) se indica las funciones utilizada para el normalizado de los datos de entrada para la SVM. Para este trabajo e investigación todos los datos fueron escalados en el rango [0,1]. 141 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 4.5 SELECCIÓN DEL MODELO DE SVM Las máquinas de soporte vectorial tienen su esencia en la selección de la función kernel o función núcleo K ( x i , x j ) ( x i ) ( x j ) que hace un mapeo de los datos entrada desde un espacio donde no son separables linealmente a un espacio de características de mayor dimensión en donde pueden ser separados linealmente. Encontrar las funciones sobre las que se mapea en el espacio de características es un gasto computacional muy grande (incluso de la dimensión puede ser infinita), afortunadamente dentro de la función objetivo las SVMs existe un producto escalar (producto punto) que puede ser calculado en el espacio de las entradas. Por otro lado una función kernel debe satisfacer ciertas condiciones lo que ha dado lugar a que su número sea limitado, entre los kernel que han dado buenos resultados se encuentran el kernel lineal, kernel Gaussiano RBF, kernel polinomial y kernel sigmoidal (para mayores detalles, véase la Sección 2.11.2). Para que las SVMs puedan ser utilizadas como técnica de aprendizaje en problemas reales, debe ser considerada en la forma que permite un grado de error en la clasificación a la vez que se penaliza los errores, es decir la SVM no lineal de margen flexible que implementa el parámetro de regularización C que es un parámetro que debe ser ajustado por el usuario y determina la holgura del margen flexible aumentando o disminuyendo la penalización para los errores de clasificación (Sección 2.10.2.1). 4.5.1 SELECCIÓN DE LA FUNCIÓN KERNEL En el ejemplo de aplicación de la Sección 2.13, se dejó de manifiesto que utilizar kernel Gaussiano RBF conduce a buenos resultados siempre y cuando los parámetros sean seleccionados en base a un procedimiento de validación cruzada. Un punto clave es que la función kernel mantiene sus valores en un rango 0 K ( xi , x j ) 1 disminuyendo la dificultad numérica. Además, un kernel lineal es un caso particular de kernel Gaussiano RBF (Keerthi y Lin, 2003)103 dado que un kernel lineal con un parámetro de penalidad C tiene el mismo funcionamiento que el kernel ~ Gaussiano RBF con algunos parámetros (C , ) , es decir, si 2 y C 2 C . Del mismo modo, el kernel sigmoidal se comporta como un kernel Gaussiano RBF para ciertos parámetros (Lin y Lin, 2003) 104, aunque en general su uso es evitado, al parecer la función kernel sigmoidal podría en ciertas circunstancias no ser una matriz definida semi positiva que es una de las condiciones para que sea considerado como una función kernel (en su formulación no existe el producto escalar de dos vectores). 142 FUENTE DE LOS DATOS – PREPARACIÓN DE LAS MUESTRAS La función kernel polinomial presenta dificultades numéricas, los valores de la función kernel ( p xi x j 1) d tiende a infinito, mientras los valores ( p xi x j 1) d tiende a cero cuando el grado d es alto. Otra limitante es que existen muchos más parámetros para ajustar. 4.5.2 SELECCIÓN DE PARÁMETROS. VALIDACIÓN CRUZADA-MALLA DE BÚSQUEDA Para entrenar la SVM, el usuario tiene que especificar los parámetros del kernel y el término de regulación C . La librería LIBSVM (Sección 3.1) contiene una herramienta útil para comprobar una cuadrícula de parámetros y encontrar el valor de los parámetros a través de una validación cruzada con la más alta precisión. Como se indicó en la sección anterior, el kernel Gaussiano RBF es el más indicado para iniciar con el entrenamiento de la SVM y es el utilizado para en esta investigación ya que solo existen 2 parámetros que necesitan ser ajustados. La forma que emplea la LIBSVM para el kernel Gaussiano RBF es: K ( xi , x j ) exp || xi x j || 2 Donde: 1/ 2 2 según la expresión (2.91). Con este kernel los valores de (C , ) tienen que ser ajustados. El intervalo de C o y el espacio de la cuadrícula de la malla pueden ser proporcionados por el usuario o se pueden utilizar los que vienen predeterminados, formando una malla de búsqueda. El objetivo es encontrar el punto de la malla (C , ) que dado una parte del conjunto de entrenamiento encuentre la combinación de los parámetros para los cuales durante la clasificación de dicho conjunto provoquen el menor error. Luego, los parámetros encontrados son utilizados para entrenar todo el conjunto de entrenamiento y generar el modelo final. Para encontrar (C , ) se tiene que dividir el conjunto de entrenamiento en (C , ) en n subconjuntos de igual tamaño, secuencialmente un subconjunto es probado usando el clasificador entrenado en los restantes subconjuntos n - 1 . De esta forma, cada instancia de todo el conjunto de entrenamiento es sometido a prueba una vez. La precisión de la validación cruzada indica el porcentaje de datos que son correctamente clasificados. La Figura 4.16 muestra la idea de la validación cruzada. 143 subconjunto de subconjunto entrenamiento de validación subconjunto de validación subconjunto de entrenamiento Validación Cruzada conjunto de entrenamiento conjunto de prueba Base de Datos conjunto de entrenamiento AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. Figura 4.16 Implementación de la "malla de búsqueda" utilizando un bucle anidado de validación cruzada para encontrar la combinación de los parámetros C y para el menor error en la clasificación. El procedimiento de validación cruzada puede prevenir problemas de sobreajuste. Se ha encontrado que tratando secuencias de crecimiento exponencial de C y es un método práctico para identificar buenos parámetros, por ejemplo C 2 5 ,2 3 , . . ,215 y 2 15 ,2 13 , . . ,2 3 . Este método evita hacer una búsqueda exhaustiva de parámetros por aproximaciones o heurística, la LIBSVM brinda la posibilidad de graficar los resultados como la mostrada en la Figura 4.17, la zona enmarcada de color verde indica la mayor exactitud del procedimiento de validación cruzada (en este ejemplo, la exactitud es 92.3077%) y representa los parámetros (C , ) que pueden ser utilizados para generar el modelo del clasificador. 144 FUENTE DE LOS DATOS – PREPARACIÓN DE LAS MUESTRAS Figura 4.17 Malla de búsqueda gruesa para una validación cruzada de 5 veces, log 2 ( C ) 5,15 , 2 y log 2 ( ) 3, 15 , 2 . El resultado indica que C 0.5 y 8 También sirve para identificar el rango de los parámetros y de ser necesario cambiarlos generando un mallado más fino, que proporcionará parámetros de ajuste más exactos durante la validación cruzada como la mostrada en la Figura 4.18 (del ejemplo anterior aumentó la exactitud a 93.8462%). Para más detalles de la nomenclatura utilizada en el programa de la LIBSVM, refiérase al ítem 6 de la Sección 3.1. Figura 4.18 Malla de búsqueda más fina para una validación cruzada de 10 veces, log 2(C ) 3,3,1 y log 2 ( ) 5, 1, 1 . El resultado indica que C 1.0 y 8 . El kernel Gaussiano RBF es el más utilizado en las máquinas de soporte vectorial, siendo ahora muy conveniente realizar un análisis del comportamiento del clasificador SVM cuando los parámetros C y 2 (siendo 1/ 2 2 ) toman valores muy grandes o muy pequeños, ayudando a una buena compresión para emplear estrategias heurísticas más eficientes cuando el usuario se encuentra en la ardua labor de buscar el valor de los parámetros que produzcan pequeños errores de generalización. A continuación se indica algunos comportamientos asintóticos del clasificador SVM con un kernel Gaussiano RBF y en la Figura 4.19 se hace una representación gráfica105: Un subajuste severo hace que los datos de entrada sean asignados a la clase mayoritaria en los siguientes casos: a. Cuando 2 se mantiene fijo y C 0 ; 145 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. b. Cuando 2 0 y C se fija a un valor suficientemente pequeño; y c. Cuando 2 y C se mantiene fijo. Un grave sobreajuste crea pequeñas regiones a manera de islas alrededor de las muestras de entrenamiento de la clase minoritaria y el resto del espacio de datos se clasifica como la clase mayoritaria, esta circunstancia ocurre cuando: d. Cuando 2 0 y C se fija en un valor muy grande. También se produce un sobreajuste, no tan extremo como en el caso anterior, el clasificador SVM separa estrictamente las muestras de entrenamiento en la siguiente condición: e. Cuando 2 se mantiene fijo y C . Un caso particular se presenta cuando el kernel Gaussiano RBF se comporta como un kernel lineal, en la siguiente situación: ~ ~ ~ f. Cuando 2 y C C 2 cuando C se mantiene fijo ( C parámetro de penalización). 1 1 1 0.5 0.5 0.5 0 a. 0.5 1 5* 1 c. 0 0.5 * log 0.5 0 a. 1 -5 * -2 * 0 0 * 1 2 4 6 * 0 1 1 0.5 0.5 0.5 a. 0.5 1 0 1 log C 0.5 * 1 0 f. 0.5 2 0 * 0.5 1 b. 0.5 1 0 e. 0.5 1 d. 0.5 1 Figura 4.19 Representación gráfica del comportamiento de los parámetros de un clasificado SVM con un kernel Gaussiano RBF. Se considera un conjunto de datos con 11 ejemplos de la clase "+1" que es la clase mayoritaria (cuadrados) y 7 ejemplo de de la clase "-1" que representan la clase minoritaria (triángulos). La gráfica central 146 FUENTE DE LOS DATOS – PREPARACIÓN DE LAS MUESTRAS tiene en su entorno asteriscos (*) indicando para las correspondientes gráficas el comportamiento del clasificador para distintos casos de combinación de C y . Cuando el número de atributos es mucho más grande que el número de muestras, puede que no exista la necesidad de mapearlos a un espacio de características de alta dimensión, es decir el mapeo no lineal no mejorará el rendimiento y lo más recomendable es utilizar un kernel lineal y solo existiría un parámetro por buscar C . Se puede utilizar la validación cruzada implementada en el kernel Gaussiano RBF para encontrar el valor de C al utilizar un kernel lineal, ajustando un falso , es decir log 2( ) 1, 1, 1 . También se puede utilizar un kernel polinomial, existen tres parámetros de ajuste C , p y d (expresión (2.90)). Desafortunadamente, la técnica utilizada en el kernel Gaussiano RBF no se puede aplicar para encontrar los valores de éstos parámetros, pero del mismo modo la idea es hacer cuantas combinaciones sea necesario hasta encontrar la mayor exactitud en la clasificación. En la Tabla 4.2 se da un ejemplo de las distintas combinaciones que se puede probar siempre y cuando se considere p 0 . Parámetro C Grado del polinomio d (0.1, 1) (0.1, 2) (0.1, 3) (0.1, 4) (0.1, 5) (1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (10, 1) (10, 2) (10, 3) (10, 4) (10, 5) (100, 1) (100, 2) (100, 3) (100, 4) (100, 5) (1000, 1) (1000, 2) (1000, 3) (1000, 4) (1000, 5) Tabla 4.2 Combinación de parámetros para elegir un modelo de SVM con kernel polinomial. En conclusión, la selección del kernel y el ajuste de sus parámetros son la parte esencial para obtener el modelo de la SVM y no es una tarea fácil, se tiene que trabajar con estrategias heurísticas, entrenando muchas veces la SVM hasta obtener el mínimo error en la generalización. Trabajar con un kernel Gaussiano tiene sus ventajas, de acuerdo a las consideraciones hechas se puede intuitivamente hacer un juicio de si las soluciones no están siendo sobre ajustadas o sub ajustadas y cómo pueden ser evitadas manejando el parámetro de regularización C que juega un papel muy importante si se toma en cuenta que las SVM están enmarcadas dentro del principio de minimización del riesgo estructural SRM. Un kernel polinomial puede ser utilizado, evitando grados demasiado altos para evitar el sobreajuste. Finalmente un kernel lineal puede ser probado, teniendo en cuenta que el número de atributos de los datos disponibles es alto, y anteriormente ya se indicó que para esta consideración utilizar un kernel lineal puede generar buenos resultados. 147 CAPÍTULO 5 ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS 5.1 METODOLOGÍA DE LOS ENSAYOS El objetivo de la investigación está encaminado en la búsqueda de un procedimiento para obtener un modelo clasificador de la máquina de soporte vectorial (SVM) capaz de contribuir en el diagnóstico de las patologías sobre pacientes con temblor fisiológico, temblor esencial (TE) y enfermedad de parkinson (EP), utilizando para ello los datos obtenidos de las pruebas realizadas a los pacientes con el sistema DIMETER y su posterior caracterización utilizando diferentes técnicas y herramientas matemáticas para su tratamiento y análisis. La tarea de clasificación implica separar una base de datos en conjuntos de entrenamiento y prueba. Cada elemento dentro del conjunto de entrenamiento contiene un vector con varios atributos y una etiqueta de clase asignada. La finalidad de la SVM es producir un modelo basado en los datos de entrenamiento que ayude a predecir la etiqueta de los datos de prueba dados únicamente sus atributos. El conjunto de entrenamiento está formado por los pares vector-etiqueta ( xi , y i ) para i 1 . . .N donde x i n e y i {1,1} N , n es el espacio de entrada de n atributos. Las SVMs requieren la solución del siguiente problema de optimalización (Sección 2.9): Función objetivo: Minimizar f ( x ) 1 2 || w || 2 maximizar el margen Sujeto a las restricciones: y i ( w ( x i ) b) 1 i i 0 N C i i 1 min. error entrenamiento para i 1,..., N 149 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. Con C 0 , como parámetro definido por el usuario, es una penalidad para el término de error. Los vectores de entrenamiento x i son mapeados a un espacio de alta dimensión por una función . La SVM encuentra un hiperplano de separación lineal con máximo margen en este espacio de alta dimensión. La formulación dual de los multiplicadores de Lagrange brindan solución a las restricciones de desigualdad (Sección 2.10.2.3) y permite utilizar una función kernel (Sección 2.11.2) que calcula un producto escalar en el espacio de entrada en lugar de calcularlo en el espacio de alta dimensión que conllevaría a un gasto computacional muy elevado. La metodología utilizada durante el proceso de investigación se basa en 4 hipótesis en las que se realizaron diferentes tratamientos de los datos, con el propósito de obtener vectores que caractericen al temblor, entre estas a citar: Hipótesis 1. Análisis del temblor mediante curvas de ajuste. Hipótesis 2. Análisis de la amplitud y frecuencia del temblor. Hipótesis 3. Análisis del temblor con técnicas de estadística de segundo orden PSD y espectros de orden superior HOSA. Hipótesis 4. Análisis del temblor con las técnicas de PSD, HOSA y el método de los componentes principales ACP. Posterior al análisis realizado en cada hipótesis, los datos obtenidos en forma de vectores son sometidos a una tarea de clasificación y reconocimiento de patrones (Sección 2.8) con la técnica de aprendizaje automático inducido por las máquinas de soporte vectorial. El software utilizado es la librería LIBSVM (Sección 3.1) que contiene todas las herramientas necesarias para entrenar la SVM. 5.1.1 ENTRENAMIENTO DE LA SVM CON LIBSVM A continuación se indica el procedimiento utilizado para la clasificación mediante la SVM y la obtención del modelo del clasificador: 1. Formato de la base de datos. 150 1.1. Transformación de los datos en el formato de la librería LIBSVM. 1.2. Partición de los datos disponibles en los conjuntos de entrenamiento y prueba. 1.3. Normalizado de los conjuntos de entrenamiento y prueba. ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS 2. Fase de aprendizaje de la SVM. 2.1. Selección de la función kernel. 2.2. Validación cruzada para la selección de parámetros de ajuste. 2.3. Entrenamiento de la SVM. 2.4. Obtención del modelo clasificador/función de decisión. 3. Fase de prueba del modelo clasificador. 3.1. Clasificación de los vectores del conjunto de prueba utilizando el modelo clasificador. 3.2. Validación del modelo clasificador de la SVM. 4. Registro de los resultados. 5.1.1.1 FORMATO DE LA BASE DE DATOS Con el conjunto de datos disponibles previamente procesados obtenidos de cada hipótesis deben ser transformados al formato de la librería de LIBSVM (Sección 3.1.1) y hacer una partición aleatoria de la base de datos en los conjuntos de entrenamiento y prueba. En el trabajo [88] sugieren utilizar una relación del 80% y 20% pero en esta investigación tras una serie de pruebas realizadas se optó por utilizar una relación muy similar, el 70% de las muestras para el conjunto de entrenamiento y el 30% para las muestras del conjunto de prueba (Sección 3.1.2). Para evitar dificultades numéricas y acelerar el proceso de aprendizaje los datos fueron normalizados a un rango [0,1] teniendo en cuenta que el escalado se efectuó sobre el conjunto de entrenamiento, los datos de prueba fueron escalados al mismo rango que los datos de entrenamiento (literal 3 de la Sección 3.1). 5.1.1.2 FASE DE APRENDIZAJE DE LA SVM Debido a que los datos no son linealmente separables en el espacio de entrada, para la clasificación con la SVM se utiliza el algoritmo presentado en la Sección 2.11, en donde se transforman los datos utilizando los kernels: lineal, polinomial y Gaussiano RBF; la selección del kernel es el punto clave para conseguir un buen modelo del clasificador (Sección 3.1.6 y Sección 4.5). El ajuste de los parámetros libres de cada uno de los kernel ( , d , p ) y el parámetro de penalización (C ) se lleva a cabo mediante una búsqueda heurística. La selección de la combinación de parámetros que genere el modelo de la SVM con el menor error es a través de la validación cruzada de n-veces. 151 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. Hay que recordar que durante la validación cruzada el conjunto de entrenamiento se divide en n-veces ( n 5, 10) para una malla de búsqueda gruesa y fina con el fin de obtener los mejores parámetros de ajuste. Utilizando la mejor combinación de los parámetros provenientes de la validación cruzada se entrena la SVM sobre todo el conjunto de entrenamiento y se genera un modelo de clasificador o función de decisión (Sección 3.1.4). El modelo contiene aquellas muestras más representativas llamados vectores soporte, que contribuyen a la creación de la frontera de decisión y determinan el ancho del margen del clasificador. En la Sección 4.5.2 se dio algunos aspectos importantes que se debe tener en cuenta para entrever el comportamiento del clasificador de si existe un sobreajuste o un subajuste según el valor que tomen los parámetros buscados, el número de vectores soporte también juega un rol importante. Un número elevado de vectores soporte en comparación al número de muestras de entrenamiento explícitamente indica que existe un sobreajuste, mientras un número menor de vectores soporte pronostica una buena generalización y por tanto un bajo error en la clasificación. 5.1.1.3 FASE DE PRUEBA DEL MODELO CLASIFICADOR Cabe indicar que el modelo fue generado para mejorar el resultado sobre las muestras del conjunto de entrenamiento y lo que se espera es que el modelo clasifique con el menor error posible las muestras del conjunto de prueba su correspondiente clase o categoría, debido a que ambos conjuntos fueron producidos a partir de un proceso aleatorio. El modelo del clasificador, predice las etiquetas de las muestras de prueba y las separa comparando con alguna similitud con las muestras del conjunto de entrenamiento. A partir de esta comparación se realiza la validación del modelo que establece la capacidad de predecir y tomar decisiones correctas cuando al sistema se le presente nuevas muestras. Para validar el modelo se puede utilizar medidas que cuantifican su desempeño sobre los dos conjuntos de entrenamiento y prueba, es decir el error cometido durante la clasificación mediante una matriz de confusión o la curva ROC (acrónimo de Receiver Operating Characteristic, o Característica Operativa del Receptor) cuya interpretación es la representación de la razón de verdaderos positivos (VPR) frente a la razón de falsos positivos (FPR) según varía el umbral de discriminación (modelo) del clasificador. 152 ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS 5.1.1.4 REGISTRO DE LOS RESULTADOS Cada hipótesis planteada tiene un procedimiento específico con el objeto de conseguir diferentes atributos que caractericen a los vectores utilizados en el entrenamiento y en la obtención del modelo clasificador de la SVM, para cada hipótesis los resultados cuentan con dos ensayos principales: A. Clasificar entre pacientes con temblor fisiológico vs. pacientes con temblor patológico. B. Clasificar entre pacientes con temblor patológico es decir, pacientes con temblor esencial vs. pacientes con la enfermedad de parkinson. Los resultados son registrados en una tabla en la que se compara el error cometido por el modelo del clasificador de la SVM con diferentes kernel durante la fase de aprendizaje y la fase de clasificación, así como el número de vectores soporte y los valores utilizados de los parámetros de ajuste obtenidos a partir de la validación cruzada para el kernel Gaussiano RBF o un ajuste manual del parámetro de regulación (C ) para los kernel polinomial y lineal. 5.2 HIPÓTESIS 1. ANÁLISIS DEL TEMBLOR MEDIANTE CURVAS DE AJUSTE Utilizando la herramienta cftool (Curve Fitting tool) de Matlab se crearon curvas de ajuste dependiendo del patrón y del tipo de prueba: estáticas, cinéticas o dinámicas (Sección 4.2), utilizadas en la obtención de las muestras de los pacientes con temblor fisiológico y temblor patológico. Se analizó la desviación provocada por el temblor de la mano del paciente durante el movimiento realizado al seguir la trayectoria de los patrones. En este caso la única magnitud utilizada como atributo es la raíz del error cuadrático medio (RMSE) con el fin de constatar el rendimiento y la robustez de las máquinas de soporte vectorial manipulando problemas reales no lineales y generando funciones discriminantes en las tareas de clasificación de dos clases. Las curvas fueron creadas y ajustadas en los ejes X, Y, Z o según el plano en donde fue posible generarlas. 5.2.1 PROCEDIMIENTO 1. Las muestras que conforman el conjunto de datos y el porcentaje de partición para los conjuntos de entrenamiento y prueba se indica en la siguiente tabla: 153 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. Base de datos (muestras) Temblor fisiológico 36 Porcentaje de partición (%) Temblor patológico Temblor Enfermedad de esencial (TE) Parkinson (EP) 10 47 Conjunto de muestras de entrenamiento Conjunto de muestra de prueba 70 30 2. Cada una de las muestras de entrada a la SVM son vectores característicos conformados por el atributo RMSE que mide la desviación provocada por el temblor de la mano del paciente sobre el eje o el plano en el que se ejecutan las siguientes pruebas: Prueba Eje / plano PT1 PT1 PT1 PT2 PT2 PT2 PT3 PT5 PT5 PT6 PT10 PT15 PT15 PT15 PT16 PT17 x y z x y z y xy yx yx xy x y z y y 3. En las Figura 5.1 se observa las curvas de ajuste que fueron implementadas, se puede identificar como el temblor actúa durante la trayectoria del patrón en los pacientes. Las curvas (líneas, sinusoides) de color rojo indica la trayectoria que debía seguir la mano del paciente durante la prueba. Los puntos de color negro indican la posición de la mano del paciente capturado por el sistema DIMETER durante el tiempo de ejecución de la prueba. - Las gráficas a., b., c., e., corresponden a las pruebas PT1, PT2, PT3 y PT6 respectivamente, fueron ajustadas a una línea recta horizontal y b , de igual forma las pruebas PT15, PT16 y PT17 fueron ajustadas a una línea recta horizontal. - La gráfica d. corresponde a la prueba cinética PT5 y fue ajustada a una línea inclinada y 0.65 x 140 . - La gráfica f. es la representación de la prueba PT10 y fue ajustadas a una serie truncada de Fourier y a0 a1 cos(x w) b1 sen(x w) . PT1_y 160 290 150 y y y vs. N 170 295 140 285 130 280 0 500 1000 N Figura 5.1a. 154 PT2_y y vs. N 300 1500 2000 120 0 200 400 600 800 1000 N 1200 Figura 5.1b. 1400 1600 1800 2000 ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS 250 PT3_y 160 200 150 140 y y PT5_xy y vs. x y vs. N 150 100 130 50 120 0 500 1000 N 1500 -150 -100 Figura 5.1c. x 0 50 100 150 Figura 5.1d. 15 PT6_yx PT10_xy y vs. x 170 x vs. y 10 160 y 5 x -50 0 150 140 -5 130 -10 50 100 y 150 200 120 -200 250 -150 -100 Figura 5.1e. Figura 6.1 -50 x 0 50 100 150 Figura 5.1f. Ajuste de las muestras de un paciente de TEMBLOR ESENCIAL. 4. Al igual que en el paso anterior, en la Figura 5.2 y Figura 5.3 se indica como las muestras de los pacientes con la EP y temblor fisiológico son ajustados a una curva, para medir la desviación de la trayectoria provocada por el temblor en la mano del paciente. PT1_y y vs. N 300 295 150 290 145 y y PT2_y y vs. N 155 285 140 280 135 275 270 0 100 200 300 400 500 N Figura 5.2a. 600 700 800 900 1000 130 0 200 400 600 N 800 1000 1200 Figura 5.2b. 155 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. PT3_y 150 PT5_xy y vs. x y vs. N 200 150 140 y y 145 135 100 130 125 50 0 500 1000 N 1500 2000 -150 2500 -100 -50 Figura 5.2c. 50 100 150 Figura 5.2d. 10 PT6_yx x vs. y 8 PT10_xy y vs. x 165 160 6 155 4 2 150 0 145 y x 0 x -2 140 -4 135 -6 130 -8 125 50 100 150 y 200 250 -150 -100 -50 Figura 5.2e. Figura 6.2 0 x 50 100 150 Figura 5.2f. Ajuste de las muestras de un paciente con la ENFERMEDAD DE PARKINSON. Las muestras y las curvas de ajuste son las mismas que las utilizadas en la Figura 5.1. 401 145 PT1_y y vs. N PT2_y y vs. N 144 400.5 400 y y 143 142 141 399.5 140 399 139 0 200 400 600 800 N 1000 1200 Figura 5.3a. 156 1400 1600 1800 0 200 400 600 800 N Figura 5.3b. 1000 1200 1400 1600 ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS 144 PT3_y y vs. N PT5_xy y vs. x 250 142 200 y y 140 138 150 100 136 50 134 0 200 400 N 600 800 -250 1000 -200 -150 Figura 5.3c. -100 -50 x 0 50 100 150 Figura 5.3d. 0 160 PT6_yx x vs. y PT10_xy y vs. x 155 -0.2 150 -0.4 y x 145 -0.6 140 135 -0.8 130 -1 40 60 80 100 120 140 y 160 180 200 220 240 -150 -100 Figura 5.3e. Figura 6.3 -50 0 x 50 100 150 Figura 5.3f Ajuste de las muestras de un paciente con la TEMBLOR FISIOLÓGICO. Las muestras y las curvas de ajuste son las mismas que las utilizadas en la Figura 5.1. 5. Con las medidas obtenidas de las curvas de ajuste, se formó una matriz de 93 vectores x 16 atributos para la clasificación de temblor fisiológico vs. temblor patológico, y una matriz de 57 vectores x 16 atributos para la clasificación del TE vs. EP. 6. Ambas matrices fueron entrenadas según el procedimiento de la Sección 5.1.1, se dio el formato correspondiente a los datos, se entrenó la máquina SVM con los parámetros de ajuste sobre el conjunto de datos de entrenamiento, se obtuvo el modelo del clasificador y finalmente se realizó la clasificación con el conjunto de datos de prueba. 7. Los parámetros de ajuste para diferentes kernel y el error obtenido durante el entrenamiento y la clasificación son tabulados y presentados a continuación: 157 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. TABLA 5.1 CLASIFICACIÓN TEMBLOR FISIOLÓGICO VS. TEMBLOR PATOLÓGICO. Selección del modelo Función Kernel Mallado Gaussiano RBF -log2c -5,15,2 -log2g 3,-15,-2 2 3 Polinomial Lineal Fase de Entrenamiento Nº Val. Cruzada Parámetros de ajuste Modelo del Clasificador bias (b) Resultados Nº vectores Error de Error de soporte, VS entrenam. prueba C gama (ϒ) 5 2 8 -0.86 50 7.69% 3.57% 4 8 2 -1.72 27 9.23% 3.57% - - 64 - 0.33 53 - 0.00% - - 64 - -0.90 53 - 35.71% -log2c -5,15,2 5 8 - 3.14 32 9.23% 7.14% Conjunto de entrenamiento (70%): 65 muestras; Conjunto de prueba (30%): 28 muestras. Temblor fisiológico "+1", Temblor patológico "-1". TABLA 5.2 CLASIFICACIÓN TE VS. EP. Selección del modelo Función Kernel Mallado Gaussiano RBF -log2c -5,15,2 -log2g 3,-15,-2 2 - 3 Polinomial Lineal Fase de Entrenamiento Nº Val. Cruzada Parámetros de ajuste Modelo del Clasificador bias (b) Resultados Nº vectores Error de Error de soporte, VS entrenam. prueba C gama (ϒ) 5 128 0.125 3.38 21 17.50% 11.76% 10 32 0.5 1.60 23 15.00% 17.65% - 0.1 - 1.00 18 - 11.76% - - 0.1 - 1.00 17 - 11.76% -log2c -5,15,2 5 0.03125 - 1.00 21 20.00% 11.76% Conjunto de entrenamiento (70%): 40 muestras; Conjunto de prueba (30%): 17 muestras. TE "+1", EP "-1". 5.2.2 ANÁLISIS DE LOS MODELOS DEL CLASIFICADOR - Se comprobó la robustez de la SVM como método utilizado para tareas de clasificación en problemas no lineales con datos contaminados de ruido, como suele ser frecuente cuando se trata de seres humanos cuyas condiciones físicas y psicológicas influyen en gran medida en la complejidad de la tarea. - En la Tabla 5.1, existen dos modelos. El primero modelo clasificador es el obtenido con un kernel Gaussiano RBF que utilizando 27 vectores soporte (VS) logró reducir el error en la predicción de los vectores de prueba hasta el 3.57%. En el segundo caso el modelo utilizó una kernel polinomial de grado 2 con un error de prueba del 0%, en contradicción utiliza 53 VS, un número demasiado alto que hace intuir que existe sobreajuste. De esta forma se puede indicar que el primer modelo es el mejor, con un porcentaje de error pequeño y pocos VS asegurará una buena generalización. - En la Tabla 5.2, el modelo del clasificador con un kernel polinomial de grado 3 genera un error de predicción sobre los vectores de prueba de 11.76% con 17 VS. Un kernel lineal o un 158 ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS Gaussiano RBF proporcionan la misma tasa de error pero el número de VS aumenta. Se comprobó modelos con grados más altos del kernel polinomial, consecuentemente los VS empezaron a aumentar al igual que el error. - Finalmente, según en las Figuras 5.1, 5.2 y 5.3 se observa que existe gran diferencia entre las muestras de los pacientes con temblor patológico y temblor fisiológico, la SVM genera un clasificador que logra diferenciar entre ambos temblores con sólo un atributo (RMSE). Por otro lado, si se compara las muestras de TE y EP ambas presentan similitudes y la SVM no logra diferenciarlos completamente, a pesar que el error de prueba no es tan elevado los esfuerzos seguirán en encontrar atributos que caractericen mejor a ambas patologías; el desbalance en número de las muestras de TE y EP también es una desventaja. 5.3 HIPÓTESIS 2. ANÁLISIS DE LA AMPLITUD Y FRECUENCIA DEL TEMBLOR El temblor es un movimiento muscular oscilatorio, involuntario y rítmico, que implica movimientos de balanceo de una o más partes del cuerpo. El término oscilatorio, indica que el temblor es un movimiento repetido de un lado a otro entorno a una posición, cuya trayectoria va desde una posición extrema a la otra. Tratando de encontrar una forma de caracterizar al temblor de forma que sus atributos sean más determinantes para diferenciarlos, se analizó la amplitud y la frecuencia con la que se produce el movimiento oscilatorio del temblor. En la Figura 5.4 se muestra el rango de frecuencias del temblor para las patologías en cuestión: F r e c u e n c ia D IA G N Ó S T IC O A p a re ce e n : r e p o s o p o s tu r a a c c ió n in te n c ió n T e m b lo r F is io ló g ic o T e m b lo r E s e n c ia l T e m b lo r P a r k in s o n ia n o 0 fr e c u e n c ia s com ún ra ra 5 10 r a n g o d e fre c u e n c ia s b a ja m e d ia a lta Figura 6.4 15 Hz r e q u ie re p u e d e e s ta r p re s e n te d ia g n ó s tic o p r o p io d e l te m b lo r Rango de frecuencias del temblor. 159 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. La frecuencia puede ser un buen discriminante cuando se trata de diferenciar entre el temblor fisiológico y temblor parkinsoniano según el rango de frecuencia indicado en la Figura 5.4. El solapamiento del rango de frecuencias entre el temblor fisiológico y temblor esencial cuando adquieren una postura o un movimiento de acción hace que la frecuencia no sea un buen diferenciador. Del mismo modo, existe un solapamiento del rango de frecuencias entre el temblor esencial y el temblor parkinsoniano cuando se adquiere una posición de reposo, una postura o se realiza un movimiento de intención. Si bien la EP presenta el común temblor de reposo también muestra un temblor postural similar al TE llamado temblor reemergente, que se presenta tras de un periodo de latencia al mantener una postura en concreto que a su vez es muy similar al temblor de reposo parkinsoniano, complicando el diagnóstico del TE en pacientes que presentan síntomas parkinsonianos y a la vez haciendo más difícil y compleja la tarea de clasificación entre éstas dos clases. En este estudio se implementa también la amplitud como un atributo que ayude a la caracterización del temblor. En los temblores patológicos el rango de amplitud del movimiento es más amplio en comparación con el temblor fisiológico, pero nuevamente hay que tener en cuenta que estos atributos son dependientes del estado físico y psicológico del paciente a la hora de realizar las pruebas. 5.3.1 PROCEDIMIENTO 1. Para obtener la amplitud y la frecuencia de cada una de las muestras se implementó un script en Matlab "AmplitudFrecuencia.m", el código se adjunta en el ANEXO 2. Para calcular la frecuencia se tomó de referencia la frecuencia de muestreo del sistema DIMETER (100 muestras por segundo). La amplitud se calculó como el promedio de la distancia entre el valor máximo y valor mínimo en cada movimiento alternante del temblor. 2. Las muestras que conforman el conjunto de datos y el porcentaje de partición para los conjuntos de entrenamiento y prueba se indica en la siguiente tabla, las muestras de la EP fueron reducidos en comparación a los utilizados en la hipótesis 1 para balancear los datos, en especial en la clasificación entre TE y EP. Base de datos (muestras) Temblor fisiológico 36 160 Temblor patológico Temblor Enfermedad de esencial (TE) Parkinson (EP) 10 30 Porcentaje de partición (%) Conjunto de muestras de entrenamiento Conjunto de muestra de prueba 70 30 ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS 3. Cada una de las muestras de entrada a la SVM son vectores característicos conformados por los atributos de frecuencia y amplitud en los ejes X, Y, Z, con todas las pruebas. Las pruebas utilizadas se basa en el análisis realizado por [88] que sugiere las siguientes: Prueba PT1 PT2 PT3 PT5 PT6 PT8 PT9 PT10 PT11 PT15 PT16 PT17 PT18 4. La matriz de entrada para la SVM se formó de 76 vectores x 78 atributos (6 atributos por cada prueba) para la clasificación de temblor fisiológico vs. temblor patológico, y una matriz de 40 vectores x 78 atributos para la clasificación del TE vs. EP. 5. Para entrenar la SVM y seleccionar el modelo del clasificador se empleó el procedimiento descrito en la Sección 5.1.1. 6. Los parámetros de ajuste de los distintos kernel utilizados y la tasa de error cometido durante el entrenamiento y predicción se presentan en la siguientes tablas: TABLA 5.3 CLASIFICACIÓN TEMBLOR FISIOLÓGICO VS. TEMBLOR PATOLÓGICO. Selección del modelo Función Kernel Mallado Gaussiano RBF -log2c 0,15,1 -log2g 0,-15,-1 2 - 3 -log2c -5,15,2 Polinomial Lineal Fase de Entrenamiento Nº Val. Cruzada Parámetros de ajuste Modelo del Clasificador bias (b) Resultados Nº vectores Error de Error de soporte, VS entrenam. prueba C gama (ϒ) 5 128 0.003906 -0.98 14 1.89% 4.35% 10 64 0.003906 -0.93 17 1.89% 4.35% - 128 - 1.12 24 - 0.00% - 1024 - 0.97 29 - 0.00% 5 2 - 2.24 14 24.53% 4.35% Conjunto de entrenamiento (70%): 53 muestras; Conjunto de prueba (30%): 23 muestras. Temblor fisiológico "+1", Temblor patológico "-1". TABLA 5.4 CLASIFICACIÓN TE VS. EP. Selección del modelo Función Kernel Mallado Gaussiano RBF -log2c -5,15,2 -log2g 3,-15,-2 2 - 3 Polinomial Lineal Fase de Entrenamiento Nº Val. Cruzada Parámetros de ajuste Modelo del Clasificador bias (b) Resultados Nº vectores Error de Error de soporte, VS entrenam. prueba C gama (ϒ) 5 32 0.0078125 -0.42 13 10.71% 8.33% 10 8 0.015625 -0.20 15 10.71% 8.33% - 256 - 1.49 14 - 8.33% - - 256 - 1.09 14 - 25.00% -log2c -5,15,2 5 0.03125 - 1.35 15 25.00% 16.67% Conjunto de entrenamiento (70%): 28 muestras; Conjunto de prueba (30%): 12 muestras 7. Con el fin de comprobar el desempeño de la SVM con un conjunto de entrada más amplio, se realizó un ensayo para clasificar TE y EP incrementando los vectores de entrada, para tal efecto se consideró a cada prueba con sus 6 atributos como un vector, formando la matriz de entrada para la SVM con 472 vectores x 6 atributos (frecuencia y amplitud por cada eje X, Y, Z). 161 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 8. EL entrenamiento de la SVM siguió el procedimiento de la Sección 5.1.1. 9. Los parámetros del modelo clasificador obtenido para diferentes kernel, así como los valores del error generado en el entrenamiento y la prueba se resumen en la siguiente tabla: TABLA 5.5 CLASIFICACIÓN TE VS. EP. Selección del modelo Función Kernel Mallado Gaussiano RBF -log2c -5,15,2 -log2g 3,-15,-2 - Polinomial Lineal 2 3 Fase de Entrenamiento Nº Val. Cruzada Parámetros de ajuste Modelo del Clasificador bias (b) Resultados Nº vectores Error de Error de soporte, VS entrenam. prueba C gama (ϒ) 5 512 0.125 13.47 123 15.76% 9.15% 10 32 0.5 3.22 125 16.36% 9.86% - 512 - 1.46 125 - 9.86% - - 512 - 1.09 131 - 13.38% -log2c -5,15,2 5 8 - 2.12 128 16.36% 9.15% Conjunto de entrenamiento (70%): 330 muestras; Conjunto de prueba (30%): 142 muestras. TE "+1", EP "-1". 5.3.2 ANÁLISIS DE LOS MODELOS DEL CLASIFICADOR - El error en la clasificación entre temblor fisiológico y temblor patológico de la Tabla 5.3, dan cuenta que con la frecuencia y la amplitud se pueden lograr el objetivo, encontrar un clasificador SVM que diferencie ambas temblores y los clasifique correctamente. Utilizando un kernel polinomial de grado 2 se logra el 0% de error de prueba con 24 VS, por otro lado un clasificador con kernel Gaussiano RBF genera un error del 4.35% con solo 14 VS. Se puede sacrificar la precisión del kernel polinomial por una buena generalización proporcionada por el kernel Gaussiano RBF con pocos VS. - La clasificación entre TE y EP sigue presentando dificultad, un aspecto que afecta es el desbalance que existe entre el número de muestras de ambas patologías, las muestras EP son más numerosas, cuando existe un desbalance considerable la SVM asigna a los vectores de prueba a la clase mayoritaria. La Tabla 5.4 señala que el mejor modelo utiliza un kernel Gaussiano con un error de predicción del 8.33% con 13 VS. - En el segundo ensayo para clasificar entre TE y EP se incrementó el número de vectores de entada a la SVM, cada prueba realizada por cada paciente se tomó como un vector, el error de predicción mínimo logrado por el modelo clasificador fue del 9.15%, Tabla 5.5, muy similar al error cometido con el anterior modelo con el 8.33% de error. Sin embargo, el hecho de incrementar los vectores de entrada disminuyendo los atributos no disminuyó el error, lo que plantea la necesidad de buscar nuevos atributos que al incrementar el número de vectores de entrenamiento mejore la predicción y disminuya el error en la clasificación. 162 ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS 5.4 HIPÓTESIS 3. ANÁLISIS DEL TEMBLOR CON TÉCNICAS DE ESTADÍSTICA DE SEGUNDO ORDEN PSD Y ESPECTROS DE ORDEN SUPERIOR HOSA Hasta el momento el algoritmo de aprendizaje implementado por las máquinas de soporte vectorial ha demostrado ser eficiente y robusto ante problemas complejos no lineales y contaminados con ruido, proporcionando resultados mucho mejores que en trabajos realizados anteriormente en la misma línea de investigación. La dificultad no está en generar un clasificador con el método de la SVM sino en que los atributos que caracterizan al temblor sean los adecuados. La correcta elección de los atributos aporta mayor potencia para crear una característica determinante que ayude a diferenciar los distintos tipos de temblores. Con esta premisa y buscando nuevos atributos se ocupó el planteamiento realizado por [85] en lo que concierne al filtrado y caracterización del temblor mediante: técnicas de estadística de segundo orden PSD que mide la densidad espectral de potencia promedio de una señal versus su frecuencia; y técnicas derivadas de las estadísticas de orden superior HOSA como son los espectros de tercer y cuarto orden llamados biespectros y triespectros, respectivamente, que son capaces de detectar y caracterizar las propiedades no lineales de una señal (Sección 3.2.1 y 3.2.2). El filtrado y la obtención de los atributos para la caracterización de las muestras se consiguió con el procedimiento explicado en la Sección 4.3, el programa fue reutilizado de [85] y actualizado a las nuevas versiones de Matlab y archivados con el nombre resultadosPT.m y características.m en el ANEXO 3. Existe un problema de desbalance, entre la cantidad de muestras de EP que es mucho mayor que las muestras de TE, siendo un factor para que el error incremente durante el proceso de aprendizaje y clasificación. El clasificador SVM durante la fase de aprendizaje genera una región mucho mayor para la clase mayoritaria (EP) lo que hace susceptible a que durante la fase de clasificación las muestras de prueba de cualquiera de la dos clases se ubique en esta región, haciendo que las muestras de la clase minoritaria (TE) sean clasificadas erróneamente. Para evitar este grave problema y tratar de disminuir las muestras de la EP conservando las más representativas se utilizó el Análisis de Componentes Principales ACP (Sección 3.2.3) que es una herramienta muy versátil y útil para la reducción de datos, permitiendo visualizar, determinar y rechazar muestras ruidosas, mal etiquetadas, valores atípicos, incongruentes o excepcionales. 163 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. La visualización en el espacio de los 2 primeros componentes principales (plano) permitió la comprensión del comportamiento de los datos y observar la forma de la distribución. Para identificar las muestras de comportamiento anormal de las que se pueden prescindir para disminuir el conjunto de EP, evitando excluir aquellas muestras que se encuentran bien caracterizadas se aplicó la distancia de Mahalanobis, como una forma de determinar la similitud o disimilitud entre las muestras (Sección 3.2.5) con respecto a una clase. Aplicar la distancia de Mahalanobis resulta muy útil cuando se conoce la forma de la distribución de los datos representados, se puede estudiar la varianza que existe entre los datos más dispersos y los menos alejados con respecto a su media. Dependiendo de la forma de la distribución los datos más alejados o dispersos de la media podría representar valores atípicos que pueden ser los generadores del error en la clasificación y que posiblemente pueden ser retirados, para esta identificación se emplea el coeficiente de Curtosis (Sección 3.2.4) que indica cuan concentrados están los datos respecto a una distribución de probabilidad normal (campana de Gauss). 5.4.1 PROCEDIMIENTO 1. Las 13 pruebas que se utilizaron para la obtención de los atributos son las sugerida por [88] que mediante experimentos determinó que las pruebas con las que se obtiene un mínimo error son: Prueba PT1 PT2 PT3 PT5 PT6 PT8 PT9 PT10 PT11 PT15 PT16 PT17 PT18 2. Se generó los vectores con 26 atributos con los scripts resultadosPT.m y características.m: 9 obtenidos con el espectro de potencia PSD, 10 mediante el biespectro y 7 correspondientes al triespectro. La Tabla 4.1 muestra la descripción y formulación de las 26 medidas aplicadas. 3. Las muestras iniciales que conforman el conjunto de datos sobre los que se generan los atributos se indican en la siguiente tabla: Base de datos (muestras) Temblor fisiológico 36 Temblor patológico Temblor Enfermedad de esencial (TE) Parkinson (EP) 10 47 4. Antes de continuar, dentro de los temblores patológicos se percibió un desbalance muy notorio de datos entre el TE (10) y la EP (47), para reducir esa relación se utilizó el análisis de componentes principales para visualizar el comportamiento de las muestras y en lo posible 164 ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS descartar los valores atípicos. El ACP descrito en la Sección 3.2.3 requiere de la matriz A, que en este caso está formada por las 57 muestras del temblor patológico (filas), con sus 26 atributos por cada prueba (columnas). La matriz A es normalizada a media 0 y varianza 1, usando la media y la desviación estándar a lo largo de cada columna de A, la salida del ACP es la matriz SCORE que contiene la transformación lineal de los datos originales en un nuevo sistema de coordenadas donde cada columna de la matriz SCORE son los nuevos ejes o componentes principales y están ordenados en forma descendente según desciende su varianza. 5. Generalmente, los primeros componentes principales poseen la varianza más alta, se podría decir que contienen la mayor información, para efectos de visualización de los datos tanto de TE como de la EP se seleccionó las dos primeras componentes más significativas y se representó los datos en el plano como se muestra en la Figura 5.5. La línea azul representa el nuevo eje o primer componente principal en el nuevo sistema de coordenadas (se obvió representar los demás ejes para lograr visualizar la posición de cada muestra). -3 x 10 v1 3 2 Componente 2 1 0 x3 x8 x2 -1 x9 x10 x1 x7 -2 x6 -3 x5 -4 x4 -5 -1 0 1 2 3 4 Componente 1 5 6 7 8 -3 x 10 Figura 6.5 Representación de las muestras patológicas en el espacio de los componentes principales. Los puntos rojos indican la distribución de las muestras de la EP; los puntos verdes muestran la distribución de las muestras del TE las mismas que están etiquetadas con x1 hasta x10. 165 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 6. En la Figura 5.8 está enmarcado con una circunferencia las muestras de EP forman una nube de puntos mayormente concentrada con algunos puntos dispersos. Las muestras de la EP se encuentran muy dispersas. Se aplicó el coeficiente de Curtosis para analizar el grado de concentración que presentan los valores alrededor de la zona central de la distribución. Cuando el coeficiente k>0 se tiene una distribución leptocúrtica o "apuntada". El coeficiente k es mucho mayor en las muestras de EP y es sobre ésta que se experimentó descartando aquellas muestras dispersas con el fin de lograr un área más definida por ésta clase. COEFICIENTE CURTOSIS (k) 1er Componente 2do Componente Muestras de TE 6.44 2.10 Muestras de EP 37.41 12.96 7. La distancia de Mahalanobis permitió identificar aquellas muestras dispersas de EP respecto a su centroide según el procedimiento de la Sección 3.2.5. En la siguiente tabla muestra la distancia de Mahalanobis de todas las muestras de EP con respecto a su media, existen algunas distancias altas (marcadas con azul) que indican una cierta disimilitud, son muestras atípicas que fueron retiradas tras ser analizadas. DISTANCIA DE MAHALANOBIS 1 0.391 9 0.135 17 0.156 25 0.504 33 3.872 41 0.246 2 0.342 10 0.208 18 0.511 26 5.276 34 0.398 42 0.505 3 0.422 11 3.525 19 0.340 27 0.211 35 0.352 43 0.679 4 0.389 12 0.201 20 0.288 28 0.697 36 0.431 44 0.846 5 0.456 13 0.293 21 0.227 29 0.740 37 0.270 45 0.383 6 0.235 14 0.241 22 0.918 30 0.565 38 0.261 46 0.754 7 0.542 15 0.316 23 0.333 31 0.464 39 0.775 47 0.575 8 0.175 16 0.402 24 0.648 32 0.443 40 0.111 8. La Figura 5.6 representa la ubicación de las muestras de EP y TE con respecto a sus centroides representados con un "*" azul y marrón respectivamente, antes de retirar los valores atípicos. En la Figura 5.7 muestra la ubicación de los datos luego de la sustracción, claramente se puede distinguir que la distribución de las muestras de EP (puntos rojos) es más densa, mientras que las muestras de TE (puntos verdes) tienen una distribución dispersa. 166 ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS 30 0.8 Muestras Temblor Esencial Muestras Temblor Parkinsoniano Centroides 0.7 10 0.6 0 0.5 -10 0.4 -20 0.3 -30 0.2 -40 -50 -10 Figura 6.6 Distancia de Mahalanobis 20 0.1 0 10 20 30 40 50 60 70 Representación de las muestras de temblor patológico con valores atípicos. 60 Muestras Temblor Esencial 1.1 Muestras Temblor Parkinsoniano Centroides 1 0.9 20 0.8 0.7 0 0.6 0.5 -20 0.4 -40 Distancia de Mahalanobis 40 0.3 0.2 -60 -10 Figura 6.7 0 10 20 30 40 50 60 70 Representación de las muestras de temblor patológico sin valores atípicos. 9. Cada vez que se retiraron muestras se realizó un nuevo ACP y un nuevo cálculo de la distancia de Mahalanobis debido a que la extracción de datos provoca un cambio sobre el valor medio y la desviación estándar sobre la matriz de entrada del ACP. Con el método anterior se obtuvo un número de muestras más proporcionales de cada tipo de temblor. Las muestras pertenecen a los pacientes enunciados en el ANEXO 4: TEMBLOR FISIOLÓGICO 34 TEMBLOR PATOLÓGICO 56 TEMBLOR ESENCIAL 9 TEMBLOR PARKINSONIANO 27 10. Para entrenar la SVM y clasificar las muestras del conjunto de prueba para todos los ensayos se siguió el procedimiento detallado en la Sección 5.1.1. 167 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 11. Para la clasificación del temblor fisiológico y temblor patológico la matriz de entrada a la SVM constó de 90 muestras y 26 atributos para cada una de las pruebas. Los parámetros del modelo clasificador y el error cometido en el entrenamiento y prueba son los siguientes: TABLA 5.6 CLASIFICACIÓN TEMBLOR FISIOLÓGICO VS. TEMBLOR PATOLÓGICO. Selección del modelo Función Kernel Mallado Gaussiano RBF -log2c -5,15,2 -log2g 3,-15,-2 - Polinomial Lineal Fase de Entrenamiento Nº Val. Cruzada Modelo del Clasificador Parámetros de ajuste bias (b) Resultados Nº vectores Error de Error de soporte, VS entrenam. prueba C gama (ϒ) 5 512 0.000488281 2.68 35 9.38% 0.00% 10 512 0.00012207 2.79 39 7.81% 0.00% - 512 - 1.08 35 - 7.41% - - 512 - 1.19 41 - 11.11% -log2c -5,15,2 5 32 - 1.28 35 35.94% 3.70% 2 3 Conjunto de entrenamiento (70%): 63 muestras; Conjunto de prueba (30%): 27 muestras. Temblor fisiológico "+1", Temblor patológico "-1". 12. La clasificación entre TE y EP presenta mayor dificultad debido a que el temblor presenta características muy similares en ambos tipos, por lo que ensayó con varias configuraciones de los datos con el objetivo de identificar los atributos (PSD, biespectro, triespectro) y las pruebas (cinéticas, estáticas, dinámicas) que mejor caracterizan a cada tipo de temblor. Las configuraciones realizadas se presentan en la siguiente tabla: PRUEBAS CINÉTICAS PRUEBAS DINÁMICAS (7) PT3, PT5, PT6, PT8, (4) PT15, PT16, PT17, PT9, PT10, PT11. PT18. 9/27 7/27 525 300 PRUEBAS EST.+CIN.+DIN. (13) PRUEBAS ESTÁTICAS (2) PT1, PT2 Muestras TE/EP Atributos (25) 9/27 975 9/27 150 Tabla 5.7 Tabla 5.8 Tabla 5.9 Tabla 5.10 Muestras TE/EP Atributos (25) 106/341 75 18/54 75 63/189 75 25/98 75 Tabla 5.11 Tabla 5.12 Tabla 5.13 Tabla 5.14 13. Cabe indicar que para entrenar la SVM se decidió eliminar el atributo 22 debido a que algunas pruebas no permitía un normalizado por presentar un mismo valor lo que provocaba confusión a la SVM (atributos con valor cero). Según la configuración a ser analizada cada vector característico consta de 25 atributos por cada prueba en sus tres ejes X, Y, Z. 14. Los parámetros del modelo de la SVM y la tasa de error para las cuatro primeras configuraciones se presentan a continuación, en donde se considera un conjunto de muestras reducido, con una cantidad de atributos mucho más grande que el número de muestras: 168 ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS TABLA 5.7 CLASIFICACIÓN TE VS. EP PARA LAS 13 PRUEBAS. Selección del modelo Función Kernel Mallado Gaussiano RBF -log2c -5,15,1 -log2g 3,-15,-1 2 - 3 Polinomial Lineal Fase de Entrenamiento Nº Val. Cruzada Parámetros de ajuste Modelo del Clasificador bias (b) Resultados Nº vectores Error de Error de soporte, VS entrenam. prueba C gama (ϒ) 5 16 0.001953125 -0.37 18 15.38% 0.00% 10 64 0.0078125 -0.33 22 15.38% 0.00% - 128 - -1.34 15 - 9.09% - - 256 - -0.97 15 - 9.09% -log2c -5,15,2 5 1 - -1.87 16 23.08% 9.09% Conjunto de entrenamiento (70%): 25 muestras; Conjunto de prueba (30%): 11 muestras. TE "+1", EP "-1". TABLA 5.8 CLASIFICACIÓN TE VS. EP CON 2 PRUEBAS ESTÁTICAS. Selección del modelo Función Kernel Mallado Gaussiano RBF -log2c 0,15,1 -log2g -4,-15,-1 2 - 3 Polinomial Lineal Fase de Entrenamiento Nº Val. Cruzada Parámetros de ajuste Modelo del Clasificador bias (b) Resultados Nº vectores Error de Error de soporte, VS entrenam. prueba C gama (ϒ) 5 64 0.000976565 -0.25 18 20.00% 18.18% 10 16 0.00390625 -0.21 19 20.00% 18.18% - 16 - 0.83 18 - 18.18% - - 128 - 0.81 19 - 18.18% -log2c -5,15,2 5 0.03125 - 0.71 18 24.00% 18.18% Conjunto de entrenamiento (70%): 25 muestras; Conjunto de prueba (30%): 11 muestras . TE "+1", EP "-1". TABLA 5.9 CLASIFICACIÓN TE VS. EP CON 7 PRUEBAS CINÉTICAS. Selección del modelo Función Kernel Mallado Gaussiano RBF -log2c -5,15,2 -log2g 3,-15,-2 2 - 3 Polinomial Lineal Fase de Entrenamiento Nº Val. Cruzada Parámetros de ajuste Modelo del Clasificador bias (b) Resultados Nº vectores Error de Error de soporte, VS entrenam. prueba C gama (ϒ) 5 8 0.0078125 -0.08 17 12.00% 0.00% 10 64 0.0078125 -0.06 17 12.00% 0.00% - 64 - -0.43 15 - 0.00% - - 256 - -0.37 16 - 0.00% -log2c -5,15,2 5 0.03125 - -0.49 16 24.00% 9.09% Conjunto de entrenamiento (70%): 25 muestras; Conjunto de prueba (30%): 11 muestras. TE "+1", EP "-1". TABLA 5.10 CLASIFICACIÓN TE VS. EP CON 4 PRUEBAS DINÁMICAS. Selección del modelo Función Kernel Mallado Gaussiano RBF -log2c 0,15,1 -log2g -4,-15,-1 2 - 3 Polinomial Lineal Fase de Entrenamiento Nº Val. Cruzada Parámetros de ajuste Modelo del Clasificador bias (b) Resultados Nº vectores Error de Error de soporte, VS entrenam. prueba C gama (ϒ) 5 128 0.000488281 -0.03 16 17.39% 9.09% 10 32 0.001953215 -0.03 16 17.39% 18.18% - 2 - 0.97 16 - 0.00% - - 64 - 0.86 19 - 9.09% -log2c -5,15,2 5 0.03125 - 0.57 16 21.74% 18.18% Conjunto de entrenamiento (70%): 23 muestras; Conjunto de prueba (30%): 11 muestras. TE "+1", EP "-1". 169 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 15. Posteriormente, en los siguientes cuatro ensayos cada prueba fue considerada como un vector de entrada a la SVM, incrementando el número de muestras a la vez que se disminuyó el número de atributos. En este punto se encontró algunas pruebas vacías o no realizadas por los pacientes y se optó por retirarlas. 16. Los modelos obtenidos para el clasificador SVM con diferentes kernel y con sus respectivos parámetros, así como la tasa de error durante las fases de entrenamiento y prueba se presenta en las siguientes tablas: TABLA 5.11 CLASIFICACIÓN TE VS. EP PARA LAS 13 PRUEBAS. Selección del modelo Función Kernel Mallado Gaussiano RBF -log2c -5,15,2 -log2g 3,-15,-2 2 - 3 Polinomial Lineal Fase de Entrenamiento Nº Val. Cruzada Parámetros de ajuste Modelo del Clasificador bias (b) Resultados Nº vectores Error de Error de soporte, VS entrenam. prueba C gama (ϒ) 8 0.5 -0.18 134 11.18% 7.46% 10 4 1 -0.06 158 11.18% 9.70% - 1024 - 1.13 105 - 8.21% - - 1024 - 0.27 117 - 9.70% -log2c -5,15,1 - 4 - 2.45 101 - 10.45% 5 Conjunto de entrenamiento (70%): 313 muestras; Conjunto de prueba (30%): 134 muestras. TE "+1", EP "-1". TABLA 5.12 CLASIFICACIÓN TE VS. EP CON 2 PRUEBAS ESTÁTICAS. Selección del modelo Fase de Entrenamiento Nº Val. Cruzada Parámetros de ajuste Modelo del Clasificador Nº vectores Error de Error de soporte, VS entrenam. prueba Función Kernel Mallado Gaussiano RBF -log2c 0,10,1 -log2g-2,-8,-1 5 16 0.015625 -0.14 32 22.00% 13.64% 10 64 0.00390625 -0.21 30 22.00% 13.64% 2 - - 128 - 0.41 32 - 13.64% 3 -log2c -5,15,1 -log2g 1,1,1 - 512 - 0.66 33 - 13.64% 5 0.03125 - 0.80 29 26.00% 18.18% Polinomial Lineal C Conjunto de entrenamiento (70%):50 muestras; gama (ϒ) bias (b) Resultados Conjunto de prueba (30%): 22 muestras. TE "+1", EP "-1". TABLA 5.13 CLASIFICACIÓN TE VS. EP CON 7 PRUEBAS CINÉTICAS. Selección del modelo Fase de Entrenamiento Nº Val. Cruzada Parámetros de ajuste Mallado Gaussiano RBF -log2c -5,15,2 -log2g 3,-15,-2 5 32 0.125 0.67 55 10.23% 2.63% 10 256 0.03125 1.94 51 9.09% 3.95% 2 - - 1024 - -0.13 54 - 5.26% 3 - - 1024 - -0.66 63 - 7.89% -log2c -5,15,2 5 2 - 0.08 57 21.02% 6.58% Lineal C Conjunto de entrenamiento (70%): 176 muestras; gama (ϒ) bias (b) Resultados Nº vectores Error de Error de soporte, VS entrenam. prueba Función Kernel Polinomial 170 Modelo del Clasificador Conjunto de prueba (30%): 76 muestras. TE "+1", EP "-1". ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS TABLA 5.14 CLASIFICACIÓN TE VS. EP CON 4 PRUEBAS DINÁMICAS. Selección del modelo Fase de Entrenamiento Nº Val. Cruzada Parámetros de ajuste Modelo del Clasificador Función Kernel Mallado Gaussiano RBF -log2c -5,15,2 -log2g 3,-15,-2 5 512 0.0078125 1.25 38 12.79% 8.11% 10 2048 0.001953125 -0.48 38 13.95% 8.11% 2 - - 512 - 0.82 42 - 8.11% 3 - - 2048 - 0.29 42 - 8.11% -log2c -5,15,2 5 2 - 1.73 38 18.60% 10.81% Polinomial Lineal gama (ϒ) C Conjunto de entrenamiento (70%): 86 muestras; bias (b) Resultados Nº vectores Error de Error de soporte, VS entrenam. prueba Conjunto de prueba (30%): 37 muestras. TE "+1", EP "-1". 5.4.2 ANÁLISIS DE LOS MODELOS DEL CLASIFICADOR - La clasificación entre el temblor fisiológico y temblor patológico con los atributos de PSD, biespectro y triespectro, proporcionaron un tasa de error del 0% con un número de VS=35, indicando que con estos atributos quedan caracterizados correctamente ambos temblores. - De los primeros cuatro ensayos realizados para clasificar el TE y EP con un número de atributos mucho más amplio que el número de muestras; del primer ensayo se deduce que una combinación de todas las pruebas caracterizan a las muestras de ambas clases con una tasa de error en la clasificación del 0%, al igual que si se utiliza solamente las pruebas cinéticas. Las pruebas estáticas a pesar de estar enfocadas a caracterizar el temblor parkinsoniano, no logra diferenciarlo, provocado un error en la clasificación del 18.18% para el mejor modelo de la SVM. Por otro lado, las pruebas dinámicas en las que se aplicaron fuerzas virtuales para oponerse al movimiento del temblor a lo largo de la trayectoria del patrón de prueba no logran caracterizar a ambos temblores, sin embargo la SVM consigue clasificarlos correctamente con un modelo que emplea un kernel polinomial de grado 2. - En las cuatro últimas configuraciones en donde el número de vectores son cada una de las muestras de cada prueba es más amplio que el número de atributos; en todos los casos la tasa de error es bastante aceptable en comparación al tamaño de los conjuntos de TE y EP, las pruebas cinéticas proporcionan el mínimo error de clasificación de 2.63%. Una vez más las pruebas estáticas siguen proporcionando el mayor error en la predicción. - Finalmente, una combinación de todas las pruebas estáticas, cinéticas, dinámicas o únicamente las pruebas cinéticas son las que logran caracterizar y diferenciar ambos temblores. En todos los ensayos se observa un ligero incremento del número de los vectores soporte, convendría que 171 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. estos fuesen menor de manera que garanticen una mejor generalización. La razón por la que las pruebas estáticas no auguran un error aceptable se debe a un tipo de temblor parkinsoniano, llamado temblor reemergente que se origina tras de un periodo de latencia al mantener una postura y que es muy similar al TE. 5.5 HIPÓTESIS 4. ANÁLISIS DEL TEMBLOR CON EL MÉTODO DE COMPONENTES PRINCIPALES ACP El análisis de los componentes principales es una técnica exploratoria que permite observar la relación que existe entre los datos y reducir la dimensionalidad de la matriz de datos originales con el propósito de evitar los atributos redundantes o con poca información que fueron obtenidos a través de las técnicas de estadística de PSD, biespectro y triespectro para la caracterización del temblor; Los primeros componentes principales contienen la mayor información de todos los atributos, es decir se puede reemplazar los 26 atributos de la Hipótesis 3 por una dimensión menor en el espacio de los componentes principales. Se realizó varios ensayos entre las pruebas estáticas, cinéticas, dinámicas y en conjunto con el fin de mejorar los resultados obtenidos en los ensayos anteriores en cuanto a la generalización y a disminuir el error de predicción son conjuntos de muestras más grandes. La SVM fue entrenada con los componentes principales que contiene el mayor porcentaje de varianza. También se hizo uso del coeficiente de Curtosis y de la distancia de Mahalanobis para identificar posibles muestras atípicas debido a errores de medición, etiquetados, ruido, excepciones e incongruencias y retirarlas del análisis. 5.5.1 PROCEDIMIENTO 1. Las pruebas utilizadas fueron las sugeridas por el trabajo realizado por [88] y adicionalmente se adhirió la prueba PT13 con el fin de incrementar las muestras. Prueba PT1 PT2 PT3 PT5 PT6 PT8 PT9 PT10 PT11 PT13 PT15 PT16 PT17 PT18 2. Los atributos fueron los obtenidos en la Hipótesis 3 que son las 26 medidas correspondientes al espectro de potencia PSD, al biespectro y triespectro descritos en la Tabla 4.1. 172 ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS 3. Con el mismo método de la distancia de Mahalanobis y el coeficiente de Curtosis empleados en la Hipótesis anterior, se seleccionaron las muestras más representativas de cada tipo de temblor, hay que tener en cuenta que el limitado número de muestras del temblor esencial fue un aspecto crucial para la clasificación con la SVM, se trató de mantener las muestras disponibles de este temblor y reducir las muestras del temblor parkinsoniano para la clasificación entre ambas clases. El número de muestras de cada temblor fueron las siguientes: TEMBLOR FISIOLÓGICO 34 TEMBLOR PATOLÓGICO 56 TEMBLOR ESENCIAL 9 TEMBLOR PARKINSONIANO 27 4. Definidas las pruebas, los atributos y las muestras de cada tipo de temblor, cada conjunto a clasificar es sometido al análisis de componentes principales (Sección 3.2.3), de donde se obtuvo la matriz SCORE que es la representación de la matriz original en el espacio de los componentes principales, las filas corresponden a cada una de las muestras y las columnas a los componentes. 5. El número de componentes a elegir depende de la varianza que existe entre uno y otro componente, en la siguiente tabla se indica un ejemplo en donde se utilizó los 6 primeros componentes, la información contenida es del 90.89%. El componente principal 1 contiene la máxima información con un 38.46%, la segunda un 16.64% y así sucesivamente hasta el componente 6 que contiene un 5.05% de la información, los demás componentes no son tomados en cuenta debido a que contienen muy poca información y con ello se evita un gasto computacional causados por manejar datos con una dimensión mayor. Componente Principal Varianza acumulada Diferencia de la varianza 1 2 3 4 5 6 38.46% 55.11% 68.55% 78.18% 85.84% 90.89% 16.64% 13.44% 9.63% 7.66% 5.05% …. 26 27 28 …. 99.33% 99.99% 100.00% …. 0.02% 0.01% 0.00% 6. La matriz de entrada a la SVM se formó con el número de muestras y los componentes principales seleccionados. 7. Para entrenar la SVM y clasificar las muestras del conjunto de prueba para todos los ensayos se siguió el procedimiento de la Sección 5.1.1. 8. Para la clasificación del temblor fisiológico y temblor patológico los parámetros del modelo clasificador y el error cometido en el entrenamiento y prueba fueron los siguientes: 173 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. TABLA 5.15 CLASIFICACIÓN TEMBLOR FISIOLÓGICO VS. TEMBLOR PATOLÓGICO. Selección del modelo Función Kernel Mallado Gaussiano RBF -log2c -5,15,2 -log2g 3,-15,-2 2 - 3 Polinomial Lineal Fase de Entrenamiento Nº Val. Cruzada Parámetros de ajuste Modelo del Clasificador bias (b) Resultados Nº vectores Error de Error de soporte, VS entrenam. prueba C gama (ϒ) 5 8 0.5 1.36 36 9.52% 0.00% 10 32 0.5 1.90 28 7.94% 0.00% - 512 - 0.28 27 - 7.41% - - 2048 - -0.51 26 - 3.70% -log2c -5,15,2 5 8 - 2.01 33 9.52% 14.81% Conjunto de entrenamiento (70%): 63 muestras; Conjunto de prueba (30%): 27 muestras. Temblor fisiológico "+1", Temblor patológico "-1". 9. Se realizó algunos ensayos para la clasificación entre TE y EP que es la tarea que ha presentado mayor complejidad especialmente cuando se cuenta con conjuntos de muestras grandes. En la siguiente tabla se indica el conjunto de muestras utilizados para cada ensayo: 9/27 100/310 PRUEBAS ESTÁTICAS (2) PT1, PT2 14/43 Tabla 5.16a Tabla 5.16b Tabla 5.17 PRUEBAS EST.+CIN.+DIN. (13) Muestras TE/EP PRUEBAS CINÉTICAS (8) PT3, PT5, PT6, PT8, PT9, PT10, PT11. PT13. 69/184 PRUEBAS DINÁMICAS (4) PT15, PT16, PT17, PT18. 32/90 Tabla 5.18 Tabla 5.19 10. Los parámetros del modelo clasificador de la SVM para distintos kernel y la tasa de error cometido tanto en el entrenamiento como en la prueba se resumen en las siguientes tablas: TABLA 5.16A CLASIFICACIÓN TE VS. EP PARA LAS 14 PRUEBAS. Selección del modelo Fase de Entrenamiento Nº Val. Cruzada Parámetros de ajuste Modelo del Clasificador Nº vectores Error de Error de soporte, VS entrenam. prueba Función Kernel Mallado Gaussiano RBF -log2c -5,15,2 -log2g 3,-15,-2 5 512 0.5 -0.09 5 0.00% 0.00% 10 1024 0.25 -0.10 5 0.00% 0.00% 2 - - 1024 - -17.53 4 - 0.00% 3 - - 1024 - -13.53 4 - 0.00% -log2c -5,15,2 5 512 - -30.23 5 0.00% 0.00% Polinomial Lineal C Conjunto de entrenamiento (70%): 25 muestras; gama (ϒ) bias (b) Resultados Conjunto de prueba (30%): 11 muestras. TE "+1", EP "-1". TABLA 5.16B CLASIFICACIÓN TE VS. EP PARA LAS 14 PRUEBAS. Selección del modelo Función Kernel Mallado Gaussiano RBF -log2c -5,15,2 -log2g 3,-15,-2 - Polinomial Lineal 2 3 Fase de Entrenamiento Nº Val. Cruzada Parámetros de ajuste bias (b) Resultados Nº vectores Error de Error de soporte, VS entrenam. prueba C gama (ϒ) 5 8192 0.5 -6.50 73 11.50% 4.07% 10 4096 2 -0.85 67 9.76% 3.25% - 2048 - -9.76 71 - 4.88% - - 2048 - -11.47 71 - 6.50% -log2c -5,15,1 - 512 - -7.27 83 12.20% 6.50% Conjunto de entrenamiento (70%):287 muestras; 174 Modelo del Clasificador Conjunto de prueba (30%): 123 muestras. TE "+1", EP "-1". ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS TABLA 5.17 CLASIFICACIÓN TE VS. EP CON 2 PRUEBAS ESTÁTICAS. Fase de Entrenamiento Selección del modelo Nº Val. Cruzada Parámetros de ajuste Modelo del Clasificador Nº vectores Error de Error de soporte, VS entrenam. prueba Función Kernel Mallado Gaussiano RBF -log2c -5,15,2 -log2g 3,-15,-2 5 2048 0.5 12.24 15 12.50% 0.00% 10 1024 0.25 18.33 17 10.00% 0.00% 2 - - 128 - -5.95 20 - 0.00% 3 -log2c -5,15,1 -log2g 1,1,1 - 256 - -4.37 19 - 0.00% 5 64 - -13.95 19 20.00% 0.00% Polinomial Lineal C Conjunto de entrenamiento (70%):40 muestras; gama (ϒ) bias (b) Resultados Conjunto de prueba (30%): 17 muestras. TE"+1", EP "-1". TABLA 5.18 CLASIFICACIÓN TE VS. EP CON 8 PRUEBAS CINÉTICAS. Fase de Entrenamiento Selección del modelo Función Kernel Mallado Gaussiano RBF -log2c -5,15,2 -log2g 3,-15,-2 2 - 3 Polinomial Lineal Nº Val. Cruzada Parámetros de ajuste Modelo del Clasificador bias (b) Resultados Nº vectores Error de Error de soporte, VS entrenam. prueba C gama (ϒ) 5 512 8 -2.98 27 7.91% 0.00% 10 1024 8 -2.69 27 7.91% 0.00% - 512 - -12.09 54 - 6.58% - - 512 - -6.45 54 - 6.58% -log2c -5,15,1 5 8192 - -18.82 50 8.47% 9.21% Conjunto de entrenamiento (70%): 177 muestras; Conjunto de prueba (30%): 76 muestras. TE "+1", EP "-1". TABLA 5.19 CLASIFICACIÓN TE VS. EP CON 4 PRUEBAS DINÁMICAS. Fase de Entrenamiento Selección del modelo Nº Val. Cruzada Parámetros de ajuste Modelo del Clasificador Nº vectores Error de Error de soporte, VS entrenam. prueba Función Kernel Mallado Gaussiano RBF -log2c -5,15,2 -log2g 3,-15,-2 5 2048 0.0078125 5.45 35 18.82% 10.81% 10 2048 0.00390625 2.60 36 18.82% 10.81% 2 - - 4096 - 0.09 33 - 8.11% 3 - - 8192 - 0.31 36 - 8.11% -log2c -5,15,2 5 2 - 0.75 40 20.00% 16.22% Polinomial Lineal C Conjunto de entrenamiento (70%): 85 muestras; gama (ϒ) bias (b) Resultados Conjunto de prueba (30%): 37 muestras. TE "+1", EP "-1". 11. Con el propósito de analizar si las pruebas por sí solas logran clasificar eficazmente, se entrenó la SVM con un kernel Gaussiano RBF que en la mayoría de ensayos anteriores proporcionó un error bajo. Existe una desventaja, el conjunto de las muestras del temblor esencial es reducido, pero se pretendió comprobar el rendimiento de la SVM para estos nuevos ensayos. A continuación se expone los modelos del clasificador SVM con sus respectivos parámetros, el número de vectores soporte y el error durante la predicción de las etiquetas de las muestras del conjunto de prueba: 175 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. TABLA 5.20 CLASIFICACIÓN TE VS. EP CON CADA PRUEBA. Muestras PT1 PT2 PT3 PT5 PT6 PT8 Pruebas Cinéticas PT9 PT10 PT11 PT13 PT15 Pruebas PT16 Dinámicas PT17 PT18 Pruebas Estáticas Conjunto (muestras) de: TE EP Entrenam. Prueba 6 8 8 10 9 9 8 8 9 10 7 7 5 7 26 17 26 23 24 25 27 25 26 15 27 25 16 24 22 18 24 23 23 24 24 23 24 18 23 22 14 21 10 7 10 10 10 10 11 10 11 7 11 10 7 10 Parámetros de ajuste C gama (ϒ) 32 32 128 512 8 2048 512 8192 32768 512 2 512 512 2048 Nº vectores soporte, VS Error de prueba 6 6 9 7 7 8 9 6 6 11 13 11 9 6 0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 18.18% 10% 0% 0% 0.0625 0.5 0.0078125 0.5 0.5 0.03125 0.0078125 0.03125 0.0078125 0.0078125 8 0.078125 0.0078125 0.03125 5.5.2 ANÁLISIS DE LOS MODELOS DEL CLASIFICADOR - El análisis de componentes principales sobre los datos obtenidos a partir de las estadísticas de segundo orden y orden superior, consiguió reducir la dimensionalidad de los atributos y comprimir la información más relevante en unas pocas variables sin perder la información inicial dentro de un nuevo sistema de coordenadas, lo importante es que cada componente principal no tienen correlación entre ellos y al ser linealmente independientes se seleccionó los componentes con mayor varianza (diferente en cada uno de los casos), con lo que se obtuvo que el entrenamiento de la SVM sea más rápido generando un ahorro computacional muy importante en comparación con las hipótesis anteriores que consumían mucho tiempo en el cálculo computacional, superando así los problemas de trabajar con la alta dimensionalidad de los vectores de entrada. - Los componentes principales con mayor varianza fueron capaces de sintetizar toda la información y caracterizar muy bien a los diferentes tipos de temblor, evitando la ardua labor de identificar que atributos (PSD, biespectro, triespectro) son lo que caracterizaban a las pruebas estáticas, cinéticas o dinámicas. - La generalización de la SVM con el ACP mejoró mucho, el error en la predicción de las etiquetas de las muestras del conjunto de prueba fue del 0% en la mayoría de los ensayos. - El número de vectores soporte disminuyó, debido a una buena capacidad de generalización lo que garantizó que no exista el indeseado sobreajuste, además que indican que el modelo 176 ESTUDIO DE HIPÓTESIS Y CLASIFICACIÓN DE LAS MUESTRAS clasificador de la SVM generada a partir de las muestras de entrenamiento es lo suficientemente hábil para realizar una buena clasificación de muestras que la máquina aún no conoce. - Las SVMs se enmarcan dentro del principio de minimización del riesgo estructural en donde se introduce un parámetro libre de control C a ser ajustado por el usuario, éste parámetro fue ajustado en los kernel polinomial para lograr reducir el error en la clasificación. - Con respecto a la clasificación entre el temblor fisiológico y patológico, con el ACP no resultó muy complicado el reconocimiento de la clase de las muestras de prueba. - Los ensayos realizados con un número mayor de muestras y aplicando el ACP generó bajos valores de errores en la clasificación, especialmente cuando todas las muestras son consideradas en conjunto (Tabla 5.16a y Tabla 5.16b) y cuando se entrena únicamente con las pruebas cinéticas (Tabla 5.18). En estos ensayos no se tuvieron que retirar muestras atípicas y se entrenó casi con la totalidad de los datos originales. - Las pruebas estáticas (Tabla 5.17) tuvieron que ser analizadas con la distancia de Mahalanobis y retiradas varias muestras con comportamiento atípico para obtener un buen modelo de la SVM con lo que se disminuyó el número de muestras disponibles. Sin embargo, con este proceso el error en la clasificación disminuyó hasta el 0%. - El error generado en la clasificación de las pruebas dinámicas no se pudo reducir como en los otros ensayos, a pesar de retirar muestras anómalas el error no disminuyó y esto se debe a que las muestras están muy sobrepuestas entre ambas clases, es decir los temblores esencial y parkinsoniano tienen un comportamiento muy similar al realizar este tipo de pruebas. - Finalmente, se aplicó el ACP sobre el conjunto de muestras de cada prueba con un kernel Gaussiano RBF (Tabla 5.20), los modelos del clasificador fueron muy buenos, especialmente para las pruebas cinéticas que contaban con más muestras para el entrenamiento y prueba, son más fiables que las pruebas estáticas y dinámicas que tienen pocas muestra para el temblor esencial. 177 CAPÍTULO 6 RESULTADOS DE LA INVESTIGACIÓN Antes de hacer un análisis a los resultados obtenidos, cabe recordar que estos dependen en gran medida de las condiciones físicas y psicológicas de los pacientes a la hora de su ejecución; la presencia de comorbilidades, el estrés emocional, la ansiedad, la fatiga e incluso la temperatura puede intensificar el temblor y no permitir que las condiciones sean aptas para realizar las pruebas. Además, existen consideraciones que deben ser tomados en cuenta y que puede mermar los resultados, entre estas se pueden mencionar: la similitud de las características clínicas entre los diferentes tipos de temblor bajo ciertas circunstancias, la posibilidad de coexistencia de dos enfermedades en un paciente, el hecho de considerar que una enfermedad sea factor de riesgo para el desarrollo de la otra y el diagnóstico temprano de los pacientes con temblor esencial que termina siendo temblor parkinsoniano. Otra dificultad, es el desbalance en número de muestras de los pacientes con temblor esencial en relación al número de muestras de la enfermedad de Parkinson, presenta una relación 1:5. Una solución fue aplicar el análisis de componentes principales para visualizar e identificar el comportamiento de cada paciente en el espacio de nuevas variables. Sin embargo, el método de inteligencia artificial introducido con el algoritmo de las máquinas de soporte vectorial, debe ser capaz de reconocer el patrón incrustado en los datos de cada tipo de temblor, lograr diferenciarlos y clasificarlos de acuerdo con algún tipo de similitud. En las hipótesis planteadas en el capítulo anterior, tienen la finalidad de encontrar el procedimiento, el conjunto de pruebas, los patrones o los atributos que permitan clasificar las muestras con la menor tasa de error posible, siempre y cuando la complejidad del modelo óptimo del clasificador SVM sea menor lo 179 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. que garantiza una buena generalización. El número de vectores soporte es un excelente indicador de la calidad del modelo, un alto número de vectores soporte indica un sobreajuste mientras un bajo número de vectores soporte conlleva a un modelo con alta capacidad de generalizar. En este capítulo se analizan los modelos del clasificador de la SVM con los mejores resultados de cada una de las hipótesis planteadas en el Capítulo anterior: 1. La primera hipótesis analiza el temblor mediante curvas de ajuste, que miden la desviación o error producido por el temblor al seguir la trayectoria marcada por los patrones de prueba. La magnitud utilizada fue el error cuadrático medio RMSE. 2. Una segunda hipótesis comprende el análisis del temblor a partir de la frecuencia de oscilación y de la amplitud del temblor, se tiene en cuenta las condiciones en las que el temblor se exacerba; cuando un paciente con temblor esencial mantiene una postura en contra de la fuerza de gravedad o tiene la intención de alcanzar un objetivo el temblor tiende a incrementarse, mientras que en un paciente con la enfermedad de Parkinson presenta un temblor de reposo que se inhibe cuando realiza una acción, en los pacientes con temblor fisiológico la amplitud del temblor es muy baja y su frecuencia es alta, características que lo diferencia en mayormente de los anteriores tipos de temblor. Tomando estas consideraciones como ciertas se busca caracterizar y diferenciar entre los diferentes tipos de temblor utilizando dos atributos numéricos (amplitud y frecuencia). 3. La hipótesis 3, analiza las muestras caracterizadas con 26 atributos numéricos obtenidos a partir de la estadística de segundo orden PSD y estadística de orden superior con los biespectros y triespectros, en este estudio se aplicó el análisis de componentes principales, la distancia de Mahalanobis y el coeficiente de Curtosis para determinar aquellos pacientes cuya información aporta en mayor grado a la clasificación y superar el desbalance que de cierta forma provocaba un incremento en el error en la clasificación entre las muestras de temblor esencial y las muestras de Parkinson. 4. Una cuarta hipótesis fue planteada con el análisis de compontes principales, reduciendo la dimensionalidad de los datos con 26 atributos, el número de las nuevas variables fue seleccionado de forma que la varianza alcance entre el 80-90%, además se realizaron varios ensayos con diferentes configuraciones, entrenando por separado las pruebas estáticas, cinéticas, dinámicas o en combinación entre ellas para determinar su influencia en los resultados. 180 RESULTADOS DE LA INVESTIGACIÓN Para evaluar el rendimiento de modelo clasificador obtenido se utilizó la curva ROC (Receiver Operating Characteristic) que hoy en día se utiliza en aplicaciones de aprendizaje automático y representa la relación entre la razón de verdaderos positivos VPR (clasificar las muestras de una clase correctamente) y la razón de falsos positivos FPR (clasificar las muestras de una clase de forma errónea) según varía el umbral de discriminación del clasificador. Para calificar la capacidad discriminatoria del modelo clasificador SVM, el área bajo la curva (AUC) es una buena forma de interpretar la curva ROC, los intervalos de los valores de la AUC son las siguientes: [0.5, 0.6): Modelo malo. [0.6, 0.75): Modelo regular. [0.75, 0.9): Modelo bueno. [0.9, 0.97): Modelo muy bueno. [0.97, 1): Modelo excelente. 6.1 RESULTADOS. ANÁLISIS DEL TEMBLOR MEDIANTE CURVAS DE AJUSTE En el análisis de temblor mediante curvas de ajuste, se utilizó la siguiente base de datos: 36 que pertenecen a 20 pacientes con temblor fisiológico (TF). 10 pertenecen a los 7 pacientes con temblor esencial (TE). 47 corresponden a 23 pacientes con temblor parkinsoniano (EP). Para modelar el clasificador de la Máquina de Soporte Vectorial, el conjunto de datos formado por cada par de clases se subdividió las muestras de forma aleatoria en 70% para el conjunto de entrenamiento y 30% para el conjunto de prueba. Las condiciones para entrenar la SVM fueron las siguientes: ENSAYO (Configuración) Est. + Cin. + Din. 1. (16 pruebas) Est. + Cin. + Din. 2. (16 pruebas) CONDICIONES DE ENTRENAMIENTO PARA LA SVM Número de Número de Clasificación Pruebas muestras Atributos TF 36 PT1x, PT1y, PT1z, PT2x, 16 (1 por TP 57 PT2y, PT2z, PT3y, PT5xy, cada PT5yx, PT6x, PT10xy, PT15x, TE 10 prueba) PT15y, PT15z, PT16y, PT17y. EP 47 Siguiendo el procedimiento de la Sección 5.1.1, los mejores modelos del clasificador SVM para la clasificación entre temblor fisiológico-temblor patológico (TP) y temblor esencial-enfermedad de Parkinson se resumen a continuación: 181 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. Ensayo 1. TF-TP 2. TE-EP N° de muestras Entrenam. Prueba 65 28 40 17 MODELO DEL CLASIFICADOR SVM Parámetros de ajuste Kernel C gama grado Gaussiano RBF 8 2 Polinomial 0.1 3 N° VS 27 17 Tasa de error Prueba 3.57% 11.76% Las curvas ROC obtenidas para validar el modelo del clasificador con el menor error en la predicción en los Ensayos 1. y 2. se presentan a continuación: ROC curve of (AUC = 1 ) 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.5 0.4 0.6 0.5 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 False Positive Rate ROC curve of (AUC = 0.86667 ) 1 True Positive Rate True Positive Rate 1 0.7 0.8 0.9 1 0 0 Figura 6.1a Curva ROC Ensayo 1. AUC=1 - 0.1 0.2 0.3 0.4 0.5 0.6 False Positive Rate 0.7 0.8 0.9 1 Figura 6.1b Curva ROC Ensayo 2. AUC=0.87 En el Ensayo 1, se clasificó entre las muestras de temblor fisiológico y temblor patológico, el modelo óptimo se construyó con un kernel Gaussiano RBF y con 27 vectores soporte, un número menor en comparación a los utilizados en el entrenamiento lo que se interpreta en una buena generalización. El error en la clasificación fue del 3.57%, un valor muy aceptable. Según la Figura 6.1a el análisis de la curva ROC de este clasificador indica que el AUC=1, que significa un modelo excelente. - En el Ensayo 2, en la clasificación entre temblor esencial y enfermedad de Parkinson el mínimo error en la clasificación fue del 11.76% con un kernel polinomial de grado 2 y utilizando solamente 17 vectores soporte. La curva ROC de la Figura 6.1b revela que el AUC=0.87, se tiene un modelo bueno pero que necesita ser mejorado. - La clasificación entre temblor esencial y enfermedad de parkinson es dificultosa utilizando el RMSE como único atributo, lo que conlleva a utilizar más magnitudes para caracterizar estos temblores y mejorar los resultados. Sin embargo, en estos ensayos se pudo apreciar la capacidad y robustez de las máquinas de soporte vectorial con resultados mucho más prometedores que los alcanzados en los trabajos anteriores [85,88]. 182 RESULTADOS DE LA INVESTIGACIÓN 6.2 RESULTADOS. ANÁLISIS DE LA AMPLITUD Y FRECUENCIA DEL TEMBLOR Para la caracterización del temblor con atributos de frecuencia y amplitud se utilizó las series temporales de la siguiente base de datos: 36 que pertenecen a 20 pacientes con temblor fisiológico (TF). 10 pertenecen a los 7 pacientes con temblor esencial (TE). 30 corresponden a 23 pacientes con temblor parkinsoniano (EP). Las condiciones de los 3 ensayos para entrenar la SVM fueron las siguientes: CONDICIONES DE ENTRENAMIENTO PARA LA SVM ENSAYO Número de Número de Clasificación (Configuración) muestras Atributos TF 36 Est. + Cin. + Din. 78 (2 por cada 1. (13 pruebas) TP 40 eje X, Y, Z; y por cada TE 10 Est. + Cin. + Din. 2. prueba) (13 pruebas) EP 30 TE 114 Est. + Cin. + Din. 6 (2 por cada 3. (13 pruebas) eje X, Y, Z) EP 358 Pruebas PT1, PT2, PT3, PT5, PT6, PT8, PT9, PT10, PT11, PT15, PT16, PT17, PT18. Los modelos del clasificador SVM obtenidos utilizando las condiciones anteriores en los 3 ensayos, siguiendo el procedimiento propuesto de la Sección 5.1.1, con un 70% de muestras para el conjunto de entrenamiento y el 30% de muestras para el conjunto de prueba fueron los siguientes: Ensayo 1. TF-TP 2. TE-EP 3. TE-EP N° de muestras Entrenam. Prueba 53 23 28 12 330 142 MODELO DEL CLASIFICADOR SVM Parámetros de ajuste Kernel C gama grado Polinomial 128 2 Gaussiano RBF 32 0.00781 Gaussiano RBF 512 0.125 - N° VS 24 13 123 Tasa de error Prueba 0.00% 8.33% 9.15% Las curvas ROC para evaluar los modelos se presentan a continuación: ROC curve of (AUC = 1 ) 1 ROC curve of (AUC = 0.92593 ) 1 0.9 0.9 0.8 0.7 True Positive Rate True Positive Rate 0.8 0.6 0.5 0.4 0.7 0.6 0.5 0.3 0.4 0.2 0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 False Positive Rate 0.7 0.8 0.9 Figura 6.2a Curva ROC Ensayo 1. AUC=1 1 0 0.1 0.2 0.3 0.4 0.5 0.6 False Positive Rate 0.7 0.8 0.9 1 Figura 6.2b Curva ROC Ensayo 2. AUC=0.93 183 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. ROC curve of (AUC = 0.96242 ) 1 0.9 0.8 True Positive Rate 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 False Positive Rate 0.7 0.8 0.9 1 Figura 6.2c Curva ROC Ensayo 2. AUC=0.96 - En el Ensayo 1, la clasificación entre temblor fisiológico y temblor patológico fue correcta utilizando la amplitud y frecuencia como atributos. Con un kernel polinomial de grado 2 y 24 vectores soporte se obtuvo el 0% de error en la clasificación. La Figura 6.2 muestra una AUC=1, calificando a este modelo como excelente. La clasificación entre estos temblores no presenta gran dificultad. - Para el Ensayo 2, la clasificación entre el temblor esencial y enfermedad de Parkinson utilizó la frecuencia y amplitud de las 13 pruebas (estáticas + cinéticas + dinámicas) para caracterizar cada muestra, de forma que los atributos fueron mucho mayor que el número de vectores de entrada a la SVM, el modelo obtenido se logró con un kernel Gaussiano RBF y 13 vectores soporte. El error en la clasificación fue del 8.33%. La curva ROC de la Figura 6.2b muestra que el AUC=0.93, que se interpreta como un modelo muy bueno, aunque bajo el criterio de ser pocas las muestras se esperaba que el error sea mucho menor. - Para comprobar el rendimiento de la SVM con un mayor número de vectores de entrada se optó por la configuración del Ensayo 3, en donde se tomaron a cada una de las muestras de cada prueba (estáticas, cinéticas, dinámicas) como vector de entrada con o que se disminuyó la dimensionalidad a sólo 6 atributos (amplitud y frecuencia en el eje X, Y, Z). El mejor modelo se consiguió con un kernel Gaussiano RBF y con 123 vectores soporte, un número bastante bajo en comparación a los 313 que se utilizaron para el entrenamiento. El error se incrementó a 9.15%. El AUC=0.96 según la curva ROC de la Figura 6.2c, lo que representa que el modelo es muy bueno tomando en cuenta el número de muestras del conjunto de prueba (142) que el error subió ligeramente. Sin embargo, utilizando más atributos posiblemente se pueda mejorar los resultados. 184 RESULTADOS DE LA INVESTIGACIÓN 6.3 RESULTADOS. ANÁLISIS DEL TEMBLOR CON TÉCNICAS DE ESTADÍSTICA DE SEGUNDO ORDEN PSD Y ESPECTROS DE ORDEN SUPERIOR HOSA El desbalance que existe en número de las muestras de temblor esencial en comparación a las muestras de enfermedad de Parkinson puede haber sido la causante que en los ensayos anteriores no se lograse reducir el error en la clasificación, en la hipótesis 3 se planteó utilizar el análisis de componentes principales, la distancia de Mahalanobis y el coeficiente de Curtosis para identificar el comportamiento atípicos de algunos pacientes, bajo ese procedimiento el número de muestras seleccionadas para el entrenamiento de la SVM fueron las siguientes: 34 muestras que pertenecen a 20 pacientes con temblor fisiológico (TF). 9 muestras que pertenecen a los 6 pacientes con temblor esencial (TE). 27 muestras que corresponden a 19 pacientes con temblor parkinsoniano (EP). Tanto para seleccionar a los pacientes más representativos como las muestras, los atributos empleados en la caracterización del temblor fueron los obtenidos al aplicar las estadísticas de segundo orden PSD y de orden superior triespectro y triespectro. El porcentaje de partición para los conjuntos de entrenamiento y prueba fue del 70% y 30%, respectivamente. En la siguiente tabla se resume las condiciones y configuraciones adaptadas en cada ensayo para el entrenamiento de la SVM. 1. 2. 3. 4. 5. 6. 7. 8. 9. CONDICIONES DE ENTRENAMIENTO PARA LA SVM ENSAYO Número de Número de Clasificación Pruebas (Configuración) muestras Atributos TF 34 Est. + Cin. + Din. (13 pruebas) TP 56 975 TE 9 Est. + Cin. + Din. (25 por PT1, (13 pruebas) EP 27 cada eje X, PT2, TE 9 Estáticas Y, Z; y por 150 PT3, (2 pruebas) cada una de EP 27 PT5, las TE 9 Cinética 525 pruebas). PT6, (7 pruebas) EP 27 PT8, TE 7 Dinámicas 300 PT9, (4 pruebas) EP 27 PT10, TE 106 Est. + Cin. + Din. PT11, (13 pruebas) EP 341 PT15, TE 18 Estáticas PT16, (25 por (2 pruebas) EP 54 PT17, 75 cada eje X, TE 63 Cinética PT18. Y, Z). (7 pruebas) EP 189 TE 25 Dinámicas (4 pruebas) EP 98 185 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. Los modelos del mejor clasificador para cada uno de los ensayos se presentan a continuación: Ensayo 1. 2. 3. 4. 5. 6. 7. 8. 9. TF-TP TE-EP TE-EP TE-EP TE-EP TE-EP TE-EP TE-EP TE-EP MODELO DEL CLASIFICADOR SVM Parámetros de ajuste Kernel C gama grado Gaussiano RBF 512 0.00049 Gaussiano RBF 16 0.00195 Gaussiano RBF 64 0.00098 Polinomial 64 2 Polinomial 2 2 Gaussiano RBF 8 0.5 Gaussiano RBF 64 0.00391 Gaussiano RBF 32 0.125 Gaussiano RBF 512 0.00781 - N° de muestras Entrenam. Prueba 63 27 25 11 25 11 25 11 23 11 313 134 50 22 176 76 86 37 N° VS 35 18 18 15 16 134 30 55 38 Tasa de error Prueba 0.00% 0.00% 18.18% 0.00% 0.00% 7.46% 13.64% 2.63% 8.11% Las curvas ROC para evaluar el rendimiento los clasificadores se muestran a continuación, se optó por representar los modelos sombreados en la tabla anterior que son las configuraciones mas importantes: ROC curve of (AUC = 1 ) 1 0.9 True Positive Rate 0.8 0.7 0.6 0.5 0.4 0 0.1 0.2 0.3 0.4 0.5 0.6 False Positive Rate 0.7 0.8 0.9 1 Figura 6.3a Curva ROC Ensayo 2. AUC=1 ROC curve of (AUC = 0.92922 ) 1 0.9 0.9 0.8 0.8 0.7 True Positive Rate True Positive Rate 0.7 0.6 0.5 0.4 0.5 0.4 0.3 0.2 0.2 0.1 0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 False Positive Rate 0.7 0.8 0.9 Figura 6.3b Curva ROC Ensayo 6. AUC=0.93 186 0.6 0.3 0 ROC curve of (AUC = 0.97138 ) 1 1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 False Positive Rate 0.7 0.8 0.9 Figura 6.3c Curva ROC Ensayo 8. AUC=0.97 1 RESULTADOS DE LA INVESTIGACIÓN - En el Ensayo 1, la clasificación entre el temblor fisiológico y temblor patológico nuevamente dio buenos resultados, sin lugar a duda ambas enfermedades pueden diferenciarse fácilmente. El error en la clasificación fue del 0% pero los vectores soporte (35) incrementaron notablemente en comparación a los resultados de las hipótesis anteriores, lo que puede estar sesgando a un ligero sobreajuste. El 0% de error apunta a ser un modelo excelente. - El modelo del Ensayo 2, logra un error del 0% en la clasificación entre temblor esencial y enfermedad de Parkinson, pero el número de vectores soporte (18) es elevado en comparación a los 25 vectores utilizados en el entrenamiento. En la configuración cada muestra está representada por todos los atributos de las 13 pruebas (estáticas + cinéticas + dinámicas), siendo el número de atributos mucho mayor que el número de muestras. La Figura 6.3a muestra un AUC=1 que representa un excelente modelo. - En los Ensayos 3, 4 y 5 se entrenó la SVM con las pruebas estáticas, cinéticas y dinámicas respectivamente, de forma separada, con un número de atributos mucho mayor que los vectores siendo las pruebas estáticas las que presentan un alto error (18.18%), mientras que las pruebas cinéticas y dinámicas lograron reducirse al 0% de error. - Con el fin de incrementar las muestras, en el Ensayo 6 se tomó a cada muestra de cada prueba (estáticas, cinéticas, dinámicas) como vector de entrada para la SVM (447), a la vez que se redujo los atributos a 75. El mejor modelo logró un error del 7.46% en la clasificación con un kernel Gaussiano RBF y con 134 vectores soporte. La curva ROC de la Figura 6.3b muestra el AUC=0.93 y teniendo que en cuenta que el número de vectores para el entrenamiento y prueba es alto, se puede deducir en un modelo muy bueno. - En los Ensayos 7, 8 y 9 se siguió la misma metodología, considerar a cada muestra de cada prueba como un vector de entrada, pero analizando por separado a las pruebas estáticas, cinéticas y dinámicas. Todos los modelos emplearon un kernel Gaussiano RBF. Las error en la clasificación con las pruebas estáticas y dinámicas fueron de 13.64% y 8.11% respectivamente, valores un poco altos en comparación a su tamaño de muestras. Por otro lado, las pruebas cinéticas lograron el error más bajo en la clasificación con el 2.63%, un error muy aceptable teniendo en cuenta que el tamaño del conjunto de prueba fue de 252. El AUC=0.97 de la Figura 6.3c, lo postula como un modelo de clasificador SVM excelente. - Un inconveniente con este método fue que el número de vectores soporte se incrementaron. 187 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. 6.4 ANÁLISIS DEL TEMBLOR CON EL MÉTODO DE COMPONENTES PRINCIPALES En los ensayos de la hipótesis 3, el gasto computacional durante la optimización fue alto debido a la alta dimensionalidad de los vectores por los 26 atributos con los que trabajó y las distintas configuraciones que incrementaron aún más la dimensionalidad. Para superar este inconveniente, se sometió a los vectores al análisis de componentes principales que permitió disminuir la dimensionalidad por nuevas y menos variables que contienen la mayor información. La distancia de Mahalanobis y el coeficiente de Curtosis fue empleado para separar valores atópicos y mejorar la precisión en la clasificación. EL número de muestras y los pacientes seleccionados fueron los mismos del apartado anterior. El porcentaje de muestras para los conjuntos de entrenamiento y prueba fueron del 70% y 30%. Las condiciones para el entrenamiento de la SVM en los diferentes ensayos y configuraciones son: 1. 2. 3. 4. 5. 6. CONDICIONES DE ENTRENAMIENTO PARA LA SVM N° Atributos ENSAYO Número de Clasificación (Componentes Pruebas (Configuración) muestras Principales) TF 34 Est. + Cin. + Din. 15 CP PT1, PT2, (13 pruebas) TP 56 PT3, PT5, TE 9 Est. + Cin. + Din. 3 CP PT6, PT8, (13 pruebas) EP 27 PT9, TE 100 Est. + Cin. + Din. 3 CP PT10, (13 pruebas) EP 310 PT11, TE 14 Estáticas PT13, 3 CP (2 pruebas) EP 43 PT15, TE 69 Cinética PT16, 3 CP (7 pruebas) EP 184 PT17, TE 32 Dinámicas PT18. 5 CP (4 pruebas) EP 90 Los modelos con los que se obtuvo el menor error en la clasificación para cada uno de los ensayos son los siguientes: Ensayo 1. 2. 3. 4. 5. 6. TF-TP TE-EP TE-EP TE-EP TE-EP TE-EP N° de muestras Entrenam. Prueba 63 27 25 11 287 123 40 17 177 76 86 37 MODELO DEL CLASIFICADOR SVM Parámetros de ajuste Kernel C gama grado Gaussiano RBF 32 0.5 Gaussiano RBF 512 0.5 Gaussiano RBF 4096 2 Gaussiano RBF 2048 0.5 Gaussiano RBF 512 8 Polinomial 4096 2 N° VS 28 5 67 15 27 33 Tasa de error Prueba 0.00% 0.00% 3.25% 0.00% 0.00% 8.11% Las curvas ROC para evaluar el rendimiento de los modelos obtenidos se exponen a continuación, se representaron únicamente aquellos modelos que tienen un error de clasificación mayor al 0%: 188 RESULTADOS DE LA INVESTIGACIÓN ROC curve of (AUC = 0.96774 ) 1 0.9 0.9 0.8 0.8 True Positive Rate True Positive Rate 0.7 0.6 0.5 0.4 0.3 0.6 0.5 0.4 0.2 0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 False Positive Rate 0.7 0.8 0.9 Figura 6.4a Curva ROC Ensayo 3. AUC=0.97 - 0.7 0.3 0.2 0 ROC curve of (AUC = 0.89224 ) 1 1 0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 False Positive Rate 0.7 0.8 0.9 1 Figura 6.4b Curva ROC Ensayo 6. AUC=0.89 Con el análisis de componentes principales los resultado mejoraron sustancialmente, algo muy importante fue que el número de vectores soporte se disminuyó notablemente en comparación al método empleado en la sección anterior. Además, que el gasto computacional también se redujo de sobremanera, haciendo que éste método sea el más adecuado para el análisis de las series temporales, caracterización del temblor y clasificación de las muestras. - En el Ensayo 1, la clasificación del temblor fisiológico y temblor patológico fue correcto. El interés radica en que para conseguir el 0% de error en la clasificación, el clasificador trabajo con 28 vectores soporte, un número bastante bajo que indica buena generalización. - El Ensayo 2, es similar al utilizado en la sección anterior, el análisis de componentes principales ha hecho que el número de vectores soporte se reduzcan a 5 y se alcance un error en la clasificación entre temblor esencial y enfermedad de Parkinson de 0%. - Con 123 muestras en el conjunto de prueba, en el Ensayo 3 el modelo implementado con un kernel Gaussiano RBF alcanza un error en la clasificación de temblor esencial y enfermedad de Parkinson de 3.25%, es decir 4 muestras fueron mal clasificadas. La curva ROC de la Figura 6.4a indica que el AUC=0.97 etiquetando a este modelo como excelente. - En los Ensayo 4, 5 y 6 las pruebas estáticas, cinéticas y dinámicas fueron entrenadas de forma separada. En los dos primeros ensayos, los modelos del clasificador emplearon un kernel Gaussiano RBF y el error en la clasificación fue del 0%. Mientras que las pruebas dinámicas siguieron dando un error un poco alto del 8.11%, la Figura 6.4b muestra que el AUC=0.89 que lo califica como un modelo bueno, que no se ha podido mejorar y optimizarlo como se ha logrado con el resto de pruebas. 189 CONCLUSIONES - Las patologías del temblor derivadas de los trastornos del movimiento, cada día afectan a más personas adultas y ancianas conforme la población envejece, hecho que pone a la ciencia y la medicina en la palestra de la búsqueda del conocimiento para enfrentar problemas complejos reales proveniente de los seres humanos, a la vez que la tecnología también avanza aceleradamente corroborando en la solución. Es así, que en esta investigación se hizo uso de la Inteligencia Artificial a través del aprendizaje automático inducido por las Máquinas de Soporte Vectorial para el reconocimiento y la clasificación del temblor, demostrando ser una herramienta muy robusta y eficiente para lograr una buena generalización en contraste con los resultados obtenidos. - EL temblor fisiológico, temblor esencial (TE) y la enfermedad de Parkinson (EP), son consideradas enfermedades relativamente diferentes. Sin embargo, el solapamiento entre las características clínicas, etiológicas y semiológicas que presentan el temblor esencial y la enfermedad de Parkinson, dificulta el diagnóstico clínico. Los médicos fundamentan su diagnóstico en una valoración cualitativa del temblor basados en escalas de calificación de gravedad, evaluando la capacidad motora del paciente en actividades cotidianas, pero este método depende en gran medida de la experiencia y perspicacia del especialista. Por lo tanto, para superar esta dificultad fue necesario hacer un análisis cuantitativo del temblor, procesando y analizando con herramientas matemáticas las series temporales obtenidas a partir de un conjunto de pruebas ejecutadas por pacientes con temblor y que fueron registradas y almacenadas por el sistema DIMETER. - En la Hipótesis 1, el ajuste de las series temporales a una curva para medir la deviación sobre la trayectoria del patrón de prueba, fue un método sencillo pero con el mimo principio que utilizan 191 AUTOMATIZACIÓN EN LABORES DE CLASIFICACIÓN. APLICACIÓN DE LOS CLASIFICADORES EN LA AYUDA AL DIAGNÓSTICO EN EL AMBIENTE SANITARIO. las tabletas digitalizadoras para medir el temblor en el paciente. Este método logró diferenciar a los temblores fisiológico y patológico con un solo atributo (RMSE), pero el error cometido en la clasificación entre TE y EP no fue satisfactorio. Un solo atributo no es suficiente para diferenciar a los temblores patológicos. - En la Hipótesis 2, el método utilizado para caracterizar el temblor con dos atributos, frecuencia y amplitud, no resultó ser eficientes para clasificar entre TE y EP, el solapamiento en la frecuencia de oscilación del temblor dificultó la diferenciación, siendo necesario buscar otro método para caracterizar el temblor y conseguir disminuir el error de clasificación. - La metodología aplicada en la Hipótesis 3, la caracterización del temblor con las estadísticas de segundo orden PSD y orden superior Poliespectros, proporcionaron buenos atributos. Sin embargo, los 26 atributos considerados aumentó la dimensionalidad de los vectores de entrada a la SVM, causando un gasto computacional alto durante la optimización del problema, además que se estuvo trabajando con atributos que contenían poca información del temblor. Sin embargo, los resultados fueron muy buenos en algunos de los ensayos. Se comprobó que las pruebas estáticas, cinéticas y dinámicas en conjunto, caracterizan correctamente al TE y EP, la precisión en la clasificación fue del 100%. De igual forma, sólo las pruebas cinéticas o sólo las pruebas dinámicas también son eficientes para discriminar al TE y EP, en ambos casos la precisión en la clasificación fue del 100%. Hay que recordar que éstos resultados se obtuvieron cuando el número de atributos fue mucho mayor que el número de vectores. - En la Hipótesis 4, la metodología utilizada se basó en superar el inconveniente de la dimensionalidad, el análisis de componentes principales (ACP) cumplió un papel importante, permitiendo disminuir la dimensionalidad de los vectores y compactando la mayor información con mayor varianza en unas cuantas nuevas variables, disminuyendo eficazmente el cálculo computacional. Una vez reducida la dimensionalidad, el entrenamiento de la SVM proporcionó resultados muy buenos. El temblor fisiológico y temblor patológico se clasificó correctamente. En esta hipótesis, el número de vectores fue mucho mayor que las nuevas variables del ACP, incluso con 3 variables fue suficiente para caracterizar el TE y EP. Una combinación de las pruebas estáticas, cinéticas y dinámicas (410 vectores) con el 70% para entrenar la SVM y 30% para la simulación, se obtuvo el 3.25% de error en la clasificación. Las pruebas estáticas y cinéticas por separado fueron más eficientes, la precisión en la clasificación fue del 100%. 192 CONCLUSIONES - El número de vectores soporte debe ser el más bajo en comparación al conjunto de vectores utilizados en el entrenamiento para evitar el indeseado sobreajuste, y con el último método se cumplió este objetivo, garantizando una buena capacidad de generalización. - La exclusión de valores atípicos utilizando la distancia de Mahalanobis y el coeficiente de Curtosis fue significativo para reducir la tasa de error en la clasificación. Una razón de la existencia de atípicos en los datos puede deberse a un diagnóstico equivocado de la enfermedad. - En conclusión, con el método de la hipótesis 4 se logró el objetivo, se diseñó un método utilizando el clasificador SVM que puede apoyar eficazmente al diagnóstico clínico del TE y EP. La caracterización del temblor con el PSD, el biespectro, el triespectro; la reducción de la dimensionalidad con el análisis de los componentes principales; la identificación de valores atípicos con la distancia de Mahalanobis y el coeficiente Curtosis; proporcionan como resultado que las pruebas estáticas y cinéticas pueden por sí solas discriminar correctamente al TE y EP. - Finalmente, se hace referencia a las características de las Máquinas de Soporte Vectorial respecto a otras técnicas en la tarea de clasificación: La capacidad y robustez para aprender a través de un conjunto de ejemplos, incluso cuando el conjunto es pequeño. Es un algoritmo que crea un clasificador lineal en un espacio de alta dimensión y lo traduce en clasificador no lineal en el espacio de entrada. El principio de minimización del riesgo estructural (SRM), el uso de la función kernel y el parámetro de regularización C, permiten controlar explícitamente la complejidad del clasificador y el error durante la clasificación, evitando el sobreajuste lo que conduce a una buena capacidad de generalización. La función objetivo del problema de optimización es convexa, por lo que existe sólo un mínimo global lo que garantiza la convergencia. Utiliza un subconjunto de vectores (vectores soporte) del conjunto de entrenamiento para crear el hiperplano de separación, lo que se traduce en ahorro computacional. 193 FUTUROS DESARROLLOS Contemplar la posibilidad de poder añadir más muestra de pacientes con temblor esencial sin que el diseño del modelo del clasificador de la máquina de soporte vectorial se vea afectado, con el fin de avalar el método utilizado en esta investigación. En este trabajo el escaso número de muestras de temblor esencial disponibles implicó disminuir el tamaño de las muestras de enfermedad de Parkinson para evitar un excesivo desbalance en el aprendizaje. Reafirmar el diagnóstico clínico de los pacientes que realizaron las pruebas, debido a que existen estudios [13] que indican que con el pasar de los años un grupo de pacientes con temblor asimétrico postural de características clínicas propias del temblor esencial tienden a progresar hasta desencadenarse en la enfermedad de Parkinson. Posiblemente estos diagnósticos equívocos proporcionaron los valores atípicos que ocasionaron error en la clasificación. Implementar un algoritmo que permita optimizar la selección de los parámetros de ajuste de la función kernel y el parámetro de regularización C debido a que la búsqueda de estos parámetros es un proceso heurístico de prueba y error, lo que se convierte en un inconveniente de las Máquinas de Soporte Vectorial. Utilizar las SVM-Regresión para proponer el diseño de escalas de gravedad del temblor en base al análisis cuantitativo, ya que hasta la fecha las escalas existentes son confeccionadas de forma cualitativa, dependiendo únicamente de las habilidades motoras del paciente. Una vez comprobada la robustez y eficacia de las Máquinas de Soporte Vectorial en aplicaciones del área de la salud, se podría continuar en la automatización de otro tipo de patologías en donde exista inconvenientes para el diagnóstico. Desarrollar una alternativa práctica (prototipo) para la medición, procesamiento y análisis del temblor en tiempo real, por ejemplo adquirir las series temporales a partir de pruebas sobre pantallas táctiles e implementar métodos que midan la desviación provocada por el temblor y con la ayuda de las Máquinas de Vectores de Soporte realizar la clasificación. 195 ANEXOS ANEXO 1. En formato digital. - Paquete informático para el entrenamiento de las Máquinas de Soporte Vectorial - Clasificación LIBSVM ANEXO 2. En formato digital. Programa en MATLAB (Hipótesis 2): - AmplitudFrecuencia.m ANEXO 3. En formato digital. Programas para la caracterización del temblor (Hipótesis 3 y 4): - características.m - resultadosPT.m ANEXO 4. Pacientes seleccionados para el entrenamiento de la SVM (Hipótesis 3 y 4). Temblor Fisiológico: Amparo_S1_MD, Amparo_S1_MI, Belen_S1_MD, Belen_S2_MI, Carlos_S2_MD, Carlos_S4_MI, Carmen_S1_MD, Carmen_S1_MI, Cristina_S1_MD, Cristina_S2_MI, Gandia_S1_MD, Gema_S1_MD, Iñaki_S1_MD, Iñaki_S1_MI, Jaime_S1_MD, Jaime_S2_MI, Jose_Luis_M_S1_MD, Jose_Luis_M_S1_MI, Jose_Manuel_S1_MD, M_Carmen_S1_MD, Jose_Manuel_S1_MI, M_Carmen_S2_MI, Juan_Manuel_S1_MD, Marta_S1_MD, Juan_Manuel_S1_MI, Mogedano_S2_MD, Mora_S1_MD, PilarN_S1_MD, Roberto_S1_MD, Roberto_S1_MI, Rosa_S2_MD, Rosa_S4_MI, Vivi_S1_MD, Vivi_S1_MI. 197 Temblor Patológico: Anton_S1-MI, Anton_S1_MD, Fernando_S1_MD, Ignacio_S1_MI, Ignacio_S1_MD, Jimenez_S1_MD, JosefaAG_S2_MD, Leon_S1_MD, Leon_S1_MI, Mayor_S1_MD. Alvear_S1_MD, Alvear_S2_MD, Antonio_Jesus_S2_MI, Antonio_Jesus_S4_MD, Antonio_Jesus_S6_MD, Ayuso_S1_MD, Ayuso_S1_MI, Cipriano_S1_MD, Cipriano_S2_MD, Cordoba_S1_MD, Cordoba_S1_MI, Cordoba_S2_MI, Cordoba_S3_MI, Dieguez_S1_MD, Dieguez_S1_MI, Dieguez_S2_MI, Dieguez_S3_MI, Ger_S1_MD, Ger_S1_MI, Ger_S3_MD, Ger_S3_MD, Emilio_S1_MD, Joaquin_S1_MD, Jose_Luis_G_S1_MD, Jose_Luis_G_S3_MD, Jose_Soto_S1_MI, Jose_Soto_S2_MI, Jose_Vazquez_S1_MD, Jose_Vazquez_S2_MD, JuanGJ_S1_MD, JuanGJ_S3_MD, Lillo_S1_MD, Lillo_S1_MI, Lopez_S1_MD, Lucia_S1_MI, Miranda_S1_MD, Miranda_S1_MI, Montero_S2_MI, Natividad_S1_MD, Novales_S1_MI, Novales_S2_MI, Pedro_S1_MD, Pedro_S3_MD, Pilar_S1_MI, Pilar_S3_MD, Vicentegar_S1_MD, Vicentegar_S2_MD. Temblor Esencial: Anton_S1-MI, Anton_S1_MD, Fernando_S1_MD, Ignacio_S1_MI, Ignacio_S1_MD, JosefaAG_S2_MD, Leon_S1_MD, Leon_S1_MI, Mayor_S1_MD. Enfermedad de Parkinson: Alvear_S2_MD, Antonio_Jesus_S6_MD, Ayuso_S1_MD, Cordoba_S3_MI, Dieguez_S1_MI, Dieguez_S2_MI, Dieguez_S3_MI, Ger_S1_MD, Ger_S3_MD, Joaquin_S1_MD, Jose_Luis_G_S1_MD, Jose_Luis_G_S3_MD, Jose_Soto_S2_MI, Jose_Vazquez_S1_MD, JuanGJ_S1_MD, JuanGJ_S3_MD, Lillo_S1_MD, Lucia_S1_MI, Miranda_S1_MD, Miranda_S1_MI, Montero_S2_MI, Natividad_S1_MD, Novales_S1_MI, Novales_S2_MI, Pedro_S1_MD, Pilar_S1_MI, Vicentegar_S2_MD. 198 BIBLIOGRAFÍA 1 Deuschl G, Bain P, Brin M. Consensus statement of the Movement Disorder Society on Tremor. Ad Hoc Scientific Committee. Mov Disord. 1998; 13 Suppl. 3:2-23. 2 Hallett, M. Overview of Human Tremor Physiology. Movement Disorders, p.43-48, 1998. ISSN 1531-8257. 3 Grimaldi G, Manto M. Tremor: From Pathogenesis to Treatment. San Rafael, California: Morgan & Claypool Publishers 2008. 4 Crawford P, MD, and Zimmerman E., MD. Differentiation and Diagnosis of Tremor, Nellis Family Medicine Residency, Nellis Air Force Base, Nevada. Volume 83, Number 6, March 15, 2011. 5 Alty J, Kempster P. A practical guide to the differential diagnosis of tremor. Posgrad Med J. 2011 Sep; 87(1031):623-9. 6 Bhidayasiri R. Differential diagnosis of common tremor syndromes. Posgrad Med J 2005; 81: 756-762. 7 Ojeda M, Rodríguez F, Amaya L. Diagnóstico diferencial del temblor. Acta Médica Grupo Ángeles. Volumen 7, No. 3, julio-septiembre 2009 8 Koller WC, Vetere-Overfield B, Barter R. Tremors in early Parkinson’s disease. Clin Neuropharmacol 1989; 12(4): 293-297. 9 Dilip Kumar Jha, Anupam Kumar Singh. A Clinical Approach to Tremor. Chapter 119. URL http://www.apiindia.org/medicine_update_2013/chap119.pdf 10 Louis, E. D. and Ferreira, J. J. (2010), How common is the most common adult movement disorder? Update on the worldwide prevalence of essential tremor. Mov. Disord. 25: 534–541. 11 Benito-León J. Essential tremor: one of the most common neurodegenerative diseases? Neuroepidemiology. 2011; 36(2):77-8. 12 Mansur P, Cury L, Andrade AO, Pereira AA, Miotto GA, Soares AB, Naves EL. A review on techniques for tremor recording and quantification. Crit Rev Biomed Eng. 2007; 35(5):343-62. 13 Chaudhuri KR, Buxton-Thomas M, Dhawan V, Peng R, Meilak C, Brooks DJ. Long duration asymmetrical postural tremor is likely to predict development of Parkinson’s disease and not essential tremor: clinical follow up study of 13 cases. J Neurol Neurosurg Psychiatry 2005; 76: 115-7. 14 Jain S, Lo SE, Louis ED. Common misdiagnosis of a common neurological disorder: how are we misdiagnosing essential tremor? Arch Neurol 2006; 63: 1100-4. 15 Geraghty J, Jankovic J, Zetusky J. Association between essential tremor and Parkinson’s disease. Ann Neurol 1985; 17: 329-33. 16 Labiano-Fontcuberta A, Benito-León J. Temblor esencial y enfermedad de Parkinson: ¿existe una asociación? Rev. Neurol. 2012; 55: 479-89. 17 Benito-León J, Louis ED, Bermejo-Pareja F, Neurological Disorders in Central Spain Study Group. Risk of incident Parkinson’s disease and parkinsonism in essential tremor: a population based study. J Neurol Neurosurg Psychiatry 2009; 80: 423-5 18 Tan K, Lee S, Fook-Chong S, Lum Y. Evidence of increased odds of essential tremor in Parkinson’s disease. Mov. Disord. 2008; May 15; 23(7):993-7. 19 Koller WC. Busenbark K, Miner K, and the Essential Tremor Study Group. The relationship of essential tremor to other movement disorders: report on 678 patients. Ann Neurol. 1994; 35:717–723. 199 20 Shahed J, Jankovic J. Exploring the relationship between essential tremor and Parkinson's disease. Parkinsonism Relat Disord. 2007 Mar; 13(2):67-76. 21 Minen MT, Louis ED. Emergence of Parkinson's disease in essential tremor: a study of the clinical correlates in 53 patients. Mov Disord. 2008 Aug 15; 23(11):1602-5. 22 Fekete R, Jankovic J. Revisiting the relationship between essential tremor and Parkinson's disease. Mov Disord. 2011 Feb 15; 26(3):391-8. 23 Louis ED, Frucht SJ. Prevalence of essential tremor in patients with Parkinson's disease vs. Parkinson-plus syndromes. Mov Disord. 2007 Jul 30; 22(10):1402-7. 24 Rocca W, Bower J, Ahlskog J, Elbaz A, Grossardt B, McDonnell S, Schaid D. Increased risk of essential tremor in first-degree relatives of patients with Parkinson's disease. Mov Disord. 2007 Aug 15; 22(11):1607-14. 25 Spanaki C, Plaitakis A. Essential tremor in Parkinson's disease kindreds from a population of similar genetic background. Mov Disord. 2009 Aug 15; 24(11):1662-8. 26 Deng H, Le W, Davidson AL, Xie W, Jankovic J. The LRRK2 I2012T, G2019S and I2020T mutations are not common in patients with essential tremor. Neurosci Lett. 2006 Oct 23; 407(2):97-100. 27 Pigullo S, De Luca A, Barone P, Marchese R, Bellone E, Colosimo A, Scaglione C, Martinelli P, Di Maria E, Pizzuti A, Abbruzzese G, Dallapiccola B, Ajmar F, Mutational analysis of parkin gene by denaturing high-performance liquid chromatography (DHPLC) in essential tremor. Parkinsonism Relat. Disord. 2004 Aug; 10(6):357-62. 28 Vilariño-Güell C, Ross OA, Wider C, Jasinska-Myga B, Cobb SA, Soto-Ortolaza AI, Kachergus JM, Keeling BH, Dachsel JC, Melrose HL, Behrouz B, Wszolek ZK, Uitti RJ, Aasly JO, Rajput A, Farrer MJ. LINGO1 rs9652490 is associated with essential tremor and Parkinson disease. Parkinsonism Relat Disord. 2010 Feb; 16(2):109-11. 29 Vilariño-Güell C, Wider C, Ross O, Jasinska-Myga B, Kachergus J, Cobb S, Soto-Ortolaza A, Behrouz B, Heckman M, Diehl N, Testa C, Wszolek Z, Uitti R, Jankovic J, Louis E, Clark L, Rajput A, Farrer M. LINGO1 and LINGO2 variants are associated with essential tremor and Parkinson disease. Neurogenetics. 2010 Oct; 11(4):401-8. 30 Koller WC, Vetere-Overfield B, Barter R. Tremors in early Parkinson's disease. Clin Neuropharmacol. 1989 Aug; 12(4):293-7. 31 Louis E, Asabere N, Agnew A, Moskowitz C, Lawton A, Cortes E, Faust PL, Vonsattel JP. Rest tremor in advanced essential tremor: a post-mortem study of nine cases. J Neurol Neurosurg Psychiatry. 2011 Mar; 82(3):261-5. 32 Uchida K, Hirayama M, Yamashita F, Hori N, Nakamura T, Sobue G. Tremor is attenuated during walking in essential tremor with resting tremor but not parkinsonian tremor. J Clin Neurosci. 2011 Sep; 18(9):1224-8. 33 Hardesty D, Maraganore D, Matsumoto J, Louis ED. Increased risk of head tremor in women with essential tremor: longitudinal data from the Rochester Epidemiology Project. Mov Disord. 2004 May; 19(5):529-33. 34 Zimmermann R, Deuschl G, Hornig A, Schulte-Mönting J, Fuchs G, Lücking C. Tremors in Parkinson's disease: symptom analysis and rating. Clin Neuropharmacol. 1994 Aug; 17(4):303-14. 35 Duval C, Sadikot A, Panisset M. Bradykinesia in patients with essential tremor. Brain Res. 2006 Oct 18; 1115(1):213-6. 36 Gerasimou G, Aggelopoulou T, Costa D, Gotzamani-Psarrakou A. Molecular imaging (SPECT and PET) in the evaluation of patients with movement disorders. Nucl Med Rev Cent East Eur. 2006;9(2):147-53 37 Benamer T, Patterson J, Grosset D, Booij J, De Bruin K, Van Royen E, et al. Accurate differentiation of parkinsonism and essential tremor using visual assessment of [123I]-FPCIT SPECT imaging: the [123I]-FP-CIT study group. Mov Disord 2000; 15: 503-10. 38 Isaias I, Canesi M, Benti R, Gerundini P, Cilia R, Pezzoli G, et al. Striatal dopamine transporter abnormalities in patients with essential tremor. Nucl Med Commun 2008; 29: 349-53. 39 Gerasimou G, Costa D, Papanastasiou E, Bostanjiopoulou S, Arnaoutoglou M, Moralidis E, et al. SPECT study with I-123-ioflupane (DaTSCAN) in patients with essential tremor. Is there any correlation with Parkinson’s disease? Ann Nucl Med 2012; 26: 337-44. 40 Ramaker C, Marinus J, Stiggelbout AM, Van Hilten BJ. Systematic evaluation of rating scales for impairment and disability in Parkinson's disease. Mov Disord. 2002 Sep; 17(5):867-76. 41 Greffard S, Verny M, Bonnet A, Beinis JY, Gallinari C, Meaume S, Piette F, Hauw JJ, Duyckaerts C. Motor score of the Unified Parkinson Disease Rating Scale as a good predictor of Lewy body-associated neuronal loss in the substantia nigra. Arch Neurol. 2006 Apr; 63(4):584-8. 200 42 Louis E, Barnes L, Wendt K, Ford B, Sangiorgio M, Tabbal S, Lewis L, Kaufmann P, Moskowitz C, Comella CL, Goetz CC, Lang AE. A teaching videotape for the assessment of essential tremor. Mov Disord. 2001 Jan; 16(1):89-93. 43 Stacy M, Elble R, Ondo W, Wu S, Hulihan J; TRS study group. Assessment of interrater and intrarater reliability of the Fahn-Tolosa-Marin Tremor Rating Scale in essential tremor. Mov Disord. 2007 Apr 30; 22(6):833-8. 44 Mostile G, Giuffrida J, Adam O, Davidson A, Jankovic J. Correlation between Kinesia system assessments and clinical tremor scores in patients with essential tremor. Mov Disord. 2010 Sep 15; 25(12):1938-43. 45 Goetz G, et al. Movement Disorder Society-sponsored revision of the Unified Parkinson's Disease Rating Scale (MDS-UPDRS): Process, format, and clinimetric testing plan. Mov Disord. 2007 Jan; 22(1):41-7. 46 Goulart F, Pereira LX. Uso de escalas para avaliação da doença de Parkinson em fisioterapia. Fisioterapia e Pesquisa. 2005; 12(1):49–56. 47 Deuschl G, Lauk M, Timmer J. Tremor classification and tremor time series analysis. Chaos, 1995 Mar; 5(1):48-51. 48 Veluvolu KC, Ang WT. Estimation of physiological tremor from accelerometers for real-time applications. Sensors (Basel). 2011;11(3):3020-36 49 Elble RJ. Characteristics of physiologic tremor in young and elderly adults. Clin Neurophysiol. 2003 Apr;114(4):624-35 50 Mansur P, Cury L, Andrade A, Pereira A, Miotto G, Soares A, Naves EL. A review on techniques for tremor recording and quantification. Crit Rev Biomed Eng. 2007; 35(5):343-62. 51 Tsipouras M, Tzallas A, Rigas G, Tsouli S, Fotiadis D, Konitsiotis S. An automated methodology for levodopainduced dyskinesia: assessment based on gyroscope and accelerometer signals. Artif Intell Med. 2012 Jun; 55(2):127-35. 52 de Lima ER, Andrade AO, Pons JL, Kyberd P, Nasuto SJ. Empirical mode decomposition: a novel technique for the study of tremor time series. Med Biol Eng Comput. 2006 Jul; 44(7):569-82. 53 Salarian A, Russmann H, Wider C, Burkhard PR, Vingerhoets FJ, Aminian K. Quantification of tremor and bradykinesia in Parkinson's disease using a novel ambulatory monitoring system. IEEE Trans Biomed Eng. 2007 Feb; 54(2):313-22. 54 Zwartjes DG, Heida T, van Vugt JP, Geelen JA, Veltink PH. Ambulatory monitoring of activities and motor symptoms in Parkinson's disease. IEEE Trans Biomed Eng. 2010 Nov; 57(11). 55 Milanov I. Electromyographic differentiation of tremors. Clin Neurophysiol. 2001 Sep; 112(9):1626-32. 56 Sturman MM, Vaillancourt DE, Corcos DM. Effects of aging on the regularity of physiological tremor. J Neurophysiol. 2005 Jun; 93(6):3064-74. Epub 2005 Feb 16. 57 Hellwig B, Schelter B, Guschlbauer B, Timmer J, Lücking CH. Dynamic synchronisation of central oscillators in essential tremor. Clin Neurophysiol. 2003 Aug; 114(8):1462-7. 58 Guilherme A. A. Miotto, Adriano O. Andrade, Alcimar B. Soares. M Measurement Of Tremor Using Digitizing Tablets, Brasil, 2007. 59 Feys P, Helsen W, Prinsmel A, Ilsbroukx S, Wang S, Liu X. Digitised spirography as an evaluation tool for intention tremor in multiple sclerosis. J Neurosci Methods. 2007 Mar 15;160(2):309-16. 60 Miralles F, Tarongí S, Espino A. Quantification of the drawing of an Archimedes spiral through the analysis of its digitized picture. J Neurosci Methods. 2006 Apr 15; 152(1-2):18-31. 61 Liu X, Carroll CB, Wang SY, Zajicek J, Bain PG. Quantifying drug-induced dyskinesias in the arms using digitised spiral-drawing tasks. J Neurosci Methods. 2005 May 15;144(1):47-52. 62 Ghassemi M, Lemieux S, Jog M, Edwards R, Duval C. Bradykinesia in patients with Parkinson's disease having levodopa-induced dyskinesias. Brain Res Bull. 2006 May 15;69(5):512-8 63 Albert, M. V.; Kording, K. P. Determining posture from physiological tremor. Experimental brain research. Experimentelle Hirnforschung. Experimentation cerebrale, v. 215, n. 3-4, p. 247-255, 2011 64 Gunilla Wastensson Quantitative Methods for Evaluation of Tremor and Neuromotor Function: Application in Workers Exposed to Neurotoxic Metals and Patients With Essential Tremor, Sweden 2010. 65 Sanchez-Ramos, J.; Reimer, D.; Zesiewicz, T.; Sullivan, K.; Nausieda, P.A. Quantitative Analysis of Tremors in Welders. Int. J. Environ. Res. Public Health 2011, 8, 1478-1490. 66 Veluvolu KC, Ang WT. Estimation of physiological tremor from accelerometers for real-time applications. Sensors (Basel). 2011; 11(3):3020-36. 201 67 Gallego JA, Rocon E, Roa JO, Moreno JC, Pons JL. Real-time estimation of pathological tremor parameters from gyroscope data. Sensors (Basel). 2010; 10(3):2129-49. 68 Caviness JN, Liss JM, Adler C, Evidente V. Analysis of high-frequency electroencephalographic-electromyographic coherence elicited by speech and oral nonspeech tasks in Parkinson's disease. J Speech Lang Hear Res. 2006 Apr; 49(2):424-38. 69 Elble RJ, Pullman SL, Matsumoto JY, Raethjen J, Deuschl G, Tintner R; Tremor Research Group. Tremor amplitude is logarithmically related to 4 and 5 point tremor rating scales. Brain. 2006 Oct;129(Pt 10):2660-6 70 Farkas Z, Csillik A, Szirmai I, Kamondi A. Asymmetry of tremor intensity and frequency in Parkinson's disease and essential tremor. Parkinsonism Relat Disord. 2006 Jan; 12(1):49-55. 71 Piboolnurak P, Rothey N, Ahmed A, Ford B, Yu Q, Xu D, Pullman SL. Psychogenic tremor disorders identified using tree-based statistical algorithms and quantitative tremor analysis. Mov Disord. 2005 Dec; 20(12):1543-9. 72 O'Suilleabhain PE, Matsumoto JY. Time-frequency analysis of tremors. Brain. 1998 Nov; 121 (Pt 11):2127-34. 73 Machowska-Majchrzak A, Pierzchała K, Pietraszek S. Analysis of selected parameters of tremor recorded by a biaxial accelerometer in patients with parkinsonian tremor, essential tremor and cerebellar tremor. Neurol Neurochir Pol. 2007 May-Jun; 41(3):241-50. 74 Jakubowski J, Kwiatos K, Chwaleba A, Osowski S. Higher order statistics and neural network for tremor recognition. IEEE Trans Biomed Eng. 2002; 49(2):152–9. 75 Lauk M, Timmer J, Guschlbauer B, Hellwig B, Lücking CH. Variability of frequency and phase between antagonistic muscle pairs in pathological human tremors. Muscle Nerve. 2001 Oct; 24(10):1365-70. 76 Riviere CN, Reich SG, Thakor NV. Adaptive Fourier modeling for quantification of tremor. J Neurosci Methods. 1997 Jun 6; 74(1):77-87. 77 Application of EMD as a novel technique for the study of tremor time series. Proc 28th Annual International Conference of the IEEE; 2006. 78 Burkhard PR, Shale H, Langston JW, Tetrud JW. Quantification of dyskinesia in Parkinson's disease: validation of a novel instrumental method. Mov Disord. 1999 Sep; 14(5):754-63. 79 Keijsers N, Horstink M, van Hilten J, Hoff J, Gielen C. Detection and assessment of the severity of levodopa induced dyskinesia in patients with Parkinson's disease by neural networks. Mov Disord. 2000; 15(6):1104-11. 80 Hoff J, van den Plas A, Wagemans E, van Hilten J. Accelerometric assessment of levodopa-induced dyskinesias in Parkinson's disease. Mov Disord. 2001 Jan; 16(1):58-61. 81 Gour J, Edwards R, Lemieux S, Ghassemi M, Jog M, Duval C. Movement patterns of peak-dose levodopa-induced dyskinesias in patients with Parkinson's disease Brain Res Bull. 2007 Sep 14; 74(1-3):66-74. 82 Patel S, Lorincz K, Hughes R, Huggins N, Growdon J, Standaert D, et al. Monitoring motor fluctuations in patients with Parkinson’s disease using wearable sensors. IEEE Transactions on Information Technology in Biomedicine. 2009; 13:864-73. 83 Chelaru MI, Duval C, Jog M. Levodopa induced dyskinesias detection based on the complexity of involuntary movements. J Neurosci Methods. 2010 Jan 30; 186(1):81-9. 84 Tsipouras MG, Tzallas AT, Rigas G, Tsouli S, Fotiadis DI, Konitsiotis S. An automated methodology for levodopainduced dyskinesia: assessment based on gyroscope and accelerometer signals. Artif Intell Med. 2012 Jun; 55(2):127-35. 85 Carlos Rubio Martín, Filtrado y Caracterización del Temblor Mediante Técnicas de I.A. Aplicación de las Redes Neuronales al Procesamiento de Señal. Madrid España 2002. 86 Rojo Pérez Pedro Luis y Gutiérrez Pérez César. Caracterización del temblor mediante técnicas de Inteligencia Artificial. Madrid, España. Octubre 2003. 87 Ramón López José Miguel. Técnicas de clasificación para la ayuda al diagnóstico de enfermedades neurodegenerativas. Madrid, España. Julio 2006. 88 Pablo Martínez Valencia. Algoritmos de Optimización del Entrenamiento de Sistemas Inteligentes de Clasificación Aplicados a la Ayuda al Diagnóstico 89 Burgues Christopher J. C. A Tutorial on Support Vector Machines for Pattern Recognition, Data Mining and Knowledge Discovery 2. Kluwer Academic Publishers, Boston. Manufactured in The Netherlands. 1998. 90 Vapnik Vladimir. The Nature of Statical Learning Theory, Second edition, Springer-Verlag New York. 1999. 202 91 Vojislav Kecman, Learning and Soft Computing; Support Vector Machines, Neural Networks and Fuzzy Logic Models, ISBN 0-262-11255-8, USA, 2001 MIT. 92 Palma José y Marín Roque; Inteligencia Artificial, Técnicas, métodos y aplicaciones; 2008; pág.975-1022. 93 Anil K. Jain, Fellow, Robert P.W. Duin, and Jianchang Mao, Senior Member; Statistical Pattern Recognition: A Review; IEEE. Transactions on Pattern Analysis and Machine Intelligence, Vol. 22, No. 1, January 2000. 94 Hernández Orallo J., Ramírez Quintana Ma. J., Ferri Ramírez C., Introducción a la Minería de Datos. Pearson Educación, S.A., Madrid, 2004. ISBN 84-205-4091-9. 95 Statnikov Alexander, Aliferis Constantin, Hardin Douglas, and Guyon Isabelle. A Gentle Introduction to Support Vector Machines in Biomedicine. Volume 1: Theory and Methods. USA, 2011. 96 Ovidiu Ivanciuc. Applications of Support Vector Machines in Chemistry. In: Reviews in Computational Chemistry, Volume 23, Eds.: K. B. Lipkowitz and T. R. Cundari. Wiley-VCH, Weinheim, 2007, pág. 301-337. 97 Scholköpf Bernhard, Smola Alexander J., Learning with Kernels. The MIT press, Cambridge Massachusetts, London, England, 2000. Pág. 1-21. 98 Mercer J., Phil. Trans. Roy. Soc. London A, 209, 415–446 (1909). Functions of Positive and Negative Type and Their Connection with the Theory of Integral Equations. 99 Platt John, Advances in Kernel Methods - Support Vector Learning, B. Schölkopf, C. J. C. Burges, and A. J. Smola, Eds., MIT Press, Cambridge, Massachusetts, 1999, pp. 185–208. Fast Training of Support Vector Machines using Sequential Minimal Optimization. 100 Chih-Chung Chang and Chih-Jen Lin, LIBSVM: a library for support vector machines. ACM Transactions on Intelligent Systems and Technology, 2:27:1--27:27, 2011. Software at: http://www.csie.ntu.edu.tw/~cjlin/libsvm. 101 Salavedra Molí Josep Mª, Técnicas de Speech Enhancement Considerando Estadísticas de Orden Superior, págs. 63-78-Barcelona, 1995. 102 Daza Santacoloma Genaro, Metodología de reducción de dimensión para sistemas de reconocimiento automático de patrones sobre bioseñales. págs. 31-33. Universidad Nacional de Colombia, Manizales, 2006 103 Keerthi S. Sathiya. and Lin Chih-Jen. Asymptotic Behaviors of Support Vector Machines with Gaussian Kernel. Neural Computation, 15(7):1667-1689, 2003. URL http://www.csie.ntu.edu.tw/~cjlin/papers/limit.pdf. 104 Lin H. T. and Lin C.-J. A study on Sigmoid Kernels for SVM and the Training of non-PSD Kernels by SMO-type methods. Technical report, Department of Computer Science, National Taiwan University, 2003. URL http://www.csie.ntu.edu.tw/~cjlin/papers/tanh.pdf. 105 S. S. Keerthi S.S. and Lin C.J. Asymptotic behaviors of support vector machines with Gaussian kernel. Neural Computation, 15(7):1667-1689, 2003. 203