Universidad de Oviedo Departamento de Ingenierı́a Eléctrica, Electrónica, de Computadores y Sistemas Tesis Doctoral Supervisión de Procesos Complejos mediante Técnicas de Data Mining con Incorporación de Conocimiento Previo Abel Alberto Cuadrado Vega Noviembre 2002 2 Universidad de Oviedo Departamento de Ingenierı́a Eléctrica, Electrónica, de Computadores y Sistemas TESIS SUPERVISIÓN DE PROCESOS COMPLEJOS MEDIANTE TÉCNICAS DE DATA MINING CON INCORPORACIÓN DE CONOCIMIENTO PREVIO Memoria presentada para la obtención del grado de Doctor por la Universidad de Oviedo Autor: Abel Alberto Cuadrado Vega Directores: Alberto B. Diez González Ignacio Dı́az Blanco Gijón, Noviembre de 2002 4 Agradecimientos Este trabajo sólo ha podido salir adelante con la inestimable ayuda y apoyo incondicional de mis directores, Alberto Diez e Ignacio Dı́az. Muchas gracias por darme esta oportunidad, por enseñarme, por orientarme, y por proporcionarme proyectos tan interesantes durante estos cuatro años. Una gran parte de la “culpa” de que, después varios años de agotadora carrera, recuperara la ilusión inicial por hacer Ingenierı́a Industrial el mismo dı́a que empecé el proyecto fin de carrera la tiene Nacho (bueno, unos meses después; ese dı́a concretamente me dejó a cuadros). Desde entonces, cada dı́a me contagia con su entusiasmo por descubrir cosas nuevas. Gracias a toda la gente del Área de Ingenierı́a de Sistemas y Automática (incluidos los que ya no están): desde proyectantes, becarios, PAS, profesores, hasta el mismo Director del Departamento, Guillermo Ojea. No podrı́a haberme imaginado un lugar de trabajo mejor. Gracias a Alberto Diez y a Juan Carlos Álvarez por darme unas pistas de lo que es la vida real; a Hilario López, por inspirarme la idea de hacer esta carrera; a Diego Álvarez y a Juan Manuel Guerrero, porque nos ha tocado seguir caminos paralelos desde que empezamos la carrera allá por el 91, y muchas veces me han servido de referencia y me han echado una mano cuando me hacı́a falta; a Alfonso Fernández de Lera por hacer que pasar la jornada entera en el campus sea más ameno; Gracias a Felipe González, Alfonso Fernández Vázquez, Alberto Pintado y Eva Janeiro, por trabajar tan duramente conmigo en diferentes proyectos (y a Pablo Garcı́a, que encima me ha prestado una pedalera para la guitarra). Gracias a todos, porque quisiera nombrar uno a uno, y hacer más menciones especiales, pero ni hay espacio ni vienen a cuento aquı́. Gracias al personal de Aceralia, porque nos ponen en contacto con la industria real: Faustino Obeso, José Luis Rendueles, Luis Rodrı́guez Loredo, Pablo Fernández Quiroga y demás. Por supuesto, gracias a mis amigos, sin los cuales la vida serı́a bastante más aburrida: Ángel, Adriana, Jorge (y ahora Sara también), Eloy, Ana, Pedro C., Pedro F., Fran, José, Joseba, Sonia, Rafa, Ernesto y, cómo no, Carlos (ese ı́nclito elemento que hasta recuerda alguna que otra rabieta mı́a 5 6 en segundo de EGB). Por último, gracias a mi familia. A mi madre y a mi padre, que han sido capaces de criar a “los tres mosqueteros” (éstos se llaman Marcos, Sonia y Alberto, no Athos, Porthos y Aramis), y que han confiado en mı́ y siempre me han ayudado en mi objetivo de trabajar en lo que más me gusta. Resumen La calidad del producto fabricado y la ausencia de fallos en el proceso de fabricación son requisitos fundamentales en una planta industrial. Cada vez se desarrollan métodos más eficaces y eficientes de asegurar el cumplimiento de estos dos requisitos, métodos que generalmente se basan en enfoques totalmente automáticos implementados en un computador. Esta tesis propone un enfoque global de aplicación de técnicas de visualización a la supervisión de procesos que complementa la enorme potencia de cálculo y memoria de un computador con la creatividad y grandes capacidades de percepción visual del ser humano, permitiendo incorporar conocimiento previo que éste posee sobre el proceso, y extraer nuevo conocimiento relacionando leyes fı́sicas, reglas extraı́das de la experiencia y datos provenientes del proceso. La idea principal es representar gráficamente toda esta información bajo una misma forma unificada, que, sobre todo, facilita la comprensión del gran volumen de datos que se pueden generar en un proceso. Esta forma unificada de representación está constituida por un espacio de visualización, al que por medio de técnicas de proyección no lineal se traslada información/conocimiento disponible en el espacio de las variables del proceso, espacio éste de muy alta dimensionalidad y por tanto no visualizable directamente. Este esquema se complementa con la aplicación de una técnica de redundancia analı́tica que se basa en el modelo del proceso constituido por una técnica de proyección y que encaja perfectamente en el marco de este enfoque de Data Mining Visual para la supervisión de procesos complejos. En esta tesis, además, se presenta una aplicación software diseñada según estos mismos principios y se muestran algunos resultados de esta metodologı́a aplicada sobre casos reales: un motor de inducción de 4 kW en laboratorio y un motor de continua de 6000 kW de un tren de laminación de la empresa siderúrgica Aceralia. 7 8 Índice general 1. Introducción y Objetivos 13 1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.2. Motivación y objetivos . . . . . . . . . . . . . . . . . . . . . . 14 1.3. Formulación del problema . . . . . . . . . . . . . . . . . . . . 18 2. Técnicas de Supervisión de Procesos 2.1. Introducción . . . . . . . . . . . . . . . . . . . 2.2. Técnicas basadas en modelos analı́ticos . . . . 2.2.1. Ecuaciones de paridad . . . . . . . . . 2.2.2. Estimación de parámetros . . . . . . . 2.2.3. Observadores de estado . . . . . . . . . 2.3. Técnicas basadas en conocimiento . . . . . . . 2.3.1. Métodos cualitativos . . . . . . . . . . 2.3.2. Sistemas expertos basados en reglas . . 2.3.3. Sistemas de inferencia borrosos . . . . 2.4. Técnicas basadas en datos . . . . . . . . . . . 2.4.1. Clasificadores . . . . . . . . . . . . . . 2.4.2. Redundancia analı́tica basada en datos 2.4.3. Control estadı́stico de procesos . . . . 2.5. Técnicas hı́bridas . . . . . . . . . . . . . . . . 2.5.1. Técnicas de visualización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3. Técnicas de Reducción de la Dimensión 3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . 3.2. Selección de variables . . . . . . . . . . . . . . . . . . 3.3. Extracción de caracterı́sticas . . . . . . . . . . . . . . 3.3.1. Normalización . . . . . . . . . . . . . . . . . . 3.3.2. Técnicas de análisis espectral . . . . . . . . . 3.3.3. Otras técnicas de extracción de caracterı́sticas 3.4. Técnicas de proyección . . . . . . . . . . . . . . . . . 3.4.1. Técnicas de Proyección Lineal . . . . . . . . . 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 23 25 26 26 27 27 27 28 28 30 30 31 32 33 34 . . . . . . . . 35 35 36 37 39 40 49 49 50 10 ÍNDICE GENERAL 3.4.2. 3.4.3. 3.4.4. 3.4.5. Escalado Multidimensional . Modelos Autoasociativos . . Mapas Topológicos . . . . . Otras técnicas de proyección . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 54 57 63 4. Data Mining Visual 4.1. Introducción . . . . . . . . . . . . . . . 4.2. Formas básicas de representación . . . 4.3. Proyección de datos . . . . . . . . . . . 4.4. El error de modelado . . . . . . . . . . 4.5. Representación visual de conocimiento 4.5.1. Etiquetado . . . . . . . . . . . . 4.5.2. Planos de componentes . . . . . 4.5.3. Mapa de distancias . . . . . . . 4.5.4. Mapas de activación . . . . . . 4.5.5. Mapas borrosos . . . . . . . . . 4.5.6. Mapas de modelos . . . . . . . 4.5.7. Mapas de correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 65 66 69 70 72 72 72 73 74 75 76 78 . . . . . . . . . 81 81 81 82 84 84 86 86 87 87 . . . . . . . . . . 89 89 89 89 90 93 94 94 94 94 96 5. Residuos en Modelos de Datos 5.1. Introducción . . . . . . . . . . . . . . . . . 5.2. Generación de residuos . . . . . . . . . . . 5.3. Detección de Novedades . . . . . . . . . . 5.4. Residuo vectorial . . . . . . . . . . . . . . 5.4.1. Validez del residuo vectorial . . . . 5.4.2. Representación del residuo vectorial 5.5. Consideraciones en el uso de residuos . . . 5.5.1. Elección de datos para el modelo . 5.5.2. Modelo con interpolación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6. Metodologı́a de Supervisión 6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . 6.2. El sistema MAPREX . . . . . . . . . . . . . . . . . 6.2.1. MAPREX: un sistema de monitorización . . 6.2.2. MAPREX: una herramienta de Data Mining 6.2.3. Estructura de la aplicación MAPREX . . . . 6.3. Una sesión con MAPREX . . . . . . . . . . . . . . 6.3.1. Selección de señales . . . . . . . . . . . . . . 6.3.2. Visualización de las señales en tiempo real . 6.3.3. Selección de caracterı́sticas . . . . . . . . . . 6.3.4. Preparación de datos para modelado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Visual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ÍNDICE GENERAL 11 6.3.5. Generación del modelo . . . . . . . . . . . . . . . . . . 96 6.3.6. Explotación del modelo . . . . . . . . . . . . . . . . . . 96 7. Resultados 7.1. Introducción . . . . . . . . . . . . . . 7.2. Monitorización de sistemas en tiempo 7.2.1. Descripción del sistema . . . . 7.2.2. Obtención del modelo . . . . 7.2.3. Aplicación del modelo . . . . 7.3. Data Mining de procesos industriales 7.3.1. Descripción del proceso . . . . 7.3.2. Obtención del modelo . . . . 7.3.3. Aplicación del modelo . . . . . . . real . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 99 99 99 101 101 106 106 108 108 8. Conclusiones 117 8.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 8.2. Aportaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 8.3. Lı́neas futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 A. Nomenclatura 123 12 ÍNDICE GENERAL Capı́tulo 1 Introducción y Objetivos 1.1. Introducción El buen funcionamiento de una planta industrial viene condicionado por la eficacia y eficiencia de cada uno de los tres niveles en los que se suele dividir la automatización de la misma: gestión, supervisión y control. Cada nivel tiene unos objetivos diferenciados y actúa sobre el nivel inmediatamente inferior para lograrlos1 . El nivel de gestión es el que marca los objetivos principalmente económicos, realiza la planificación y tiene unos tiempos entre actuaciones sobre el nivel de supervisión relativamente largos. El nivel de supervisión tiene la función de verificar el correcto funcionamiento de la planta, pudiendo incluirse en ello la búsqueda de la calidad en la producción, tan importante hoy en dı́a para cumplir objetivos económicos debido a la gran competencia existente en el mercado mundial. Ello lo consigue por medio de acciones sobre el nivel más bajo, el nivel de control, reconfigurando sus estrategias o realizando acciones radicales, como paradas completas, ante una posibilidad de fallo catastrófico. El nivel de control es el que interacciona de forma más cercana con los procesos de fabricación, actuando directamente sobre la maquinaria y requiriendo velocidades de actuación muy elevadas ante eventos en el proceso. Ası́ pues, la importancia de la supervisión radica, primero, en la necesidad de verificar que los procesos de control funcionan de manera adecuada, y segundo, que lo hagan con la precisión que los objetivos de calidad del producto final requieren. El verificar que el control del proceso funcione de manera adecuada tiene que ver con el buen estado de toda la maquinaria del proceso. Un elemento del proceso en mal estado no estará de acuerdo con los modelos matemáticos que se tienen de él y, por tanto, el sistema de control, 1 O sobre el proceso directamente, en el caso del nivel más bajo, el de control. 13 14 CAPÍTULO 1. INTRODUCCIÓN Y OBJETIVOS que se habrá diseñado teniendo en cuenta dichos modelos, no realizará su trabajo correctamente, dando lugar a un producto de baja calidad. También, en caso extremo, se podrı́a producir un fallo grave que pudiera hacer que el proceso de fabricación se detuviera completamente. 1.2. Motivación y objetivos La detención completa de un proceso de fabricación suele conllevar grandes pérdidas económicas. A su vez, un producto de mala calidad es una desventaja para la competitividad de la empresa en los mercados, lo cual supone un obstáculo para el objetivo de maximización de beneficios. Como consecuencia de ello, las estrategias de mantenimiento han evolucionado a lo largo del tiempo para evitar estos inconvenientes interfiriendo lo menos posible en la continuidad del proceso de fabricación. Ası́, en un sistema de mantenimiento básico, la sustitución de componentes en el proceso de fabricación sólo se realiza cuando se produce el fallo de los mismos (mantenimiento correctivo). Este sistema tiene tres inconvenientes principalmente. Por un lado, un fallo que provoque la parada total del proceso puede producirse en un momento inconveniente, en el que las pérdidas económicas sean mayores respecto a otro momento. Por otro lado, un fallo total en un elemento del proceso puede dar lugar a fallos en elementos adyacentes, y puede convertirse incluso en un problema de seguridad para los trabajadores de la planta, generando accidentes. Una tercera razón también podrı́a ser el stock de componentes que habrı́a que tener para la sustitución. Otra estrategia de mantenimiento que intenta evitar estos inconvenientes es el mantenimiento preventivo, que consiste en la sustitución de componentes en función de datos estadı́sticos de vida útil de los mismos. Ello permite también planificar paradas del proceso con antelación, cuando sea necesario, para la sustitución. Sin embargo este sistema de mantenimiento también tiene un inconveniente, sobre todo en componentes de alto coste, y es que a veces se desperdician componentes que todavı́a están en perfecto estado. Además, siempre existe la posibilidad de que los componentes fallen antes de lo previsto. El sistema que actualmente presenta más ventajas es el mantenimiento predictivo o mantenimiento por condición. Por este método se realiza la sustitución de los componentes basándose en el estado de los mismos, deducido a través de su monitorización, ya sea continua o discontinua en función principalmente de lo crı́tico que sea el elemento dentro del proceso. La función de la supervisión de procesos, por consiguiente, se puede resumir como la verificación del funcionamiento óptimo de procesos, con tres 1.2. MOTIVACIÓN Y OBJETIVOS 15 objetivos: Detectar fallos en la maquinaria e instrumentación de forma anticipada para prevenir paradas no planificadas del proceso. Detectar en el proceso desviaciones del funcionamiento correcto y que dan lugar a la fabricación de producto defectuoso o de baja calidad. Actuar o sugerir actuación para volver al óptimo en los dos casos anteriores. Llevar a cabo estos objetivos a través de la monitorización no es, sin embargo, tarea fácil. La mayorı́a de los procesos industriales se pueden calificar como “complejos”. Este adjetivo se deriva del hecho de que los procesos industriales generan una cantidad enorme de datos provenientes de muchas variables que suelen estar relacionadas de forma no lineal. La caracterı́stica de no linealidad es un problema importante, puesto que la mayor parte de la teorı́a de control de sistemas se centra en sistemas lineales. Un modelo en ecuaciones explı́citas de un proceso no lineal suficientemente preciso, si existe, suele ser difı́cil de tratar. En cuanto al gran número de variables, es un inconveniente debido a la maldición de la dimensionalidad (curse of dimensionality) que plantea que el número de datos que hace falta para hacer estimaciones suficientemente precisas a partir de los mismos (estimación de funciones de densidad de probabilidad, aproximación de funciones, etc.) aumenta exponencialmente con la dimensión del espacio de datos [7]. El problema de la no linealidad, y la dificultad derivada de obtener modelos explı́citos, hace que se piense en recurrir a modelos basados en datos frente a otros modelos analı́ticos basados en ecuaciones explı́citas. Respecto al problema de la dimensionalidad, hace necesario el uso de técnicas de reducción de la dimensionalidad para eliminar componentes de los vectores de datos (variables) que no contengan información significativa o que contengan información redundante. Para la supervisión de maquinaria son tı́picos los métodos que fijan umbrales para determinadas variables como método para detectar problemas (métodos de umbral ). Es muy común en máquinas rotativas (motores y generadores eléctricos, bombas, ventiladores, turbinas, . . . ) medir valores de niveles de vibración (valor eficaz en una banda de frecuencia), que no deberán sobrepasar unos valores estándar o dados por el fabricante para considerar que funcionan correctamente [88]. En estos casos también se suelen emplear métodos algo más sofisticados de análisis espectral de las vibraciones para descubrir qué fallo concreto que se está produciendo. Quizás, el mayor esfuerzo en investigación en los últimos años para la detección y diagnóstico de fallos se ha dirigido hacia enfoques en los que 16 CAPÍTULO 1. INTRODUCCIÓN Y OBJETIVOS todo el proceso de detección y diagnóstico, desde la adquisición de datos hasta la señalización e indicación de fallos, se realiza de forma automática. Ası́, son de aparición frecuente en la bibliografı́a técnicas como las de redundancia analı́tica, en las que para el diagnóstico se usan las diferencias entre las salidas de un modelo analı́tico del proceso y el proceso real. En realidad, el concepto de redundancia analı́tica se puede referir al uso de cualquier modelo no fı́sico (matemático) para ese fin. Las técnicas que usan un modelo matemático en forma de ecuaciones explı́citas, como las de ecuaciones de paridad, las de estimación de parámetros y las de estimación de estado, se pueden englobar dentro de un grupo que podrı́amos denominar técnicas basadas en modelos analı́ticos. Sin embargo este grupo de técnicas necesitan para su aplicación un modelo del proceso suficientemente preciso, lo cual es infrecuente en procesos complejos. Gertler, en [37], hace un resumen de estas técnicas para detección y diagnóstico de fallos basadas en modelos para plantas complejas. Otro grupo de técnicas no tienen unos requerimientos tan fuertes en cuanto al conocimiento del modelo del proceso y les basta con un conocimiento impreciso, incompleto o incluso más bien intuitivo, expresado en forma similar al lenguaje humano. Entre ellas se encuentran las técnicas basadas en conocimiento. Éstas incluyen enfoques como el razonamiento cualitativo, la lógica difusa o los sistemas expertos basados en reglas. Por ejemplo, relacionado con este grupo de técnicas, Isermann [44] presenta aplicaciones de lógica difusa para control, supervisión y diagnóstico de fallos. También son posibles combinaciones de modelos analı́ticos y modelos basados en conocimiento. Ası́, Ballé [3] enfoca la detección y diagnóstico de fallos en procesos no lineales a través de modelos difusos lineales locales y estimación de parámetros. Isermann [46] integra información analı́tica y conocimiento heurı́stico para diagnóstico de fallos a través de lógica difusa. Patton [70] resume varias técnicas disponibles de inteligencia artificial aplicadas al diagnóstico de fallos, y de ellas escoge B-splines cómo método que integra un enfoque cualitativo y otro cuantitativo, y que se demuestra equivalente a los sistemas difusos. Gertler [38] añade la posibilidad de razonamiento aproximado (evidential reasoning) en la metodologı́a basada en modelos, aumentando la capacidad de toma de decisiones en el diagnóstico. Sin embargo, a veces el conocimiento previo sobre el proceso que se posee es prácticamente nulo, pero en cambio se dispone de una gran cantidad de datos de historial de variables del proceso. Para esos casos son aplicables las técnicas basadas en datos. Este tipo de técnicas incluye desde métodos estadı́sticos hasta métodos de inteligencia artificial como las redes neuronales. Ası́, dentro de las técnicas basadas en datos se han propuesto metodologı́as de reconocimiento de patrones (clasificadores), de redundancia analı́tica con 1.2. MOTIVACIÓN Y OBJETIVOS 17 modelos basados en datos y de control estadı́stico de procesos (Statistical Process Control, SPC). Sorsa [84] aplica con éxito perceptrones multicapa en la detección de fallos, usándolos como clasificadores. Dı́az [30] muestra, en cuanto a la generación de residuos a partir de modelos basados en datos, las ventajas de enfoques que tienen en cuenta el dominio de los datos en la etapa de cálculo del modelo (GRNN, por ejemplo) frente a los que no (perceptrón multicapa, Radial Basis Functions networks,. . . ). Wilson [103] presenta un método en el que se halla un modelo basado en redes RBF (Radial Basis Functions), con el que se realiza una proyección de los datos en un espacio bidimensional y como criterio para detectar fallos se usa el error de modelado. Esto último también lo realiza Harris [39], pero por medio de una red SOM (Self-Organizing Map). También son posibles combinaciones de técnicas basadas en datos con las anteriormente mencionadas. Sugeno [86] estudia el modelado cualitativo basado en lógica difusa a partir de datos. De forma semejante, Lu [59] presenta un sistema de diagnóstico de fallos para automóviles basado en un sistema difuso, con la particularidad de que a partir de datos se deducen reglas y se ajustan las funciones de pertenencia. Bonissone [14] trata las combinaciones posibles entre las distintas técnicas de computación flexible (Soft Computing) aplicadas a tareas de diagnosis, control y predicción. Filippetti [34] hace una recopilación de recientes desarrollos en el diagnóstico de fallos en accionamientos de motores de inducción a través de técnicas de inteligencia artificial, concretamente sistemas expertos basados en reglas, redes neuronales, lógica difusa y neuro-fuzzy. Sin embargo, todas estas técnicas no pueden evitar completamente la posibilidad de detecciones erróneas, y muchas veces no dan información acerca de cómo se realizó cada diagnóstico concreto, o no proporcionan una medida de la fiabilidad de dichos diagnósticos. Esto puede llegar a hacer que el personal técnico desconfı́e de los equipos de monitorización basados en éstas técnicas, o bien deje de confiar después de sucesivos diagnósticos erróneos. Un enfoque bien distinto es el proporcionado por la técnicas de visualización aplicadas a la monitorización de la condición [56] [83] [93] [13]. En ellas el diagnóstico final lo realiza el ser humano, gracias a que los datos se han transformado y se representan de forma que éste pueda aprovechar sus habilidades de procesamiento visual de la información, superiores a la de cualquier máquina. Para llevarlo a cabo se cuenta con numerosas técnicas de proyección no lineal, muy usadas en tareas de procesamiento de datos de alta dimensionalidad en numerosos campos de la ciencia, como el SelfOrganizing Map (SOM) [53], Generative Topographic Mapping (GTM) [13], Curvilinear Component Analysis (CCA) [23], y otras [89] [79]. Esta tesis se centrará en este enfoque de visualización para la incorporación y extracción 18 CAPÍTULO 1. INTRODUCCIÓN Y OBJETIVOS Técnicas basadas en modelos analíticos Ecuaciones de paridad Estimación de parámetros Observadores de estado Técnicas basadas en conocimiento Métodos cualitativos Sistemas expertos basados en reglas Sistemas de inferencia borrosos Técnicas basadas en datos Clasificadores Redundancia analítica basada en datos Control estadístico de procesos Técnicas híbridas Hibridación de técnicas de soft computing Técnicas de visualización Figura 1.1: Clasificación de técnicas de detección y diagnóstico de fallos. de conocimiento en la supervisión de procesos industriales. 1.3. Formulación del problema El planteamiento del problema de la supervisión de procesos complejos se puede realizar a través de la Teorı́a de Sistemas en Espacio de Estados (ver por ejemplo [69] para una explicación de las ideas básicas). El estado de un sistema (el proceso) puede ser descrito completamente por un conjunto de variables denominadas variables de estado. No existe un único conjunto de variables de estado para un sistema, pero lo que siempre se cumple es que el número de variables de estado en cada conjunto de un sistema es siempre el mismo. Sea x(t) el vector de variables de estado en cada instante de tiempo t. Este vector x(t) describe una trayectoria en el espacio de todos los posibles estados del sistema X ⊂ Rn , siendo n el número de variables de estado del sistema. Esta trayectoria será función del estado inicial del sistema x(t0 ), y de las entradas u(t) que reciba el sistema en cada instante t ≥ t0 . Esta relación se puede expresar como una ecuación diferencial, denominada ecuación de estado: ẋ(t) = f (x(t), u(t), t) (1.1) 1.3. FORMULACIÓN DEL PROBLEMA 19 Las variables de estado de un sistema no tienen por qué ser accesibles para medir, e incluso no necesariamente tienen interpretación fı́sica. Sin embargo, los valores de las medidas que se puedan tomar en el sistema, dependerán por un lado de su estado, y por otro de la entrada al sistema, lo cual se puede expresar con la llamada ecuación de salida: y(t) = g(x(t), u(t), t) (1.2) siendo y(t) un vector de medidas del proceso. La dependencia de t en (1.1) y en (1.2) expresa el hecho de que tanto f como g pueden ser, en caso general, variantes con el tiempo. Cuando se trata de procesos complejos, la dimensión del espacio de estados puede ser enorme, haciendo el problema del seguimiento del estado computacionalmente casi imposible. Sin embargo, manejar tal número de variables de estado puede ser totalmente innecesario para los objetivos que se suelen plantear en la supervisión de procesos. Esto es exactamente lo que ocurre, por ejemplo, en el estudio de un fluido. El “estado” de un fluido puede caracterizarse tanto por variables macroscópicas (presión, temperatura, volumen; tres dimensiones) como por variables microscópicas (posición y cantidad de movimiento de cada molécula; número de dimensiones de orden superior a 1015 ). La elección de uno u otro punto de vista depende del nivel de detalle necesario para los objetivos del estudio. Ası́, por ejemplo, para determinar en qué fase se encuentra un fluido en equilibrio, bastan las variables macroscópicas “presión” y “temperatura”. Basándose en estas ideas, se puede definir condición de un proceso como un conjunto de estados del mismo que se etiquetan bajo el mismo nombre. La distinción del estado dentro de cada conjunto en general no será relevante para la supervisión. Es decir, una condición que podamos denominar “normal”, por ejemplo, corresponderá habitualmente a un conjunto de estados, y el conocimiento del estado concreto en cada instante no interesará. Como resultado, el espacio de estados del proceso quedará dividido en regiones y el problema será determinar en qué región se encuentra el proceso en cada instante, no el punto concreto. Un enfoque visual para la supervisión de procesos tiene como objetivo la representación gráfica de las regiones correspondientes a las diferentes condiciones de los procesos. Esto presenta un problema fundamental puesto que, como ya se dijo, las variables de estado pueden no ser accesibles para su medición. La deducción del valor de x(t) a partir de un vector de medidas y(t) en procesos complejos en general tampoco es posible, ya sea por la complejidad de f y g, o por la no observabilidad [69] de dichos procesos. Sin embargo, lo que se pretende no es hallar el valor de x(t), sino que se trata de detectar la presencia del proceso en uno de los conjuntos de 20 CAPÍTULO 1. INTRODUCCIÓN Y OBJETIVOS estados, o condiciones. Cabe pensar que el vector de medidas y(t) puede llevar suficiente información sobre el estado para poder discernir en que condición se encuentra el sistema en cada instante. En general, esta hipótesis no es muy restrictiva y suele ser suficiente elegir de forma adecuada las variables a medir en el sistema para que su condición se refleje en el vector de medidas. Esta elección es lo que determina la función g. Como resultado, se traslada el problema de la representación de las regiones de las distintas condiciones en el espacio de estados a un problema equivalente pero en un espacio de medidas. La evolución a lo largo del tiempo del vector de medidas en su espacio puede ser muy complejo. Aun permaneciendo el proceso en una determinada condición, las medidas pueden estar variando de forma rápida y con patrones complicados. Esto provoca que las regiones correspondientes a las distintas condiciones del proceso estén fuertemente entrelazadas, resultando muy dificultosa su interpretación y separación en el mencionado espacio de medidas. Teniendo en cuenta esto, se pueden clasificar las señales del proceso en dos grandes grupos: Señales estáticas, que son señales que pueden considerarse invariantes respecto a la condición del proceso. Señales dinámicas, que son señales que varı́an aun permaneciendo constante la condición del proceso. De las señales estáticas se puede usar directamente su valor instantáneo para el vector de medidas. En cambio, sobre las señales dinámicas habrá que realizar un proceso denominado extracción de caracterı́sticas que pretende obtener un vector de parámetros representativos de la dinámica de la señal (caracterı́sticas) que sean constantes respecto a la condición del proceso2 . Se trata ası́ de eliminar la información redundante presente en el complicado patrón de variación de la señal original y que no sirva para diferenciar condiciones del proceso. Como resultado de la extracción de caracterı́sticas —incluyendo los valores de las señales estáticas, que pueden considerarse resultado de una extracción de caracterı́sticas trivial, o haber sufrido un filtrado para eliminar ruido— de nuevo se ha trasladado el problema de un espacio a otro, en este caso de un espacio de medidas a un espacio de caracterı́sticas. Finalmente, ya sólo queda abordar el problema de la representación gráfica de la trayectoria que será indicación de la condición del proceso en el espacio de caracterı́sticas. Salvo procesos muy simples, el espacio de caracterı́sticas tendrá una dimensión mayor de tres y no será, por tanto, representable 2 Es decir, que no cambien a menos que cambie la condición del proceso. 1.3. FORMULACIÓN DEL PROBLEMA 21 gráficamente. La solución consiste en realizar una proyección del espacio de caracterı́sticas en un espacio que se pueda representar (2D, por ejemplo) que se denominará espacio de visualización. En principio se podrı́an poner dos objeciones a esta solución. La primera es que en el espacio de caracterı́sticas aparecerán relaciones no lineales entre variables (caracterı́sticas), al igual que ocurrı́a en el espacio de estados original entre las variables de estado. En ese caso, el uso de una técnica de proyección lineal (por ser más simple) hará que probablemente se pierda información referente a la condición del proceso. Es decir, regiones correspondientes a distintas condiciones del proceso podrı́an aparecer proyectadas en el mismo lugar del espacio de visualización. Como segunda objeción, se podrı́a argumentar que al proyectar se pierde toda la información sobre las variables del proceso que se tenı́a en el espacio de caracterı́sticas y puesto que las caracterı́sticas generalmente tendrán un significado fı́sico acerca del proceso, convendrı́a conservarlas. Para evitar el inconveniente apuntado por la primera objeción será necesario utilizar un método de proyección no lineal. Respecto al inconveniente citado en la segunda objeción, a lo largo de esta tesis se verá que empleando las técnicas adecuadas no sólo puede conservarse la información del proceso que se poseı́a en el espacio de caracterı́sticas al proyectar sobre el espacio de visualización, sino que además se facilitará la extracción de nuevo conocimiento en dicho espacio de visualización que relacione variables del proceso del espacio de caracterı́sticas. Un esquema que ilustra las ideas mencionadas en este apartado se muestra en la figura 1.2. El resto de esta tesis se distribuye de la siguiente forma. En el capı́tulo 2 se describen las diferentes técnicas existentes para la supervisión de procesos. En el capı́tulo 3 se explican las técnicas de reducción de la dimensión que servirán de base para el planteamiento del enfoque de Data Mining Visual para supervisión de procesos que se propondrá en el capı́tulo 4. Ello se complementa con una descripción, en el capı́tulo 5, de un método de aplicación de redundancia analı́tica aprovechando las mismas técnicas de proyección que se usan en Data Mining Visual. En el capı́tulo 6 se enmarcará este enfoque de Data Mining Visual aplicado a supervisión dentro de un estándar de Data Mining, como es CRISP-DM, y se describirá una implementación real de un sistema de supervisión que aplica las técnicas de los capı́tulos 4 y 5, un sistema denominado MAPREX. Por último, se muestran algunos resultados de aplicación a un motor de inducción en laboratorio y a un motor de continua de 6000 kW de un tren de laminación en el capı́tulo 7, y se termina con las conclusiones y algunas propuestas de trabajo futuro dentro de la misma lı́nea en el capı́tulo 8. (Inaccesible) ~ 1015D Espacio de Estados (Significado físico) ~ 105D Espacio de Medidas EC (Todavía con significado físico) ~101D Espacio de Características TP ? AA prioriB 2D, 3D Espacio de Visualización C no physical meaning Extracción de Características (EC) Usa conocimiento previo sobre Típicamente aprovecha la estructura la geometría de las regiones estadística de los datos. O sobre la física del proceso Conocimiento previo se usa aquí para Técnica de Proyección (TP) la interpretación Pocas o ninguna hipótesis de las regiones. sobre los datos. El enfoque de Reducción de la Dimensión sensores 22 CAPÍTULO 1. INTRODUCCIÓN Y OBJETIVOS Figura 1.2: Esquema de reducción de la dimensión para el enfoque visual de la supervisión de procesos. Capı́tulo 2 Técnicas de Supervisión de Procesos 2.1. Introducción Para poder hablar acerca de “supervisión de procesos” es necesario definir previamente ciertos términos fundamentales. Se puede definir supervisión1 como la monitorización de un sistema fı́sico y la ejecución de las acciones apropiadas para mantener el funcionamiento en caso de fallo. A su vez, se entiende por monitorización (monitoring) como una tarea en tiempo real para determinar las condiciones de un sistema fı́sico registrando información, y reconociendo e indicando anomalı́as en su comportamiento. Un fallo (fault) es una desviación no permitida de al menos una propiedad caracterı́stica o variable del sistema respecto al comportamiento considerado aceptable/usual/estándar/nominal. Un fallo total (failure) es un fallo que implica una interrupción permanente de la capacidad del sistema para llevar a cabo una función requerida bajo condiciones de funcionamiento especificadas. Una perturbación es una entrada desconocida y no controlada actuando sobre el sistema. La detección de fallos (fault detection) es determinar si hay fallos presentes en el sistema. El aislamiento de fallos (fault isolation) es la determinación de la localización del fallo, es decir, de qué componente ha fallado. La identificación de fallos (fault identification) es la determinación de la cuantı́a y el comportamiento a lo largo del tiempo de un fallo. Ası́, el término “diagnóstico de fallos” (fault diagnosis) de forma genérica suele referirse algunas veces a detección, aislamiento e identificación de fallos, y otras solamente a aislamiento e identificación de fallos. En la bibliografı́a 1 Estas y otras definiciones en este apartado han sido tomadas de [45]. 23 24 CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS fallos ruido entradas perturbación salidas PLANTA Generador de residuos (con modelo de la planta) residuos Método de decisión diagnóstico Figura 2.1: Diagrama de bloques de la aplicación de redundancia analı́tica. están bien asentados términos como “detección y aislamiento de fallos” (FDI, Fault Detection and Isolation) y “detección, aislamiento e identificación de fallos” (FDII, Fault Detection, Isolation and Identification). El problema de la detección, aislamiento e identificación de fallos es un subconjunto del problema de la supervisión, puesto que en principio no incluye la actuación sobre el sistema estudiado para llevarlo al funcionamiento considerado correcto. Sin embargo, si se puede llegar hasta la identificación del fallo, la acción correctora a realizar suele ser inmediatamente deducible, además de ser muy especı́fica del problema y proceso concreto. Son muchas las herramientas usadas en el problema de la detección, aislamiento e identificación de fallos. Generalmente las técnicas usadas para ese fin se basan en el uso de modelos del sistema, en muy diversas formas, que son usados como referencia para comparar con el comportamiento real del sistema y descubrir fallos (desviaciones en el comportamiento del sistema). Esta idea, denominada redundancia analı́tica deriva del uso que se hizo tradicionalmente de múltiples elementos (sensores, indicadores, etc.) realizando la misma función (midiendo la misma magnitud) para poder ser comparados y detectar fallos en ellos2 y a lo que se denomina redundancia fı́sica. Un esquema de un sistema de redundancia analı́tica se representa en la figura 2.1. Existe una clase de métodos, muy empleados, denominados métodos de 2 Con dos se detecta que hay fallo, con más se puede detectar qué elemento, o elementos, según número, han fallado. 2.2. TÉCNICAS BASADAS EN MODELOS ANALÍTICOS 25 umbral que, estrictamente hablando, usan modelos —muy burdos, en ciertos casos— consistentes en la comprobación de lı́mites y el análisis frecuencial (o modelos de señales en general, como lo denomina Isermann [46] [44]). Los modelos más simples después de los mencionados, menos frecuentemente aplicables en procesos complejos, son los modelos lineales. Los modelos lineales de sistemas han sido ampliamente estudiados por la Teorı́a de Control y para ellos existen multitud de técnicas aplicables a detección de fallos. Otra forma de modelar sistemas, aplicable ya a sistemas más complejos, deriva de la llamada fı́sica cualitativa. Los modelos cualitativos son descripciones no numéricas de los sistemas y están orientados a captar los aspectos fundamentales del sistema o mecanismo, suprimiendo gran parte del detalle y manteniendo las propiedades más significativas de su comportamiento. Los sistemas expertos basados en reglas y los sistemas borrosos de inferencia se basan también en este conocimiento impreciso tı́pico del ser humano. Muchas veces no se dispone ni de modelos analı́ticos ni de conocimiento del proceso pero sı́ de una cantidad ingente de datos provenientes del mismo. En estos casos tradicionalmente se han aplicado técnicas estadı́sticas y, más recientemente, han aparecido técnicas que apenas dependen de una estructura fija para el modelo y sı́ más de un gran número de parámetros que se obtienen a partir de los datos por medio de un “aprendizaje” o “entrenamiento”. Las redes neuronales, por ejemplo, son buenos aproximadores de funciones no lineales y son por tanto muy útiles cuando se trata con sistemas complejos. En los siguientes apartados se profundizará algo más en todas éstas técnicas y en sus ámbitos de aplicación, que dependen de la información previa que se tenga del sistema o proceso. 2.2. Técnicas basadas en modelos analı́ticos Las técnicas basadas en modelos analı́ticos son aplicables cuando se tienen modelos analı́ticos del sistema (ecuaciones explı́citas). Esto ocurre especialmente con sistemas lineales. En muchos casos, sin embargo, no son aplicables estos métodos porque los modelos disponibles son sólo aproximaciones que no son lo suficientemente precisas [70] [44]. 26 CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS 2.2.1. Ecuaciones de paridad Se basa en expresar el comportamiento del sistema por medio de ecuaciones diferenciales3 lineales explı́citas de la forma: fi (x) = 0 i = 1, . . . , n (2.1) donde x es el vector de variables y sus derivadas. Cuando, en un momento determinado de la evolución del proceso, no se cumple el modelo dado por esas ecuaciones debido a un fallo se obtiene: fi (x) = i i = 1, . . . , n (2.2) donde al menos un i es distinto de cero. Esos i se denominan residuos. Un residuo es, en general, un indicador de fallo basado en la desviación entre medidas y cálculos derivados de modelos del sistema. La utilidad de los residuos no reside sólo en su capacidad para detectar fallos, sino también para aislarlos. Esto es posible transformando las ecuaciones de forma que cada i sea indicador de un determinado fallo [37] [38]. Realmente los residuos nunca son exactamente nulos debidos a imprecisiones del modelo y ruidos en las medidas. Debido a ellos hay que aplicar sobre los residuos métodos de decisión. 2.2.2. Estimación de parámetros Los métodos de estimación de parámetros se basan en modelos analı́ticos para detectar e identificar los fallos a través de desviaciones en los parámetros del proceso respecto a valores esperados. Los parámetros del proceso pueden estimarse de forma continua (on line) a través de técnicas como RLS, el filtro de Kalman, etc. Un caso especialmente interesante se presenta cuando los parámetros tienen un significado fı́sico claro (la resistencia del rotor en un motor de inducción, por ejemplo [6]). En esos casos es inmediata la aplicación de conocimiento experto para el aislamiento de los fallos. Una forma particular de estimación de parámetros se aplica cuando existe una variable que no es medible o fácilmente medible directamente, pero se puede deducir de otras variables que si están accesibles para su medición. Las técnicas que se emplean con este fin suelen recibir el nombre de sensores virtuales [73]. 3 O ecuaciones en diferencias para sistemas muestreados. 2.3. TÉCNICAS BASADAS EN CONOCIMIENTO 2.2.3. 27 Observadores de estado Este tipo de métodos también están basados en modelos analı́ticos. Se detectan e identifican los fallos a través de la estimación del estado por medio de técnicas como el filtro de Kalman, el filtro de Wiener, etc., denominados, en general, observadores. 2.3. Técnicas basadas en conocimiento Cuando no se dispone de modelos analı́ticos del proceso, una alternativa la constituye lo que se puede denominar como técnicas basadas en conocimiento. Estas técnicas hacen uso del conocimiento acerca del proceso de carácter incompleto e impreciso, tı́pico del ser humano, y que es codificado y representado de diversas formas, como se verá a continuación. 2.3.1. Métodos cualitativos Una forma de modelar sistemas aplicable a sistemas complejos deriva de la llamada fı́sica cualitativa o también razonamiento cualitativo [35] [57]. Los modelos cualitativos son descripciones no numéricas de los sistemas y están orientados a captar los aspectos fundamentales del sistema o mecanismo, suprimiendo gran parte del detalle y manteniendo las propiedades más significativas de su comportamiento. Por medio de simulación cualitativa se puede obtener la evolución del sistema a través de diferentes estados cualitativos. Un ejemplo puede ser la descripción del estado cualitativo de un balón subiendo: la posición del balón está ascendiendo y la velocidad hacia arriba está descendiendo. Posteriormente, por simulación cualitativa, se obtendrı́a el resultado de que el balón en algún punto de su ascenso se detendrá y comenzará a descender (sucesión de estados cualitativos). En muchos casos, dependiendo del nivel de detalle de la información que se usa en la simulación (resolución), pueden obtenerse diferentes soluciones alternativas para dicha sucesión de estados. Para intentar eliminar estas ambigüedades se puede añadir información cuantitativa. Una simulación semicuantitativa es una simulación cualitativa que usa información cuantitativa, como valores numéricos o intervalos, para restringir (acotar) sus resultados [95] [47]. 28 CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS 2.3.2. Sistemas expertos basados en reglas Los sistemas expertos basados en reglas (rule-based expert systems) identifican fallos por medio de conocimiento sobre el proceso puesto en forma de un conjunto de reglas “SI-ENTONCES” de la forma: SI sı́ntoma ENTONCES conclusión donde la conclusión de una regla puede servir como sı́ntoma de otra. El sistema experto las evalúa hasta que llega a conclusiones finales que serán sobre la existencia o no de fallos y su aislamiento. Los sı́ntomas en las primeras reglas del árbol de deducciones serán relaciones de observaciones en el proceso (medidas de variables o valores derivados de éstas, propiedades del proceso que pueden ser percibidas por el operador, etc.) [34] [37] [76]. El conjunto de reglas que usa el sistema experto se denomina base de conocimiento. El elemento que realiza el proceso de razonamiento o decisión se denomina motor de inferencia. 2.3.3. Sistemas de inferencia borrosos Los sistemas de inferencia borrosos (FIS, Fuzzy Inference System) son semejantes a los sistemas basados en reglas del apartado anterior en cuanto a que el conocimiento se expresa en forma de reglas “SI-ENTONCES”. Sin embargo, los sistemas borrosos son mucho más adecuados cuando se trata con información vaga, imprecisa e incompleta [48] [58]. Un sistema de inferencia borroso (en adelante FIS), cuyo esquema se muestra en la figura 2.2, incluye tres elementos: Un conjunto de reglas, que codifican un conocimiento disponible. Un conjunto de funciones de pertenencia, cuya finalidad es codificar y decodificar información numérica en información difusa (borrosa). Un mecanismo de razonamiento, que realiza la inferencia a partir de las reglas y unas variables de entrada o “hechos” para obtener unas variables de salidas o “conclusiones”. Un FIS funciona de la siguiente manera4 . Las variables de entrada pueden ser crisp (valores numéricos concretos) o fuzzy (valores imprecisos). Lo que en la figura 2.2 aparece como (x es A1 ) es una forma compacta de expresar: (x1 es A11 ) y (x2 es A21 ) y . . . y (xn es An1 ) 4 Como ejemplo de FIS se va a explicar el caso de un FIS Mamdani. 2.3. TÉCNICAS BASADAS EN CONOCIMIENTO 29 Regla 1 x es A1 w1 y es B1 (Fuzzy) Regla 2 x x es A2 w2 y es B2 (Fuzzy) Agregador (Crisp o fuzzy) (Crisp) Defuzzificador y Regla r x es Ar wr y es Br (Fuzzy) Figura 2.2: Diagrama de bloques de un sistema de inferencia borroso. que es el antecedente de la regla. Con (x1 es A11 ) se está evaluando la pertenencia del valor de x1 a un conjunto borroso denominado A11 . Al contrario que en la teorı́a de conjuntos crisp tradicional, donde la pertenencia de un elemento a un conjunto sólo puede ser “pertenece ” o “no pertenece” (1 o 0 respectivamente), en los conjuntos borrosos la pertenencia puede ser cualquier valor real en el intervalo [0, 1], indicando un mayor grado de pertenencia cuanto más se acerque dicho valor a 1. La pertenencia de una variable a un conjunto borroso se define por medio de una función de pertenencia que tiene el mismo dominio que la variable en cuestión y devuelve valores en el intervalo [0, 1]. Los resultados de evaluar los (xi es Aij ) se combinan por los operadores lógicos (“y”, “o”) que intervengan en cada regla (en el ejemplo sólo hay “y”). Estos operadores lógicos se denominan respectivamente t-norma y tconorma, y existen varias opciones en cuanto la elección de estos operadores mientras cumplan ciertas condiciones. Se suelen tomar las funciones “mı́nimo” y “máximo” respectivamente. El siguiente paso es evaluar el consecuente “entonces (y es Bi )”. La implicación consiste en recortar la función de pertenencia que aparece en el consecuente, que en este caso denominamos Bi , con el resultado que se obtuvo en el antecedente wi (grado de cumplimiento o fuerza de activación). Como resultado se obtiene una nueva función de pertenencia (variable borrosa). Todo estos pasos se realizan para cada regla. Posteriormente hay que agregar los resultados de todas las reglas para obtener un único resultado 30 CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS borroso. Ello se suele hacer con una t-conorma (la función máximo, por ejemplo). Finalmente, si lo que se necesita es un resultado crisp, hay que realizar lo que se denomina defuzzificación, que consiste en extraer un único valor a partir de la función de pertenencia resultado de la agregación de las reglas. Existen varios métodos para realizarlo, como pueden ser el centroide del área bajo la función, el bisector de dicha área, la media de los puntos donde la función de pertenencia es máxima, el extremo superior de los puntos donde es máxima, el extremo inferior de los puntos donde es máxima, etc. Se puede observar que un FIS es equivalente a una función no lineal y = f (x), o lo que es lo mismo, una hipersuperficie, y puede constituir, por tanto, un modelo de un proceso [86] [48] [58] [59] [9]. Esta idea se utiliza en el apartado 4.5.5. 2.4. Técnicas basadas en datos Además de los modelos analı́ticos y el conocimiento fı́sico que se tiene del funcionamiento de un proceso, existe otra importante fuente de información acerca del mismo: las magnitudes medibles en él durante su funcionamiento. 2.4.1. Clasificadores Los clasificadores son un conjunto de técnicas incluidas en la disciplina denominada Reconocimiento de Patrones que sirven para indicar a qué grupo pertenece un dato muestra de entre un conjunto de grupos predeterminados. Este tipo de técnicas son muy útiles cuando se dispone de datos del proceso para los diferentes estados o tipos de fallos que se quieren detectar, que aparecerán en dichos datos como agrupaciones. Al implementar un clasificador, se le proporcionan los datos de los que se dispone y, posteriormente, ante datos nuevos “decide” a qué grupo de los datos proporcionados previamente pertenecen. Algunos métodos generan además una probabilidad o grado de pertenencia a cada uno de los grupos, que da una idea de la fiabilidad de la clasificación de cada nuevo dato. Existen multitud de tipos de clasificadores, pero en los siguientes subapartados sólo se menciona un pequeño número de ellos. Una descripción más completa puede encontrarse en bibliografı́a de Reconocimiento de Patrones [12] [32] [90]. Clasificadores no supervisados Los clasificadores no supervisados (también llamadas técnicas de clustering) no necesitan conocer de antemano la pertenencia de cada dato de 2.4. TÉCNICAS BASADAS EN DATOS 31 entrenamiento para realizar los agrupamientos, por lo que estas técnicas se pueden aplicar cuando no se dispone de dicha información. Si se dispone de ella, sin embargo, esa información puede utilizarse posteriormente para evaluar la calidad de los agrupamientos y para “etiquetar” (ponerle nombre) a cada grupo. Existe una enorme variedad de métodos de clasificación no supervisados. Entre los métodos más conocidos con origen estadı́stico se tiene k-means. Una generalización de éste empleando funciones de pertenencia borrosas es el llamado fuzzy c-means, que proporciona un grado de certeza de pertenencia a cada grupo de datos. También existen clasificadores no supervisados entre las redes neuronales, como el Self-Organizing Map (SOM). Existen también técnicas que realizan agrupamientos a distintos niveles de detalle. Son las técnicas de Agrupamiento Jerárquico, que pueden tener dos enfoques: aglomerativo, que partiendo de datos individuales van creando grupos cada vez más grandes, y partitivo, que parten de un único grupo que se descompone progresivamente en grupos más pequeños. Clasificadores supervisados Estas técnicas de clasificación de patrones aprovechan la información suministrada por un “tutor” externo, relativa a la pertenencia a grupos predeterminados de los datos que se usan en su aprendizaje. Entre los métodos con base estadı́stica se encuentran, por ejemplo, los clasificadores de Bayes y el discriminante de Fisher. Otros métodos son Learning Vector Quantization (LVQ) [53] [54], Support Vector Machines [81], redes neuronales feedforward [100] [102] [36] y redes RBF (Radial Basis Functions) [12] [41]. El uso de clasificadores supervisados permite la aplicación posterior de la filosofı́a del razonamiento basado en casos (Case-Based Reasoning), que para supervisión de procesos consistirı́a en la interpolación y extrapolación sobre casos ya conocidos en cuanto a diagnóstico y aplicación de acciones correctoras. 2.4.2. Redundancia analı́tica basada en datos Una caracterı́stica deseable en los métodos de clasificación aplicados a FDI es poder detectar “novedades” (novelty detection), o lo que es lo mismo, datos que no pertenecen a ninguno de los grupos predeterminados y que, por tanto, corresponderán con condiciones nuevas del proceso, condiciones que no se presentan en los datos disponibles previamente. Esta caracterı́stica está muy relacionada con la generación de residuos. La generación de residuos 32 CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS a partir de modelos no sólo es posible con modelos analı́ticos, sino también con modelos que se pueden denominar “basados en datos”. Puede decirse que un modelo basado en datos se diferencia de uno analı́tico en que su estructura es bastante genérica y polivalente, es decir, aplicable a cualquier sistema, lineal o no lineal. En un modelo analı́tico tiene tanta importancia (o quizá más) la estructura como los parámetros. En un modelo basado en datos, sin embargo, la dificultad estriba en encontrar unos parámetros adecuados. Dichos parámetros se hallarán por aprendizaje o entrenamiento a partir de datos tomados del proceso. Este aprendizaje o entrenamiento consiste en la aplicación de métodos de optimización de una función objetivo relacionada con el error de ajuste a los datos de entrenamiento. La idea básica de la redundancia analı́tica basada en datos es semejante a la de modelos analı́ticos. Se le introduce al modelo un vector de variables (caracterı́sticas) del proceso y el generador de residuos devuelve un vector de residuos que da indicaciones de fallos. En sucesivos capı́tulos se verá que usando una técnica de proyección (proyección lineal, red neuronal autoasociativa, mapa topológico, etc.) el generador de residuos puede consistir en proyectar el vector de variables del proceso en el subespacio topológico definido por el modelo de datos, siendo el vector de residuos la diferencia entre en el original y el proyectado [104] [103] [26] [30]. 2.4.3. Control estadı́stico de procesos El control estadı́stico de procesos (Statistical Process Control, SPC) ha sido tradicionalmente aplicado al control de calidad de productos de fabricación por lotes (batch). Básicamente trata de comparar el estado actual del proceso con las condiciones operativas consideradas normales; cuando no está en dichas condiciones normales, se dice que el proceso está fuera de control. Los métodos clásicos se basan en la representación en gráficas de la evolución de unas pocas caracterı́sticas de calidad obtenidas en cada lote a partir de muestras del producto final. Los gráficos de Shewhart, CUSUM y EWMA (Exponentially Weighted Moving Average), son métodos monovariable de este estilo [4], aunque también existen versiones multivariable de los mismos. Recientemente se ha derivado hacia enfoques multivariable y on line, más precisos y que permiten acciones correctoras inmediatas sobre el proceso. Ejemplos de este último enfoque son las técnicas Multiway Principal Component Analysis (MPCA) y Multi-way Partial Least Squares (MPLS), muy relacionadas con las técnicas de visualización multivariable del siguiente apartado, y los gráficos de contribución (contribution plots) [63] [42] [33]. 2.5. TÉCNICAS HÍBRIDAS 2.5. 33 Técnicas hı́bridas La clasificación expuesta en este capı́tulo no pretende abarcar todos los casos posibles, sino quizá los más relevantes en la bibliografı́a sobre diagnóstico de fallos. Serı́a importante resaltar que también existen múltiples combinaciones de muchos de ellos, que podrı́amos denominar técnicas hı́bridas, y que intentan aprovechar las ventajas de cada técnica, combinando información sobre el proceso de las diversas fuentes: modelos analı́ticos, conocimiento, datos [14]. El conocimiento a priori particularmente está presente en formas muy diversas y sutiles —en forma lingüı́stica, en imágenes, . . . — y todos ellos generalmente son de carácter impreciso, difuso. Los métodos matemáticos que aprovechan estas caracterı́sticas de la forma de razonar del ser humano están en auge en los últimos años. Debido a este carácter heterogéneo del conocimiento, muchos de esos métodos hay que clasificarlos como técnicas hı́bridas puesto que combinan técnicas que por separado se ocupan de un sólo aspecto de la forma de razonar del ser humano. Como primeros ejemplos de aplicación práctica se pueden mencionar la combinación de métodos analı́ticos con métodos basados en conocimiento como la lógica borrosa [46] [70] [3], el uso de métodos de datos para obtener una interpretación cualitativa [101], sistemas expertos y redes neuronales [99], y la generación de reglas borrosas y funciones de pertenencia a partir de datos [59] [68]. Un caso en el que la hibridación se da frecuentemente es entre técnicas de soft computing. Soft computing (computación flexible) es un grupo de metodologı́as de computación que incluye la lógica borrosa, las redes neuronales, la computación evolutiva y la computación probabilı́stica [14]. En general son todas metodologı́as que aprovechan la tolerancia a la imprecisión, la incertidumbre y la verdad parcial para conseguir maleabilidad, robustez, bajo coste en la solución, y mayor compenetración con la realidad. Está especialmente extendida la combinación de redes neuronales con lógica borrosa, aportando las primeras su capacidad para aprender de datos y añadiéndose la posibilidad de interpretar lo aprendido de los datos en términos de lógica borrosa [66] [34] [48] [58]. Un ejemplo de hibridación de computación evolutiva con redes neuronales es el uso de la primera para la elección de la topologı́a o el cálculo de los pesos de las segundas. Un caso particular de hibridación, que se considerará aparte por constituir el tema central de esta tesis, es el caso de las técnicas de visualización. 34 CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS 2.5.1. Técnicas de visualización El objetivo final de prácticamente todas las técnicas mencionadas hasta ahora es el de detectar y dar diagnósticos de fallos, desde los más incipientes hasta los más severos, a través de la información recogida del proceso en diversas formas y de múltiples procedencias —principalmente datos, pero también información proveniente de los sentidos (información visual, auditiva, olfativa, etc.)— que es comparada con los modelos del proceso generados a partir de información y conocimiento acerca del proceso disponibles previamente, también en varias formas. Todo ello es realizado generalmente de forma automática5 por el sistema de diagnóstico, que es una máquina (computador). Sin embargo, con este enfoque, las habilidades del ser humano en cuanto a reconocimiento de patrones (sobre todo de forma visual), superiores a las de cualquier máquina, no son aprovechadas. La idea de las técnicas de visualización es “traducir” modelos de comportamiento complejos a forma visual [15] [50] [51] [52]. La información se puede codificar para fluir a través de diversos canales visuales de transmisión multidimensional: color, tamaño, posición, forma, movimiento. El espectador (observador), posteriormente, pasa de patrones visuales a la abstracción, genera modelos mentales, razona con ellos e incluso puede filtrar ruido empleando conocimiento a priori. Por supuesto, para que todo ello sea efectivo hay conseguir reducir una cantidad ingente de datos a la información estrictamente necesaria y útil, y elegir las formas de representación gráfica más adecuadas. Esta tesis transcurrirá en esta lı́nea de aplicación de técnicas de visualización. Ası́, el enfoque aquı́ adoptado consiste en aplicar las técnicas de reducción de la dimensión para proyectar datos del proceso con multitud de variables sobre un espacio visualizable, para posteriormente “cartografiar” este espacio, relacionando cada zona con cada condición del proceso, pudiendo usar para este fin conocimiento expresable en forma de reglas difusas (mapas borrosos), modelos analı́ticos conocidos (mapas de modelos) y casos conocidos —datos etiquetados— (mapas de activación). Este enfoque también hace posible la extracción de nuevo conocimiento acerca del proceso (data mining, minerı́a de datos) en este espacio de visualización (mapas de correlaciones), dejando todavı́a la puerta abierta a numerosas ideas dentro de esta misma lı́nea. 5 O semiautomática. Obviamente la información recogida por los sentidos del operario o técnico, por ejemplo, debe introducirse en el sistema de diagnóstico de forma manual. Capı́tulo 3 Técnicas de Reducción de la Dimensión 3.1. Introducción Las técnicas de reducción de la dimensión se usan tı́picamente en problemas con manejo de datos de alta dimensionalidad (gran número de variables). Los objetivos más comunes que justifican el empleo de técnicas de reducción de la dimensión son esquivar inconvenientes como la maldición de la dimensionalidad (curse of dimensionality), la mejora de la capacidad de generalización en clasificadores y la reducción de los requerimientos computacionales en la clasificación de patrones [62]. En el marco de Data Mining Visual, en el que se encuadra esta tesis, el objetivo es llegar hasta un espacio visualizable (2D, 3D) donde sean representables los conceptos procedentes del espacio multidimensional original, que son con los que es posible razonar. En la aplicación de Data Mining Visual a procesos complejos son imprescindibles las técnicas de reducción de la dimensión, incluso varias usadas en cadena, puesto que tales procesos son, por naturaleza, de una altı́sima dimensionalidad. Se puede realizar una clasificación de estas técnicas atendiendo a la aplicación de conocimiento previo, de los datos y del problema en sı́, que requieren: Selección de variables. Puede realizarse tanto usando conocimiento previo como sin él (de forma automática). Extracción de caracterı́sticas. Generalmente se aplica conocimiento previo en la elección de caracterı́sticas. Técnicas de proyección. No suelen aplicar conocimiento previo, sino sólo consideraciones en la geometrı́a de la distribución de los datos. 35 36 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN Además, este orden expuesto suele ser en general el orden de aplicación a los datos de este tipo de técnicas, y en particular para Data Mining Visual. A lo largo de este capı́tulo se describirán diversas técnicas disponibles de los tres tipos, haciendo especial énfasis en aquellas más útiles para Data Mining Visual. 3.2. Selección de variables Cuando el número de variables del proceso disponibles inicialmente es extremadamente grande, de tal forma que aparecen problemas derivados de la maldición de la dimensionalidad (curse of dimensionality) [7], puede ser necesario un paso previo de selección de variables, que puede realizarse tanto aplicando conocimiento a priori —escogiendo variables que ya se sabe que son significativas en cuanto a la condición del proceso— como por métodos estadı́sticos —basándose en medidas de la cantidad de información que contiene cada variable o grupo de variables—. Un esquema tı́pico para la selección del subconjunto de variables óptimo por métodos estadı́sticos tiene dos partes: 1. Escoger un criterio de selección: para decidir de entre dos subconjuntos de variables cual es mejor. Cuando se trata de diseño de clasificadores para reconocimiento de patrones, el criterio suele ser la minimización del error de clasificación. En otros casos los criterios pueden derivar de la Teorı́a de la Información (entropı́a, información mutua, etc.). Entre posibles criterios de selección se encuentran los métodos de contrastes de hipótesis y los de medidas de separabilidad de clases (divergencia1 , lı́mite de Chernoff y distancia de Brattacharyya, matrices de dispersión). 2. Ejecutar un procedimiento de búsqueda: escoger subconjuntos de variables para compararlos posteriormente por medio del criterio de selección mencionado. Para esta búsqueda existen multitud de métodos: Búsqueda exhaustiva (exhaustive search). Rama y lı́mite (branch and bound ). Selección secuencial hacia adelante (sequential forward selection). Genera soluciones no óptimas pero es más rápido. 1 Una forma de la medida de distancia Kullback-Leibler. 3.3. EXTRACCIÓN DE CARACTERÍSTICAS 37 Eliminación secuencial hacia atrás (sequential backward elimination). Al igual que el anterior genera soluciones no óptimas pero es más rápido. Búsqueda flotante (floating search). Algoritmos de Programación Dinámica. Estos métodos son también aplicables a caracterı́sticas (resultado de extracciones de caracterı́sticas, que se verán en el siguiente apartado) en lugar de a variables. En ese caso, estos métodos se pueden denominar “pasivos” porque seleccionan caracterı́sticas de entre las ya obtenidas. Existen también métodos que se pueden denominar “activos” que tratan de hallar caracterı́sticas que sean óptimas. Se puede encontrar abundante información sobre estas técnicas en algunas de las referencias clásicas de Reconocimiento de Patrones [12] y [90]. 3.3. Extracción de caracterı́sticas El primer obstáculo que se encuentra al interpretar los datos que se generan en un proceso es el gran volumen de los mismos. Los datos pueden imaginarse organizados como una gran matriz en la que las filas son las m variables del proceso y las columnas son las n sucesivas muestras de dichas variables tomadas a lo largo del tiempo, como se puede ver en la figura 3.1. El número total de datos vendrá dado por el producto de ambos valores: m · n. Una de las justificaciones del proceso de extracción de caracterı́sticas es la pretensión de reducir este valor. La razón es la gran carga computacional que suele conllevar en pasos posteriores ese gran volumen de datos. Otra razón para aplicar una extracción de caracterı́sticas a los datos procedentes de un proceso es la reducción de la complejidad en la variaciones de los datos. El objetivo último es la detección de diferentes condiciones en el proceso y un patrón de variación complejo en los valores de sus variables a lo largo del tiempo dificulta dicho objetivo. Se trata, en definitiva, de obtener un vector de caracterı́sticas invariante a la condición, es decir, que no cambie a menos que cambie la condición del proceso, como se planteó en el apartado 1.3. Respecto a este problema de búsqueda de invarianza ante la condición se puede hablar de dos tipos de señales: 1. Señales estáticas. Son señales consideradas invariantes respecto a la condición del proceso. De ellas se usarán como caracterı́sticas sus valores instantáneos (o filtrados, medias, para eliminar ruidos). Ejemplo tı́pico de señal estática es la temperatura. 38 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN 2. Señales dinámicas. Son señales que varı́an aun permaneciendo el proceso dentro de una condición dada. Requieren la aplicación de técnicas que generen caracterı́sticas que sean invariantes respecto a la condición. Ejemplo de ello pueden ser las técnicas de análisis espectral, para la obtención de energı́as en determinadas bandas de frecuencias de cada señal. En estos caso puede obtenerse más de una caracterı́stica por cada variable del proceso (varias bandas) o puede interesar caracterizar una señal dinámica por un único valor (su valor eficaz por ejemplo). Ejemplo tı́pico de señal dinámica es la vibración. Teniendo en cuenta esto, hay que resaltar que con la extracción de caracterı́sticas sobre señales dinámicas se está, de alguna forma, “encapsulando la dinámica” en las caracterı́sticas, convirtiendo ası́ un problema con dinámica en un problema estático. A la hora de escoger las caracterı́sticas que se obtendrán a partir de las variables del proceso hay que aplicar conocimiento a priori. El decidir si una determinada señal es considerada estática o dinámica implica un conocimiento sobre la forma de variación de la misma dentro del proceso. Asimismo, en las señales dinámicas sobre las que se aplique análisis espectral, hay que saber previamente qué bandas de frecuencia contienen información que sea significativa en cuanto a descubrir el estado en el que se halla el proceso en cada instante. Como resultado de la extracción de caracterı́sticas obtendremos un conjunto de datos que nuevamente se podrán organizar como una matriz de M filas, que corresponderán con cada una de las caracterı́sticas, y N columnas que se denominarán “muestras” y que estarán relacionadas con el tiempo (figura 3.1). Debido al primer objetivo de reducción del número total de datos, se pretenderá que se cumpla: M ·N <m·n (3.1) Hay que mencionar que cuando hay señales dinámicas, el número de caracterı́sticas M puede ser mayor que el número de variables que se usaron en la extracción de caracterı́sticas m. Por lo tanto, a la hora de escoger caracterı́sticas de señales dinámicas, hay que tener siempre presente la maldición de la dimensionalidad para no excederse en el número de éstas. La extracción de caracterı́sticas es un paso común a muchas de las técnicas basadas en datos mencionadas en el capı́tulo anterior, y conviene recalcar la importancia de la extracción de caracterı́sticas en cuanto a la efectividad del uso posterior de los datos, sea mediante una técnica estadı́stica o una red neuronal. En cuanto a la proyección de la trayectoria de estado tratada en esta tesis, un adecuado diseño de esta etapa puede significar la diferencia 3.3. EXTRACCIÓN DE CARACTERÍSTICAS 39 EXTRACCIÓN DE CARACTERÍSTICAS M caracterı́sticas m variables n muestras N muestras Figura 3.1: Estructuras de datos en extracción de caracterı́sticas. entre un comportamiento errático del puntero de estado o una pequeña deriva que apunta a un fallo inminente en el proceso. 3.3.1. Normalización A veces las variables a medir en un sistema o proceso son de magnitudes muy dispares, como por ejemplo temperaturas cercanas a la ambiente en Kelvin (del orden de 102 ) y presiones alrededor de la atmosférica en Pascales (del orden de 105 ). Sin embargo las técnicas que más adelante se aplicarán sobre los datos suelen ser sensibles a diferencias en el valor relativo de las variables sobre las que se aplican2 . Para paliar este problema es aconsejable realizar lo que se denomina normalización de los datos. La forma más sencilla de normalización es realizar una transformación lineal en cada variable de forma que todos los datos disponibles queden contenidos en el intervalo [−1, +1]. Aunque simple, este tipo de normalización a [−1, +1] tiene el inconveniente de que no produce un buen resultado en presencia de outliers (valores atı́picos). Otra forma de hacerlo, sin este inconveniente, es usando para una variable x: N 1 X x̄ = xk N k=1 N σ2 = 1 X (xk − x̄)2 N − 1 k=1 siendo la nueva variable normalizada x̃: x − x̄ x̃ = σ 2 (3.2) (3.3) Este problema suele reflejarse en una mayor influencia de las variables de mayor valor relativo en las funciones de coste, funciones de error o al considerar distancias euclı́deas en el espacio de los datos, lo cual la mayor parte de las veces no es lo que se pretende. 40 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN Este método trata cada variable independientemente. Hay otro método de normalización conocido como whitening que tiene en cuenta las correlaciones entre variables. En este caso se usarán las variables xi agrupadas en un vector x = (x1 , . . . , xd )T , con vector de media y matriz de covarianzas para N puntos: x̄ = N 1 X xk N k=1 (3.4) N 1 X Σ = (xk − x̄)(xk − x̄)T N − 1 k=1 (3.5) y los vectores transformados se obtienen por x̃ = Λ−1/2 UT (x − x̄) (3.6) donde U es la matriz que tiene como columnas los vectores propios de Σ y Λ la matriz diagonal con los valores propios correspondientes. Sin embargo, ninguno de estos tipos de normalización aprovecha conocimiento previo sobre los lı́mites posibles de variación de las variables. Esto puede generar problemas en ciertos casos, cuyo extremo tendrı́a lugar cuando se usan datos en los que algunas de las variables no presentan ninguna variación a lo largo de toda su historia. Si se usasen estos métodos de normalización se estarı́a amplificando el ruido existente en las muestras de estas variables, poniéndolo al mismo orden de magnitud que las otras variables. Por ello, en determinadas circunstancias se sugiere un método de normalización que no se basa sólo en caracterı́sticas estadı́sticas de los datos y que es más acorde con el significado fı́sico de las variables: valores por unidad. x̃ = xp. 3.3.2. u. = x xbase (3.7) Técnicas de análisis espectral Cuando en un proceso hay máquinas rotativas o alternativas, aparecen señales de las que antes se habı́an denominado “dinámicas” y que son más fáciles de tratar —es más fácil conseguir caracterı́sticas invariantes frente a una condición— en el dominio de la frecuencia. Las técnicas que sirven para pasar del dominio temporal al frecuencial son la técnicas de análisis espectral. En los siguientes subapartados se describirán varias técnicas de análisis espectral. Sin embargo hay que resaltar que la FFT, que se incluye dentro del siguiente subapartado, es, con mucho, la más utilizada, debido quizás a caracterı́sticas como rapidez de cálculo, generalidad y facilidad de aplicación. 3.3. EXTRACCIÓN DE CARACTERÍSTICAS 41 La Transformada de Fourier Discreta (DFT) La Transformada de Fourier Discreta (Discrete Fourier Transform, DFT) permite expresar en el dominio de la frecuencia señales que son discretas y periódicas en el dominio del tiempo. Para una secuencia {xk } de N muestras (un periodo de la señal), la DFT se define como: DFT(xk ) = Fn = N −1 X 2π xk e−j N kn , k = 0, 1, . . . , N − 1 (3.8) k=0 La DFT ası́ expresada tiene un coste computacional O(N 2 ), lo que la hace inviable en señales de cierta envergadura. Sin embargo, tiene la ventaja de disponer de una versión del algoritmo muy rápida, con un coste O(N log N ), denominada Transformada Rápida de Fourier (Fast Fourier Transform, FFT), que puede aplicarse cuando el número de muestras N es potencia de dos. Dada una señal con N muestras, la FFT genera otros N valores complejos, Fn , cada uno de los cuales corresponde con el armónico de frecuencia fn , de valor: n · fm fn = n = 0, 1, . . . , N − 1 (3.9) N siendo fm la frecuencia de muestreo. Pese a que la FFT está indicada para señales periódicas, se aplica a señales que no lo son, estrictamente hablando, porque las ventajas que ofrece, sobre todo de rapidez de cálculo, son mayores que sus inconvenientes. Ası́, puede usarse para obtener estimaciones del espectro de frecuencia de señales y después, de éste, extraer caracterı́sticas que sean valores de amplitudes de determinados armónicos, o bien energı́as o valores eficaces en determinadas bandas de frecuencia de las señales del proceso. Una forma de usar la FFT con una secuencia indefinidamente larga, de tal manera que se obtenga su espectro a lo largo del tiempo, es dividir esta secuencia en sucesivos intervalos solapados y aplicar la FFT a cada uno de los intervalos. Hay que tener en cuenta que a más tamaño de los intervalos menos resolución temporal y más frecuencial, y viceversa. Es lo que se denomina Short-Time Fourier Transform o espectrograma (figura 3.2). Como se mencionó, la FFT tiene un inconveniente al aplicarse a señales que no son realmente periódicas (o a porciones con periodos no enteros de señales periódicas) consistente en una deformación —lóbulos, side-lobes— en el espectro. Para disminuir este efecto, que se denomina derrame espectral (spectral leakage), se suele multiplicar cada dato dentro de un intervalo por valores que ponderan más los datos centrales y menos los de los extremos del intervalo. Existen distintos tipos de ponderación, denominadas ventanas, 42 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN 250 Frecuencia (Hz) 200 150 100 50 0 0 0.5 1 Tiempo (s) 1.5 2 Figura 3.2: Detalle a bajas frecuencias de un espectrograma de la vibración de un motor trifásico con un desequilibrio gradual en la alimentación. Se puede apreciar el aumento gradual del armónico de 100 Hz. Datos muestreados a 20 kHz, tamaño de ventana 16384, solapamiento 97,7 %, ventana de Hanning. como “ventana de Hanning”, “ventana de Bartlett”, etc., con propiedades bien conocidas en la literatura de Procesamiento Digital de Señal [78] [75]. El efecto secundario de aplicar una de estas ventanas es una distorsión armónica. Cepstrum El cepstrum es el resultado de aplicar la transformada discreta de Fourier inversa sobre el logaritmo del módulo de la transformada discreta de Fourier de la señal: iDFT(log |DFT(xk )|) (3.10) El cepstrum permite la separación o el desacoplamiento de fenómenos que se presentan asociados de forma no lineal en una señal como resultado de una multiplicación o convolución de otras señales. Ello es posible gracias a que lo que son convoluciones en el dominio del tiempo y multiplicaciones en el de la frecuencia se convierten en sumas en el cepstrum: Y (z) = H(z)U (z) log Y (z) = log H(z) + log Y (z) (3.11) El primer coeficiente del cepstrum es el valor medio del espectro de magnitudes logarı́tmico y por tanto representa la potencia de la señal. Los primeros coeficientes caracterizan la envolvente del espectro de la señal. Ası́ basta un pequeño número de ellos para representar una versión suavizada de éste. 3.3. EXTRACCIÓN DE CARACTERÍSTICAS 43 El cepstrum, por sus propiedades frente a fenómenos convolutivos y multiplicativos, es adecuado, por ejemplo, para el estudio de vibraciones en engranajes [88]. Un campo en el que se aplica muy frecuentemente es el reconocimiento de voz [61]. Predicción lineal (LPC) Otra posibilidad consiste en usar como caracterı́sticas los coeficientes ai de un modelo de predicción lineal o autorregresivo: xk = n X ai xk−i + νk (3.12) i=1 en el que νk representa ruido blanco planteando m ecuaciones: x1 x0 .. .. . = . xm xm−1 aditivo. Los coeficientes ai se obtienen a1 . . . x1−n .. .. .. . . . . . . xm−n an (3.13) De otra forma: X=W·A (3.14) (WT W)A = WT X (3.15) que por mı́nimos cuadrados: donde WT W es la matriz de autocorrelación de xk . Esta ecuación se resuelve eficientemente con el algoritmo de recursión de Levinson-Durbin. La transformada de Fourier discreta de la función de transferencia del modelo autorregresivo: G(θ) = 1 n X 1− ak e−jkθ (3.16) k=1 constituye una estimación del espectro de potencias que tiende al obtenido con la FFT al ir aumentando el número de coeficientes ak . Es, por tanto, una envolvente o un promedio del espectro que se obtiene con la DFT, salvo por la escala de amplitudes. También es posible recurrir a una combinación de cepstrum y predicción lineal hallando el primero a partir del espectro autorregresivo. Si los polos 44 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN del modelo autorregresivo z = zi están dentro de la circunferencia unidad y la ganancia es unidad, el cepstrum clp (n) está dado por: p 1X n z n>0 clp (n) = (3.17) n i=1 i 0 n≤0 Wavelets Uno de los inconvenientes que suele suponer el uso del espectrograma es la solución de compromiso que hay que tomar en cuanto a la resolución temporal y frecuencial, que están determinadas de forma inversa por el tamaño de ventana escogido. Cuando este detalle es importante en determinado análisis, una opción a la que se puede recurrir es wavelets [18]. El análisis con wavelets es semejante al espectrograma con dos diferencias importantes: Ventanas de tamaño variable: más espacio de tiempo donde se quiere información de bajas frecuencias más precisa, y ventanas temporales más cortas donde se precisa más información de altas frecuencias. Funciones base distintas de las senoidales llamadas wavelets: formas de onda de duración limitada que cumplen una serie de propiedades como media nula y cuya forma es más bien irregular. Esta forma permite que las caracterı́sticas locales de la señal analizada sean mejor descritas. Consiste por tanto en descomponer la señal original en versiones desplazadas y cambiadas de escala temporal de una wavelet original en lugar de hacerlo en senos y cosenos (o exponenciales complejas) como en el caso del espectrograma. En este caso ya no se representa la amplitud de armónicos frente a frecuencia y tiempo ya que, al no ser las wavelets periódicas, no se habla de frecuencia sino de escala (respecto a una wavelet original). Tampoco se habla de amplitud de armónicos sino de coeficientes de wavelet. La transformada wavelet continua. La transformada wavelet continua de la función f (t) se define de forma muy parecida a la transformada de Fourier: Z ∞ C(escala, posicion) = f (t)Ψ(escala, posicion, t) dt (3.18) −∞ donde Ψ es la función wavelet. Existen muchas posibilidades para esta función como son la de Haar, las de Daubechies, Biorthogonal, Coiflets, Symlets, etc. cada una de las cuales tiene diferentes propiedades. 3.3. EXTRACCIÓN DE CARACTERÍSTICAS 45 Filtro paso-alto “detalles” H0 ↓2 H1 ↓2 Filtro paso-bajo “aproximaciones” Figura 3.3: Bloque de filtrado para transformada wavelet discreta. La transformada wavelet discreta. La transformada wavelet continua no es adecuada para la extracción de caracterı́sticas por la carga de cálculo que implica. Es necesaria una versión discreta para su cálculo eficiente en un computador. Esta es la transformada wavelet discreta, que se calcula en escalas y tiempos potencias de dos en vez de en todos los posibles como ocurre en la continua. La transformación base consiste en tomar una señal y obtener de ella otras dos, resultado de pasarla por dos filtro, uno paso-alto y otro paso-bajo. Como queremos obtener tantos datos como se tenı́an inicialmente y sin embargo se tiene el doble, se toma sólo una de cada dos muestras en las dos señales filtradas (submuestreo o downsampling). El esquema del proceso se muestra en la figura 3.3. La señal que contiene las bajas frecuencias es la que más caracteriza la señal original y por eso se denomina de aproximación, mientras que la de altas frecuencias es la de detalle. Si sucesivamente se repite la misma operación sobre la señal de aproximación, como se muestra en la figura 3.4, los datos que se obtienen corresponden a las regiones de frecuencias y tiempos que se representan en la figura 3.5. En algún caso la región de frecuencias de interés podrı́a no estar en la zona de bajas frecuencias sino en otra zona de frecuencias medias, por ejemplo. El proceso anterior se podrı́a realizar eligiendo según convenga la señal de detalle o de aproximación para obtener la zona con mayor resolución frecuencial 46 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN H0 1 ↓2 H1 2 ↓2 H0 ↓2 H0 ↓2 3 H1 ↓2 4 ↓2 H1 Figura 3.4: Filtrado para transformada wavelet discreta. 1 1 1 1 Frecuencia 2 2 3 4 Tiempo (muestras) Figura 3.5: Frecuencias en el filtrado para transformada wavelet discreta. 3.3. EXTRACCIÓN DE CARACTERÍSTICAS 47 donde interese. Se entra ya en lo que se denomina wavelet packets. Espectros de orden superior El espectro de potencia de una señal de un proceso estacionario {xk } se puede definir según el teorema de Wiener-Khintchine como la transformada de Fourier de la secuencia de autocorrelación: Sxx (θ) = ∞ X rxx (k)e−jkθ (3.19) k=−∞ siendo θ la frecuencia normalizada y definiéndose la secuencia de autocorrelación de {xk } como la esperanza: rxx (n) = E(x∗k xk+n ) (3.20) Otra definición equivalente es: Sxx = E{X(θ)X ∗ (θ)} (3.21) Los momentos de orden superior son una generalización de la autocorrelación, y como combinaciones no lineales de éstos especialmente útiles se encuentran los cumulantes. En concreto el cumulante de primer orden coincide con la media y el de segundo orden con la autocorrelación: C1x = E(xk ) C2x (n) = E(x∗k xk+n ) (3.22) (3.23) Los cumulantes de orden superior son sensibles a un desplazamiento de media y es, por tanto, conveniente definirlos bajo la suposición de media nula. Si el proceso tiene media no nula se restará la media y se aplicarán las definiciones de los cumulantes al proceso resultante. Los espectros de orden superior o poliespectros se obtienen como generalización de la ecuación (3.19) a los cumulantes de orden superior. Por ejemplo, del cumulante de orden tres: C3x (m, n) = E(x∗k xk+m xk+n ) (3.24) se obtiene el biespectro (figura 3.6): S3x (θ, φ) = ∞ X ∞ X C3x (m, n)e−jnθ e−jmφ (3.25) m=−∞ n=−∞ Los cumulantes y poliespectros de orden mayor de dos tienen utilidad debido a las siguientes caracterı́sticas que poseen [65]: 48 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN Figura 3.6: Biespectro de la vibración de un motor de inducción en sus cojinetes. Si yk y xk son procesos independientes entonces los cumulantes de la suma zk = xk +yk son iguales a la suma de cumulantes Cnz = Cnx +Cny . Si wk es gaussiana entonces sus cumulantes de orden mayor que dos son nulos. De las dos anteriores propiedades se deduce que si wk es gaussiana e independiente de xk y zk = xk + wk , entonces para cumulantes n > 2 (de orden superior a dos) Cnz = Cnx . Es decir, que estos cumulantes de una señal no gaussiana no se ven afectados por la presencia de ruido gaussiano coloreado. Los cumulantes de orden superior a dos pueden servir para analizar no linealidades en procesos, mientras que la secuencia de autocorrelación no. Los poliespectros, al contrario que el espectro de potencia, son complejos. Es decir, que preservan información de fase. Existen otras herramientas de análisis como son la bicoherencia, que es una versión normalizada del biespectro, y todas las que se derivan para analizar relaciones entre distintas señales, es decir, los cumulantes y poliespectros cruzados. Los cumulantes y poliespectros son útiles en el análisis de vibraciones de motores eléctricos [67] [2] [17] y en mantenimiento predictivo de máquinas eléctricas en general [64]. 3.4. TÉCNICAS DE PROYECCIÓN 3.3.3. 49 Otras técnicas de extracción de caracterı́sticas Existen multitud de técnicas aplicables a extracción de caracterı́sticas y cada campo tiene distintos subconjuntos de éstas como más usuales. En Reconocimiento del Habla son muy tı́picas las de análisis espectral, al igual que en Visión Artificial (en la versión bidimensional del análisis espectral). La estadı́stica proporciona muchas posibilidades de generación de caracterı́sticas: estadı́sticos de primer orden (media), de segundo orden (varianza) y de órdenes superiores. Ası́, por ejemplo, para las señales que denominamos dinámicas es tı́pico usar el valor eficaz, que es equivalente a la desviación tı́pica cuando son señales de media nula, como es el caso de las vibraciones. Algunas de las técnicas que se comentan en el siguiente apartado (como PCA) suelen considerarse dentro de las de extracción de caracterı́sticas. En esta tesis no se hace ası́ por el especial uso que se hace de ellas, aplicadas sobre todo a visualización. Nada impedirı́a usarlas para extracción de caracterı́sticas, salvo quizás el hecho de que se puede perder el significado fı́sico en las caracterı́sticas resultantes. 3.4. Técnicas de proyección Las técnicas de proyección también persiguen el objetivo de reducción de la dimensionalidad de los datos, sólo que en este caso dicha reducción se lleva a cabo sin aplicar conocimiento previo, simplemente por consideraciones de geometrı́a de los datos, de correlaciones entre ellos. Una proyección implica crear una correspondencia de cada punto del espacio de los datos (espacio de entrada o espacio de caracterı́sticas) con un punto de un subespacio topológico 3 de menor dimensión intrı́nseca definido en dicho espacio de entrada (figura 3.7). Cuando el objetivo final es la visualización, este subespacio topológico será bidimensional o tridimensional (considérese 2D por simplicidad), y a su vez se establecerá otra correspondencia (esta vez biyectiva) con otro espacio de igual dimensión (un plano, por simplicidad) fácilmente representable de forma gráfica y llamado espacio de visualización. El requisito fundamental para la técnica de proyección en cuanto a supervisión de procesos es que no se pierda información relevante en la proyección. Siempre se pierde información debido a que la correspondencia entre el espacio de entrada y el subespacio topológico no es biyectiva (es una correspondencia “muchos a uno”), pero debe tratarse de que lo que se pierda no sirva 3 O también variedad n-dimensional, como traducción del término inglés manifold. 50 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN 15 10 5 0 −5 −10 −15 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 Figura 3.7: Subespacio topológico de dimensión intrı́nseca 1 dentro de un espacio bidimensional. para discriminar condiciones en el proceso. Este requisito está relacionado con el de conservación de la topologı́a, que se comentará en el apartado 4.3. 3.4.1. Técnicas de Proyección Lineal Análisis de Componentes Principales El Análisis de Componentes Principales (Principal Component Analysis, PCA) consiste en la proyección lineal de los vectores xk del espacio de entrada en un espacio de menos dimensiones tal que tiene como base los vectores propios correspondientes a los valores propios mayores de la matriz de covarianzas Σ y que se llaman componentes principales: N Σ= 1 X (xk − x̄)(xk − x̄)T N − 1 k=1 (3.26) donde x̄ es la media de los vectores: N 1 X x̄ = xk N k=1 (3.27) Puesto que la matriz de covarianzas es real y simétrica sus vectores propios son ortogonales. Cuanto más se reduzca la dimensionalidad (menos vectores 3.4. TÉCNICAS DE PROYECCIÓN x2 u2 C1 51 u1 C2 x1 Figura 3.8: Pérdida de discriminación entre clases en PCA. propios se tomen como base para el espacio final) mayor es el error cometido. Normalmente lo que se pretende es reducir la dimensionalidad lo más posible sin que se pierda la información que discrimina entre las diferentes clases contenidas en los datos. Este problema se puede ilustrar con el sencillo ejemplo de la figura 3.8. Tomando un espacio final unidimensional, la proyección de las clases C1 y C2 serı́a sobre el vector u1 4 . Este procedimiento de reducción de dimensionalidad descrito también recibe el nombre de transformación de Karhunen-Loéve. El PCA tiene como inconveniente, igual que todas las técnicas de proyección lineales, que no da buenos resultados cuando en los datos hay presentes no linealidades. Sin embargo, existen varios intentos de aplicarlos con éxito a casos no lineales por medio de PCA locales [91]. Projection Pursuit Projection Pursuit es un conjunto de técnicas no supervisadas que realizan una proyección lineal que es de algún modo “interesante”, por medio de la optimización de una cierta función objetivo —función de “interés”— llamada ı́ndice de proyección (projection index ). Una proyección se considera “interesante” cuando los datos proyectados tienen alguna estructura: correlaciones entre variables, agrupamientos (función de densidad multimodal), etc. La distribución normal es la menos estructurada de todas las posibles. 4 En cambio, si se usase un método supervisado (teniendo en cuenta la información sobre las clases existentes) como el discriminante lineal de Fisher, que se mencionará más adelante, la proyección serı́a sobre u2 y no habrı́a pérdida de la información discriminante. 52 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN Cuando se aplica a estimación de densidad o regresión, projection pursuit sufre menos la maldición de la dimensionalidad que otras técnicas. Por otra parte tiene las desventajas de una técnica lineal y la de requerir una gran carga computacional. PCA es un caso particular de projection pursuit cuando el ı́ndice de proyección es la varianza de los datos proyectados. Otros casos particulares especialmente importantes son la técnica de Independent Component Analysis (ICA) [19][43] y el discriminante de Fisher [12][90] [32] Random Projections Esta técnica, de desarrollo muy reciente, consiste en proyectar de un espacio de dimensión d en un espacio de dimensión k, por medio de una matriz k ×d aleatoria, R, en la que cada vector columna se ha normalizado a módulo unidad. Se aprovecha el hecho de que vectores aleatoriamente escogidos en un espacio de altı́sima dimensionalidad son casi ortogonales, y por tanto, para d tendiendo a infinito, R tiende a ser ortogonal: RT R ' I. Se suele usar para reducciones de dimensión d desde ordenes superiores a decenas o centenas de miles hasta una dimensión k de un orden de cientos5 . Random Projections se aplica, tı́picamente, en Data Mining e indexado en grandes bases de datos de documentos de texto, de audio o de imágenes [49] [10]. 3.4.2. Escalado Multidimensional Los métodos de escalado multidimensional (Multidimensional Scaling, MDS) son un conjunto de métodos de proyección cuyo objetivo es conseguir en el espacio de salida unas distancias mutuas entre los puntos semejantes a las que éstos tienen en el espacio de entrada. Ello se realiza por minimización de una función de coste. El caso más simple es el de MDS métrico, que tiene como función de coste: XX E= (Xij − Yij )2 (3.28) i j6=i siendo X = (Xij ) e Y = (Yij ) las matrices de distancias mutuas de los puntos de entrada xk ∈ Rn y los de salida yk ∈ Rp respectivamente. Las distancias no tienen por qué ser euclı́deas. Conservar todas las distancias mutuas en los dos espacios sin más es imposible, en general, cuando la dimensión del espacio de salida es menor que la del espacio de entrada. Sin embargo suele interesar conservar más las 5 Por debajo de esos valores esta técnica deja de ser válida. 3.4. TÉCNICAS DE PROYECCIÓN 53 distancias más cortas, o lo que es lo mismo, suele interesar una conservación de la topologı́a local. Ası́ surge la Proyección de Sammon, que tiene como función de coste: 1 1 XX (Xij − Yij )2 (3.29) E= c i j<i Xij P P donde c = i j<i Xij es una constante de normalización. Una evolución de la proyección de Sammon es el método denominado Análisis de Componentes Curvilı́neas (Curvilinear Component Analysis, CCA) [23], que tiene como función de coste: 1 XX E= (Xij − Yij )2 F (Yij , λy ) (3.30) 2 i j6=i Como función F generalmente se escoge una función acotada y monótona decreciente para favorecer la preservación de la topologı́a local. Una forma simple podrı́a ser la función escalón: 1 si Yij ≤ λy F (Yij , λy ) = (3.31) 0 si Yij > λy donde λy se hace decrecer a lo largo del entrenamiento. Una ventaja importante de este método es que tiene menos carga computacional que la proyección de Sammon, además de ser capaz de “desdoblar datos fuertemente curvados” y de permitir escoger la escala a la que las distancias del espacio de entrada se respetan en el espacio de salida. Para las funciones F que cumplan ∂F/∂Yij = 0, tenemos la siguiente expresión para actualizar los yj : ∆yj = α(t)F (Yij , λy )(Xij − Yij ) yj − yi Yij ∀j 6= i (3.32) donde α(t) es un valor que decrece a lo largo del entrenamiento. Para comprobar la conservación de la topologı́a en CCA se usan representaciones dx—dy, que no están limitadas a ser usadas sólo con CCA. Un enfoque similar, que puede considerarse también encuadrado dentro de los métodos MDS, denominado Isomap [89], usa distancias geodésicas (camino más corto contenido dentro del subespacio topológico de los datos), caracterı́stica con la cual se afirma que es capaz de detectar mejor que otras técnicas MDS la geometrı́a de dicho subespacio topológico y su dimensionalidad intrı́nseca, incluso para casos fuertemente no lineales. También puede considerarse dentro del grupo de MDS la técnica llamada locally linear embedding (LLE) propuesta por Roweis et al. en [79], en la que la función de coste es el error de reconstrucción de cada dato como suma ponderada de sus k vecinos más próximos. 54 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN En general, este grupo de técnicas funcionan bien cuando se tienen comportamientos no lineales, pero: tienen una carga computacional relativamente elevada, es necesario iterar para proyectar nuevos puntos, y el espacio de visualización tiene una distribución irregular (aunque esto no es un inconveniente importante). 3.4.3. Modelos Autoasociativos Redes Neuronales Autoasociativas Por la capacidad que tienen las redes neuronales feedforward para llevar a cabo mapeos no lineales de un espacio vectorial a otro, sus aplicaciones son innumerables. Una de las más interesantes es la de reducción de la dimensionalidad por proyección no lineal. Se considera un perceptrón multicapa con dos capas de pesos, teniendo d entradas y d salidas y con M neuronas en la capa oculta tal que M < d. Si como objetivo en el entrenamiento se usan los propios vectores de entrada, la red intenta mapear cada vector sobre sı́ mismo y debido al reducido número de neuronas en la capa oculta la perfecta reconstrucción de todos los vectores de entrada no es, en general, posible. Esta red neuronal realiza un mapeo autoasociativo. Si las neuronas en la capa oculta tienen funciones de activación lineales se puede demostrar que la red realiza una proyección lineal sobre el espacio definido por las M componentes principales de los datos, es decir, que es equivalente al Análisis de Componentes Principales. Es posible conseguir una versión no lineal del Análisis de Componentes Principales añadiendo más capas ocultas con funciones de activación no lineal. Un esquema que se puede proponer es el mostrado en la figura 3.9 donde se presenta un perceptrón multicapa de cuatro capas donde las neuronas de la primera y tercera capas tienen función de activación no lineal, mientras que las de la segunda y cuarta pueden ser lineales. En la salida de las neuronas de la capa oculta aparecerá la proyección no lineal del vector de entrada sobre un espacio de M dimensiones [12]. El único inconveniente que se le puede achacar es la extrapolación que realiza la red cuando se le presenta a la entrada un vector fuera del dominio de los datos de entrenamiento, lo cual puede hacer que no sean muy adecuadas para la generación de residuos [30]. 3.4. TÉCNICAS DE PROYECCIÓN 55 SALIDAS xd x1 no lineal → z1 zM no lineal → x1 ENTRADAS xd Figura 3.9: Perceptrón multicapa en configuración autoasociativa. Radial Basis Functions Las redes de funciones base radiales (Radial Basis Functions, RBF) constituyen otro de los modelos de redes neuronales. La principal ventaja que poseen es la relativa rapidez y facilidad de entrenamiento. Este entrenamiento se realiza en dos fases. En la primera se determinan los parámetros de las funciones base por medio de, generalmente, métodos no supervisados. En una segunda fase se determinan los pesos que conforman la capa de salida de la red RBF. Las funciones base radiales tienen su origen en técnicas de interpolación exacta para aproximación de funciones multidimensionales. Se parte de unos datos de salida yj y otros de entrada xj correspondientes, y el objetivo es encontrar la función f tal que: yj = f (xj ) j = 1, . . . , N (3.33) La función f se escoge como suma ponderada con un conjunto de N funciones base φi (x) = φ(kx − xi k), una por cada punto: f (x) = N X φi (x)wi (3.34) i=1 Cuando el número de puntos es muy grande, la carga de cálculos puede ser excesiva si se utiliza una función base centrada en cada punto. En ese caso se suele recurrir a usar un número menor de centros calculados a partir de los puntos de entrada por métodos no supervisados [92]. 56 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN Evaluando la ecuación (3.34) para cada punto, se obtiene el conjunto de ecuaciones siguiente: ykj = M X φi (xj )wki j = 1, . . . , N k = 1, . . . , D (3.35) i=1 donde D es el número de dimensiones del espacio de salida y M el número de centros de las funciones base. El conjunto de ecuaciones se puede poner en forma matricial: Y = WΦ (3.36) siendo Y = (ykj ), W = (wki ), y Φ = (φij ) con φij = φi (xj ). Resolviendo por mı́nimos cuadrados se obtiene: WT = (ΦΦT )−1 ΦYT (3.37) Las funciones base φi (x) suelen ser gaussianas: φi (x) = e−kx−µi k 2 /2σ 2 (3.38) donde los µi son los centros de las funciones base y σ su ancho. Ese ancho σ de las funciones base puede ser igual para todas, distinto para cada una, e incluso matrices, de tal forma que las funciones base dejan de ser esféricas. Existen multitud de métodos para la elección de esas σ, como métodos heurı́sticos, en los que muchas veces se da su valor en función de las distancias entre centros, métodos de optimización a través de una función de coste, muchas veces calculando las σ de forma simultánea a los centros, etc. [41] [60]. En la ecuación (3.34) se suele añadir un término independiente w0 que compensa la diferencia de media entre las activaciones de las funciones base y las salidas yj . Este término independiente se puede incorporar al sumatorio con una nueva función base φ0 (x) = 1. A veces se introduce un término en la ecuación 3.37 para conseguir una solución más “suave”, refiriéndose éste adjetivo a la (hiper)superficie o mapeo entrada–salida y en el sentido de que entradas parecidas correspondan con salidas parecidas. Resulta entonces la ecuación: WT = (ΦΦT + λI)−1 ΦYT (3.39) donde λ es el coeficiente de regularización. Este resultado deriva de la teorı́a de regularización que surgió con la idea de estabilizar la solución en problemas mal condicionados por medio de una función auxiliar que integra información a priori acerca de la solución [74] [41]. 3.4. TÉCNICAS DE PROYECCIÓN 3.4.4. 57 Mapas Topológicos Self-Organizing Map Self-Organizing Map (SOM) es una arquitectura de red neuronal de aprendizaje competitivo, no supervisado o auto-organizado que fue propuesta por Kohonen [53] [56] [54] [55]. Está basado en otros métodos de aprendizaje competitivo como Vector Quantization (VQ). El método VQ trata de conseguir un conjunto finito de vectores mi ∈ Rn llamados vectores de codificación (codebook vectors) con una distribución que aproxime la función de densidad de probabilidad continua de una variable aleatoria vectorial representada por un conjunto de muestras x ∈ Rn . Ello se consigue con un proceso iterativo que consta de dos partes. Primero, para una muestra xj se busca el vector de codificación más “parecido” mc (neurona o unidad “ganadora”). Segundo, ese vector de codificación se actualiza de forma que sea aún más “parecido” al xj . Generalmente se usa como criterio de semejanza entre los xj y los mi la distancia euclı́dea, y entonces el mi más parecido a xj será aquél tal que kxj − mi k sea mı́nimo. La actualización del vector de codificación será de la forma: mnuevo = mc + α(k)[xj − mc ] c (3.40) El proceso se repite para todas las muestras xj , con j = 1, . . . , N , y todo ello a su vez se repite un cierto número de veces e (número de épocas). Además 0 < α(k) < 1 es un parámetro monótonamente decreciente con el paso o época6 k (cada vez que se recorren todos los xj ) con k = 1, . . . , e. Al cabo de cierto número de épocas, el algoritmo converge. Un proceso semejante es el que se lleva a cabo en el algoritmo k-means, pero buscando los mc para todos los xj antes de actualizar ninguno, y luego realizando la actualización de mi haciendo que cada uno de ellos se convierta en la media de los xj que le tienen como vector de codificación más cercano. El aprendizaje para el caso del SOM es igual al del VQ salvo por el hecho de que se fuerza una ordenación en sus unidades mi . Para ello se define previamente dicha ordenación sobre unas unidades gi en un espacio de generalmente dimensión 1 ó 2, denominado espacio de salida o espacio de visualización; esas unidades gi se corresponden una a una con las unidades mi . Esta ordenación suele consistir en un alineamiento de las unidades (en el caso 1D) o de la formación de una rejilla regular (en el caso 2D). También se define en este espacio de visualización una medida de distancia entre las unidades. La ordenación en el espacio de entrada de los mi se consigue, en 6 Se puede comenzar con un valor cercano a 1 y terminar con uno muy cercano a 0, por ejemplo 0,01. 58 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN el algoritmo de aprendizaje, actualizando no sólo la ganadora mc , sino sino todos los mi tales que sus gi correspondientes son vecinas de la gc : mnuevo = mv + α(k)[xj − mv ] v con v = {i | dv (gi , gc ) ≤ nc (k)} (3.41) donde dv () es la distancia definida en el espacio de visualización y nc (k) es una distancia decreciente7 con la época k. La vecindad es por tanto decreciente con el número de época, consiguiendo ası́ una rápida ordenación global inicial para, posteriormente, ir afinando de forma local. Otra posibilidad es actualizar en mayor proporción las unidades más cercanas a la ganadora: mnuevo = mv + hci (k)[xj − mv ] v (3.42) donde hci es una función escalar de núcleo: 2 hci (k) = h(k) e−dv (gi ,gc )/σ 2 (k) (3.43) En esta ecuación h(k) es equivalente al α(k) de la ecuación (3.41) y σ(k) tiene interpretación semejante al nc (k), indicando la amplitud del campo receptivo, esto es, las neuronas del entorno de la ganadora que se ven afectadas. Ambos se suelen hacer decrecer con la época k. El SOM, una vez entrenado, define una proyección no lineal del espacio de entrada sobre el espacio de visualización, en el que un punto x del primer espacio se proyecta en el segundo como y = gc , siendo gc el nodo de la rejilla correspondiente a la unidad ganadora para el dato x, es decir, el gi correspondiente al vector de codificación mi más cercano a x en el espacio de entrada. Una caracterı́stica muy importante, puesto que permite la visualización de la proyección por SOM, es la preservación de la topologı́a del espacio de entrada en el espacio de visualización. De acuerdo con esta propiedad, unidades vecinas en el espacio de visualización lo son también en el espacio de entrada. Aunque la preservación de la topologı́a no está totalmente garantizada en el SOM en todas las condiciones, existen medidas que indican en qué grado se cumple [96] [5]. Otra caracterı́stica del SOM es que sus vectores de codificación se distribuyen para aproximar la función de densidad de probabilidad de los datos de entrenamiento en el espacio de entrada8 , tendiendo a conseguir una distribución uniforme de estos datos proyectados en el espacio de visualización. Esto 7 Tı́picamente, se puede comenzar con un valor mitad del tamaño de la rejilla. La relación entre densidad de neuronas m(x), valor denominado factor de magnificación, y la densidad de datos de entrenamiento f (x) no es lineal para el algoritmo original de entrenamiento del SOM [54] [41], sino que se tiene aproximadamente: m(x) ∝ f 2/3 (x). Sin embargo existen versiones del entrenamiento del SOM que sı́ consiguen una relación lineal [24]. 8 3.4. TÉCNICAS DE PROYECCIÓN 59 hace que el SOM dedique regiones más grandes en el espacio de visualización a las agrupaciones de datos más densas. Debido a su mayor densidad, dichos datos pueden conformar estructuras más complejas, que quedarán mejor descritas en su proyección gracias a esta caracterı́stica del SOM. Una caracterı́stica del SOM interesante para métodos de visualización y redundancia analı́tica basada en datos es que la proyección se realiza en una zona delimitada; nada se proyecta fuera de la rejilla del espacio de visualización. Kernel Regression Self-Organizing Maps El SOM de regresión de núcleo (KR-SOM) es una ampliación del SOM [31] [29] [26] que intenta paliar las desventajas que genera el carácter discreto de éste. Esto incluye la dificultad de detectar ligeras tendencias o derivas que pueda experimentar un proceso, cuando se usa el SOM para proyectar su trayectoria de estado. El KR-SOM constituye una versión continua o interpolada del SOM. Existen dos posibilidades para realizar la interpolación: Interpolación exacta: RBF. Interpolación no exacta: GRNN. Las RBF, que se explicaron en apartados anteriores, son menos interesantes para KR-SOM de cara a la generación de residuos [30]. La definición de KR-SOM se hará con GRNN, que se definirá a continuación. General Regression Neural Network. La regresión de una variable dependiente y sobre una variable independiente (vectorial) x consiste en el cálculo del valor esperado de y para cada valor de x. Cuando disponemos de la función de densidad de probabilidad conjunta f (x, y) el cálculo puede realizarse de la siguiente forma: Z +∞ y f (x, y) dy E[y|x] = Z−∞+∞ (3.44) f (x, y) dy −∞ Si función de densidad de probabilidad conjunta no es conocida, se puede estimar a partir de datos, como media de gaussianas de varianza σ 2 centradas en cada dato del espacio conjunto (xi , yi ); este método se denomina estimador de Parzen. Bajo esas condiciones, se puede demostrar [85] que la siguiente 60 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN expresión produce una estimación de E[y|x]: kx−xi k2 e− 2σ2 yi ŷ(x) = Pi kx−xi k2 − 2σ 2 e i P (3.45) refiriéndose el ı́ndice i a todos los datos de que se dispone. La ecuación (3.45) recibe el nombre de General Regression Neural Network (GRNN). Definición de KR-SOM. En el KR-SOM la proyección del espacio de entrada sobre el espacio de visualización se realiza usando una GRNN (Generalized Regression Neural Network ) que realiza una aproximación de función continua Q : Rn −→ R2 por interpolación a partir de un conjunto de puntos mi de Rn y sus correspondientes gi de R2 : P φ(kx − mi k)gi y = Q(x) = Pi (3.46) j φ(kx − mj k) De manera análoga, también existe la posibilidad de realizar la proyección del espacio de visualización al espacio de entrada: P i φ(ky − gi k)mi x = R(y) = P (3.47) j φ(ky − gj k) La función de núcleo φ suele tomarse de la forma: kzk2 φ(kzk) = e− 2σ2 (3.48) El KR-SOM presenta el problema de la no exacta equivalencia inversa entre la proyección del espacio de entrada al espacio de visualización (proyección directa) y la del espacio de visualización al de entrada (proyección inversa). Esto quiere decir que si se proyecta un punto x del espacio de entrada al espacio de visualización, resultando un punto y, y este punto y a su vez se proyecta de vuelta al espacio de entrada, resulta un punto x0 que en general x0 6= x. De este problema tampoco están exentos otros tipos de mapas topológicos (se verá en GTM), y algunos, como el PSOM de Ritter [77] [98] [97], lo resuelven por iteración. Esto no suele ser un problema grave puesto que el análisis visual cualitativo que se tiene como objetivo en esta tesis no se ve afectado en gran medida por ello. Sin embargo, se puede proponer una solución sencilla y práctica al problema de la no igualdad de la proyección directa-inversa. Esta solución consiste en realizar un SOM interpolado por proyección hacia el espacio de entrada, a 3.4. TÉCNICAS DE PROYECCIÓN Espacio de entrada 61 Espacio de visualización 9 8 7 1 6 retroproyección 5 0 4 3 −1 2 2 2 0 0 −2 −2 1 0 0 2 4 6 8 Figura 3.10: KR-SOM de retroproyección. Las neuronas del SOM interpolado de 30 × 30 aparecen en negro y las neuronas del SOM original de 10 × 10 aparecen en rojo unidas por la malla azul. través de la ecuación (3.47), de una rejilla fina en el espacio de visualización, o lo que es lo mismo, una rejilla con más neuronas que ocupe el mismo espacio que la rejilla original. Posteriormente este SOM interpolado se usarı́a como un SOM normal (KR-SOM de retroproyección). También es una solución al problema de elección de parámetros de las RBF porque, al formar los centros de origen una rejilla regular, se pueden fijar las σ 2 todas iguales9 . El esquema de esta idea se muestra en la figura 3.10. Este KR-SOM de retroproyección introduce a su vez un inconveniente respecto a un SOM original del mismo número de neuronas y es que aumenta el número de neuronas interpolantes. Sin embargo, con el progresivo aumento de la capacidad de cálculo del hardware para el mismo coste, es posible cada vez entrenar SOMs más grandes en un tiempo aceptable, con lo que los inconvenientes derivados de su carácter discreto se disipan. Existen alternativas al KR-SOM como PSOM (Parameterized SOM ) [77] [98] [97], que tiene algunos inconvenientes para su aplicación a la metodologı́a usada en esta tesis puesto que la proyección del espacio de entrada al de visualización requiere iteración con un coste computacional relativamente elevado. 9 Cuando los centros origen de la interpolación están regularmente distribuidos, la interpolación es de mayor calidad, y la σ puede ser la mitad de la distancia entre centros, por ejemplo. 62 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN Generative Topographic Mapping El Generative Topographic Mapping (GTM) es semejante al SOM, pero con base estadı́stica [87] [13]. El GTM es un modelo no lineal de variables latentes en el que se trata de encontrar una representación para una distribución p(t) de datos en un espacio con D dimensiones t = (t1 , . . . , tD ) en términos de L variables latentes x = (x1 , . . . , xL ). Para el caso que nos ocupa, la visualización de espacios de alta dimensionalidad, D será alto y L = 2. En GTM en principio se define la proyección del espacio latente sobre el espacio de entrada como una función continua y(x; W). Esta función generalmente tiene la forma: y(x; W) = Wφ(x) (3.49) donde W es una matriz D × M de parámetros y φ(x) es un vector de M funciones base, que se suelen tomar de la forma: − φ(x) = e kx−µj k2 2σ 2 j j = 1, . . . , M (3.50) Los parámetros µj y σj se escogen para que las funciones base se repartan adecuadamente por el espacio latente (espacio de visualización). Los parámetros de la matriz W se hallan con un algoritmo de maximización de la esperanza (EM, Expectation Maximization), teniendo en cuenta que en el espacio de entrada se supone una función de densidad de probabilidad: D/2 β β 2 exp − ky(x; W) − tk (3.51) p(t|x, W, β) = 2π 2 y en el espacio latente, en semejanza al SOM, se supone una distribución de probabilidad “uniforme” en una rejilla regular discreta: K 1 X p(x) = δ(x − xi ) K i=1 (3.52) donde xi son los K nodos de la rejilla regular discreta en el espacio latente. En la ecuación 3.51 se observa que se ha escogido, para la distribución de t dado x, una gaussiana radialmente simétrica de varianza β −1 . Luego, para obtener una proyección del espacio de entrada al de visualización, aplicando el teorema de Bayes se puede calcular la distribución de probabilidad en el espacio de visualización: p(t|xi , W, β) p(xi |t) = PK j=1 p(t|xj , W, β) (3.53) 3.4. TÉCNICAS DE PROYECCIÓN 63 y usar un valor representativo de dicha distribución p(xi |t) (media, mediana,. . . ) como proyección de un punto t. La proyección por GTM hace que una región del espacio latente pueda estar estirada o comprimida en el espacio de entrada, dependiendo de la distribución de datos en éste [11]. Debido a ello, las agrupaciones de datos del espacio de entrada proyectados en el espacio latente pueden aparecer con una separación relativa mayor o menor de la real. Para cuantificar este estiramiento o compresión se dispone de los factores de magnificación (magnification factors). Se define el factor de magnificación de un punto del espacio latente x como: dA0 = det1/2 (ψ T WT Wψ) (3.54) dA siendo dA0 un elemento diferencial de área en el espacio de entrada que es correspondiente al elemento diferencial de área dA del espacio latente en torno a x, y siendo ψ(x) una matriz con elementos: ψij = ∂φi ∂xj (3.55) siendo las xj las componentes de x. 3.4.5. Otras técnicas de proyección Existen muchas otras técnicas de proyección. Por mencionar algunas más, el análisis de componentes principales de núcleo (Kernel PCA) consiste en aplicar PCA lineal a los datos después de haber sido llevados por medio de una transformación no lineal a un espacio de dimensión superior a la del espacio de entrada [80] [82]. Las curvas y superficies principales, propuestas por Hastie y Stuetzle [40], pueden considerarse otra generalización no lineal de PCA. Una curva principal es una curva tal que cada uno de sus puntos es el promedio de todos los datos que se proyectan sobre él. 64 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN Capı́tulo 4 Data Mining Visual 4.1. Introducción El término Data Mining se refiere a la aplicación de un amplio número de métodos para procesar y analizar datos. El objetivo principal del Data Mining es la extracción de conocimiento de grandes bases de datos donde la dimensionalidad (número de variables), complejidad, o número de muestras es demasiado grande para un análisis manual. Está relacionado con campos como el análisis exploratorio de datos (exploratory data analysis) y el descubrimiento de conocimiento en bases de datos (knowledge discovery in databases). El objetivo de la exploración de datos es descubrir propiedades en los datos por medio de medidas descriptivas (estadı́sticas de cada variable, entre ellas, . . . ) o visualización. Se trata básicamente de llegar a una cierta “comprensión de los datos” y, de ahı́, a comprender el proceso subyacente [94]. La idea principal del Data Mining es combinar la flexibilidad, creatividad y conocimiento general de una persona con la potencia de cálculo y la capacidad de almacenamiento de un computador para una exploración de datos efectiva. El Data Mining Visual da un paso más, empleando la capacidad de representación gráfica para integrar a la persona en el proceso de exploración de datos, explotando sus capacidades de percepción visual y aprovechando el poco esfuerzo que requiere razonar con objetos visibles. El Data Mining Visual es muy útil cuando se tiene poco conocimiento a priori sobre los datos y puede ser usado para formular hipótesis sobre los mismos, que posteriormente podrán ser verificados en la aplicación de otras técnicas estadı́sticas y de aprendizaje automático (machine learning). Las técnicas de Data Mining Visual tienen ciertas ventajas frente a éstas técnicas automáticas de estadı́stica y machine learning: 65 66 CAPÍTULO 4. DATA MINING VISUAL Tratan más fácilmente con datos no homogéneos y ruidosos. Son intuitivas. No requieren la comprensión de complejos algoritmos matemáticos o estadı́sticos. Una representación visual de resultados da un mayor grado de confianza que la representación numérica o textual. Existen numerosos enfoques y formas de representación para llevar a cabo Data Mining Visual. Para procesos industriales complejos, en esta tesis se utilizará el enfoque de la reducción de la dimensionalidad, que consiste en proyectar los datos multidimensionales (medidas del proceso o transformaciones de éstas, es decir, caracterı́sticas) en un subespacio topológico bidimensional que se hará corresponder con un plano. Esa correspondencia será tal que las propiedades inteligibles del espacio multidimensional (las propiedades que permiten realizar razonamientos directamente con ellas: variables con significado fı́sico, las relaciones entre ellas, etc.) podrán trasladarse al plano para ser representadas y ası́ poder ser usadas para realizar razonamientos en dicho plano[29] [28] [26] [27] [25] [20] [22]. 4.2. Formas básicas de representación El principal problema a la hora de representar datos multidimensionales es precisamente la dimensionalidad. Los medios tradicionales de representación (papel, pantalla) no permiten más que dos dimensiones espaciales. Esta limitación en principio parece sugerir como única alternativa la representación de datos como nubes de puntos (scatter plots, gráficas de dispersión) en un sistema cartesiano tı́pico que codifica valores de dos variables como posición en dos dimensiones1 . Estas simples representaciones de nubes de puntos son muy útiles para descubrir agrupamientos y correlaciones entre variables. Sin embargo, además de la posición en dos dimensiones, existen diversas formas de codificar valores en representaciones visuales como son el tamaño, el color, la forma, la textura, el movimiento, etc [15]. Un ejemplo que muestra la codificación por tamaño se muestra en la figura 4.1, en la que las dos primeras variables x e y se representan en los ejes de coordenadas, mientras que una tercera variable z se muestra como un tamaño de los cı́rculos proporcional al valor de dicha variable z. Un ejemplo semejante, pero codificando con color en lugar de con tamaño se puede ver en la figura 4.10. 1 Las representaciones 3D en un medio 2D como perspectiva tienen pérdida de información, salvo que sea un medio, como un computador, que permita la rotación interactiva. 4.2. FORMAS BÁSICAS DE REPRESENTACIÓN 67 3 2.5 2 1.5 Y 1 0.5 0 −0.5 −1 −1.5 −1.5 −1 −0.5 0 X 0.5 1 1.5 Figura 4.1: Gráfica de puntos dispersos con codificación en tamaño. Otra posibilidad son las matrices de gráficas de nubes de puntos, en las que las gráficas se hacen tomando dos a dos las variables (figura 4.2). La diagonal de la matriz puede aprovecharse para dibujar los valores de las variables frente al número de muestra. Si se trata de series temporales y el número de muestra está relacionado con el tiempo, esto permite extraer conclusiones acerca de las evoluciones temporales. Otra alternativa es table lens, un tipo de representación por codificación en color que permite la detección de relaciones entre variables. Consiste en la ordenación de los vectores muestra en función del valor de una de las variables. Las variables que también presenten una ordenación estarán relacionadas con la primera. En la figura 4.3 están representadas table lens para ordenación de cada una de las tres variables de los datos de ejemplo (de izquierda a derecha, x, y y z respectivamente). Se observa que existe una clara relación directa entre las variables y y z, y una más tenue (en una parte directa y en otra inversa) entre x y z. Finalmente, citar algunas más de entre la infinidad de formas de representación aplicables a Data Mining Visual, como coordenadas paralelas (parallel coordinates), mundos dentro de mundos (worlds within worlds), dense pixel displays, distorsión esférica (spherical distortion), distorsión hiperbólica (hyperbolic distortion), etc. [51] [15]. 68 CAPÍTULO 4. DATA MINING VISUAL x 2 xy 4 1 xz 4 2 2 0 0 0 −1 −2 0 500 1000 −2 −2 0 y 4 2 −2 −2 2 2 0 0 −2 0 0 yz 4 500 1000 −2 −2 0 4 z 2 2 4 2 0 −2 0 500 1000 Figura 4.2: Gráficas de puntos dispersos de pares de variables. X Y Z X Y Z X 100 100 100 200 200 200 300 300 300 400 400 400 500 500 500 600 600 600 700 700 700 800 800 800 Y Z Figura 4.3: Gráficas table lens para tres variables. 4.3. PROYECCIÓN DE DATOS 4.3. 69 Proyección de datos Un método para visualizar datos multidimensionales es la proyección de los mismos, lineal o no lineal, en un espacio visualizable. En principio se pierde la información de los valores de las variables, pero se conserva la de parecido entre muestras (como vectores) lo que permite un análisis de agrupamientos de forma visual. Sin embargo, ésta pérdida de información se puede evitar, pudiendo trasladarse información inteligible relacionada con las variables originales del espacio de entrada al espacio de visualización. Realizando el planteamiento de la proyección de datos para un proceso, se parte de un espacio de caracterı́sticas, en el que cada componente corresponde con una de las caracterı́sticas del proceso; este espacio no es visualizable por ser de alta dimensionalidad. El objetivo es realizar una proyección del espacio de caracterı́sticas en un espacio de visualización. La técnica de proyección que se vaya a usar para el análisis de procesos debe contemplar las siguientes posibilidades: 1. Proyección del espacio de caracterı́sticas sobre el de visualización, que es necesaria para proyectar vectores de caracterı́sticas individuales del proceso y, en particular, la trayectoria de estado. Se denominará a esta proyección Smi →gi (x), siendo x un punto del espacio de caracterı́sticas. 2. Proyección del espacio de visualización sobre el espacio de caracterı́sticas, que es necesaria para trasladar información inteligible desde el espacio de caracterı́sticas al de visualización2 . Esta proyección deberı́a ser la inversa de la del punto anterior para que la información mostrada en cada punto del espacio de visualización corresponda realmente a dichos puntos3 . Se denominará Sgi →mi (y), siendo y un punto del espacio de visualización. La proyección (en ambos sentidos) no tiene por qué ser continua o derivable. Sin embargo, si es discreta, conviene que esté definida para una rejilla regular en el espacio de visualización por simplicidad en la representación. Si la proyección es continua normalmente será posible escoger una rejilla regular. Los puntos de esta rejilla regular están identificados en la nomenclatura elegida para la proyección directa e inversa: gi son los puntos de la rejilla en el espacio de visualización y mi son los puntos correspondientes en el espacio de caracterı́sticas. 2 Dicho de otra forma, para dibujar los mapas de colores en el espacio de visualización. Sin embargo, cuando se busque una descripción más bien cualitativa esto no importa mientras el error no sea muy grande. 3 70 CAPÍTULO 4. DATA MINING VISUAL Una caracterı́stica que es especialmente deseable, tanto en la proyección directa como en la inversa, es la conservación de la topologı́a. Esta conservación de la topologı́a es difı́cil de definir, pero se puede dar como definición más restrictiva la siguiente: una proyección (función, mapeo) conserva la topologı́a cuando puntos adyacentes (cercanos, vecinos) en el espacio inicial lo son también en el espacio final. Respecto a los planteamientos de este apartado, está bastante claro qué significa “adyacencia” en el espacio de visualización. En el espacio de caracterı́sticas no está tan claro y hay que especificar que en dicho espacio interesa que la adyacencia se refiera a “dentro del subespacio topológico del proceso”, es decir, que la cercanı́a o lejanı́a de dos puntos se mida a lo largo del camino de mı́nima distancia contenido dentro de dicho subespacio topológico. La necesidad de este requisito se explica como la consecución de una trayectoria de estado que no sufra discontinuidades (que no “dé saltos”) durante cambios suaves en la condición del proceso. Existen varias técnicas de proyección mencionadas en el capı́tulo 3 que cumplen todas estas condiciones (o al menos casi todas). Algunas de las técnicas que dan buenos resultados, además de por los requisitos mencionados, por su buen comportamiento en la generación de residuos, son: SOM, KR-SOM y GTM. El SOM es discreto, y por ello no es muy preciso a la hora de revelar tendencias o derivas. El KR-SOM y el GTM son continuos y semejantes, pero ninguno cumple la condición 2 antes mencionada. Por otra parte, el inconveniente del carácter discreto del SOM se puede reducir usando más neuronas, viéndose solamente limitado este número por las capacidades de cálculo y almacenamiento del computador usado en su entrenamiento. Como ejemplo para ilustrar todo lo que se explicará en este capı́tulo se utilizará un ejemplo “de juguete” con datos (x, y, z) formando dos grupos. El primero y más pequeño de los grupos son datos con y y z constantes. El segundo se ha generado con la ecuación z = x2 + y para x, y ∈ [−1, 1] distribuidos de forma uniforme. A las tres variables se les ha añadido ruido gaussiano. En la figura 4.4 se muestran esos datos con una malla de SOM superpuesta que ha sido entrenado con dichos datos. 4.4. El error de modelado Al proyectar un punto del espacio de caracterı́sticas sobre el espacio de visualización hay que distinguir dos casos: 4.4. EL ERROR DE MODELADO 71 2 1.5 z 1 0.5 0 −0.5 −1 2 1 1 0.5 0 0 y −0.5 −1 −1 x Figura 4.4: Malla de SOM en el espacio de entrada con los datos de entrenamiento. 1. El punto está contenido en el subespacio topológico correspondiente al funcionamiento del proceso. 2. El punto está fuera del subespacio del proceso. Es posible detectar en qué caso se está, proyectando en el espacio de visualización y volviendo a proyectar el resultado sobre el espacio de caracterı́sticas. Cuando se está en la primera situación (dentro del subespacio), en un caso ideal, se obtendrá el punto inicial. Cuando se está en la segunda situación se obtiene un residuo como diferencia del punto resultante y el original. Al módulo de este vector diferencia se le denomina error de modelado 4 . Para todo lo que sigue en este capı́tulo se estará considerando que estamos en la primera situación. La segunda situación se estudiará ampliamente en el capı́tulo siguiente. 4 En el SOM se usa en su lugar el término error de cuantificación, heredado de la visión del SOM como un cuantificador en compresión de señal. En este caso puede no ser muy adecuado su uso. 72 4.5. CAPÍTULO 4. DATA MINING VISUAL Representación visual de conocimiento Al realizar la proyección de la trayectoria de estado, no necesariamente se pierde toda referencia con el espacio de caracterı́sticas. Es posible representar en el espacio de visualización la información inteligible del proceso disponible en los puntos del subespacio topológico de su modelo. Esta forma de representación se basa en la codificación de toda esa información por medio de colores, conformando unos “mapas de colores” en el espacio de visualización; cada uno de esos “mapas de colores” representa el valor de una determinada propiedad que en el espacio de caracterı́sticas tiene sentido fı́sico. Para crear estos mapas sólo hay que conocer a qué punto del espacio de caracterı́sticas corresponde cada punto del espacio de visualización. Hay que recalcar que todos esos mapas están mostrando el mismo espacio de visualización, pero representando distintas informaciones. En esencia, lo que se va a exponer en los siguientes subapartados es una forma de representar conocimiento en un espacio común, el espacio de visualización. 4.5.1. Etiquetado El espacio de visualización constituye, como ya se mencionó, un auténtico “mapa del proceso”. Al igual que en un mapa geográfico se señalan los nombres de las ciudades y los accidentes geográficos, el espacio de visualización puede ser etiquetado para poder localizar de un vistazo zonas particulares del espacio de visualización en cuanto a estados o condiciones del proceso. Para llevarlo a cabo se dispone de múltiples herramientas, que serán descritas en los siguientes apartados. 4.5.2. Planos de componentes Los planos de componentes o mapas de caracterı́sticas permiten conocer a través del espacio de visualización, las coordenadas en el espacio de caracterı́sticas de sus puntos correspondientes [53] [56] [54] [55]. Para ello se representa en el espacio de visualización el valor de una de las coordenadas como un color. Existen, por tanto, tantos planos de componentes como dimensiones tenga el espacio de entrada. Para obtener el plano de componentes correspondiente a la coordenada j, se toman los puntos gi del espacio de visualización y se proyectan sobre el espacio de caracterı́sticas, obteniéndose como resultado unos puntos mi = (mi1 , . . . , mij , . . . , miD ) = Sgi →mi (gi ), de los que se toman los mij y se codifican como colores. Por sencillez de representación se habrán escogido 4.5. REPRESENTACIÓN VISUAL DE CONOCIMIENTO x y z 15 15 15 10 10 10 5 5 5 0 0 5 10 15 0 0 5 10 73 15 0 0 5 10 15 Figura 4.5: Planos de componentes. unos gi que formen parte de una retı́cula regular. De esta forma los mij se representan mediante pixels coloreados en pantalla. En la figura 4.5 se muestran los planos de componentes para los datos de ejemplo. 4.5.3. Mapa de distancias El modelo de datos que representa al proceso puede verse en el espacio de caracterı́sticas como una “lámina elástica” que se ajusta a los datos que sirvieron para su creación. La “lámina elástica” puede no sólo adaptarse a la forma que tienen los datos en el espacio de entrada, sino también estirarse y encogerse para representar mejor en el espacio de visualización aquellas zonas que tienen mayor densidad de muestras de entrenamiento. Ası́, en el caso del SOM, se demuestra que éste tiende a hacer que la distribución de los datos de entrenamiento proyectados en el espacio de salida tengan una distribución aproximadamente uniforme5 . El GTM se plantea en [13] de tal forma que se comporte como el SOM en ese sentido. Parece claro que una información interesante para ser representada en el espacio de visualización es el grado de estiramiento de la “lámina elástica”. En eso consisten los mapas de distancias en el SOM y KR-SOM, y la representación en el espacio de visualización del factor de magnificación del GTM, que por analogı́a se pueden denominar de la misma forma. Debido a esta propiedad del SOM y del GTM de estirarse en las zonas donde hay menos densidad de datos, el mapa de distancias sirve para detectar, a través del espacio de visualización, agrupaciones de datos en el espacio de entrada. 5 Propiamente dicho será uniforme en el caso del KR-SOM, que es continuo. En el caso del SOM es una “uniforme discreta”. 74 CAPÍTULO 4. DATA MINING VISUAL Mapa de Distancias Mapa de Activación 18 18 16 16 14 14 12 12 10 10 8 8 6 6 4 4 2 2 0 0 0 5 10 15 0 5 10 15 Figura 4.6: Mapa de distancias y mapa de activación. En la figura 4.6 (izquierda) se muestra el mapa de distancias para el ejemplo de juguete. En ella se pueden observar las zonas correspondientes a dos grupos de datos. Sabiendo que el grupo generado con la ecuación z = x2 + y contiene más datos y que el SOM tiende a distribuir uniformemente los datos de entrenamiento en el espacio de visualización es fácil deducir que la zona más grande corresponde a dicho grupo. 4.5.4. Mapas de activación Cuando se quiere saber a qué zona del espacio de visualización corresponde un cierto conjunto de datos, puede pensarse que lo más directo es simplemente dibujar la proyección de todos los datos. Sin embargo esta representación no es muy buena si lo que se quiere conocer es la distribución de los datos proyectados (donde se proyectan más o menos datos), sobre todo si se trata de un mapa discreto (SOM) o cuando los datos mismos están cuantizados: en ambos casos se pueden estar proyectando muchos datos exactamente en el mismo punto, efecto que no serı́a detectado de forma visual. Ello hace necesario representar, de alguna forma, la “densidad” de los datos proyectados. Los mapas de activación, propuestos en [31] y [27], son semejantes a una función de densidad de un conjunto de datos proyectados. Para el SOM, los mapas de activación se definen de la siguiente forma. Sea {xk }k=1,...,K un conjunto de datos. El nivel de activación de la unidad i 4.5. REPRESENTACIÓN VISUAL DE CONOCIMIENTO del SOM para ese conjunto de datos se define como: P hc(k)i Ai = PkM i = 1, . . . , M h ij j=1 c(k) = arg mı́n{d(xk , mi )} i 75 (4.1) (4.2) donde M es el número de neuronas del SOM y c(k) es el ı́ndice de la unidad ganadora del SOM para xk . La versión continua para el KR-SOM se obtiene con: P φ(ky − gi k)Ai A(y) = Pi (4.3) j φ(ky − gj k) En el caso del GTM, se dispone directamente de algo equivalente por medio de la ecuación (3.53), que da el equivalente al mapa de activación para una única muestra. Sólo habrı́a que sumar para todos las muestras xk . En la figura 4.6 (derecha) se muestra el mapa de activación para los datos del grupo con y y z constante del ejemplo. 4.5.5. Mapas borrosos Es posible etiquetar el espacio de visualización sólo con la ayuda de los planos de componentes cuando se sabe qué valores tienen las caracterı́sticas para ciertas condiciones del proceso, por ejemplo: Cuando x1 tiene un valor alto, x2 toma valores medios y x4 toma valores negativos entonces el proceso está en el estado E1 Basta buscar en los planos de componentes las zonas que cumplen esas condición y poner la etiqueta en dichos lugares. Si el número de variables es bajo (dos o tres) puede ser un trabajo sencillo. Sin embargo, con un número de variables alto puede complicarse hasta lı́mites insospechados. Puede observarse que la regla de ejemplo mencionada para identificar cierta condición del proceso tiene un formato que es expresable como una regla borrosa. Se verá también que usando un Sistema de Inferencia Borroso (Fuzzy Inference System, FIS) es posible realizar esa tarea de localización de zonas automáticamente. Los mapas borrosos o mapas de inferencia borrosos [27] [21] [22] permiten la incorporación de conocimiento del proceso expresado en forma de reglas difusas. Ası́, si f es un sistema de inferencia borroso con una salida τ y tantas entradas como variables del proceso: τ (gi ) = f (mi ) = f (Sgi →mi (gi )). (4.4) 76 CAPÍTULO 4. DATA MINING VISUAL Mapa borroso 18 16 14 12 10 8 6 4 2 0 0 5 10 15 Figura 4.7: Mapa borroso. Esto permite asignar a cada punto del espacio de visualización un valor, que se codificará con color, y que es la salida del FIS f dándole como entrada el valor de las caracterı́sticas del proceso en el punto correspondiente del espacio de caracterı́sticas. Ası́, para el ejemplo utilizado en este capı́tulo, es posible visualizar las reglas: SI (x ES muy alta) Y (y ES muy alta) Y (z ES muy alta) ENTONCES (condicion1 ES si) SI (x NO ES muy alta) O (y NO ES muy alta) O (z NO ES muy alta) ENTONCES (condicion1 ES no) el mapa borroso resultante es el de la figura 4.7, donde se observa que la pequeña región resaltada coincide con un extremo de la agrupación de datos menor. Esta idea ya fue intuı́da por Pedrycz, que en [71] usa expresiones de lógica borrosa para obtener interpretaciones cualitativas en los resultados de un SOM usado como clasificador. Los mapas borrosos son, por tanto, una representación en el espacio de visualización de las conclusiones de conjuntos de reglas borrosas que relacionan caracterı́sticas del proceso. Esas reglas suelen ser expresión de un conocimiento adquirido por la experiencia. 4.5.6. Mapas de modelos Los mapas borrosos pueden considerarse como una manera de representar en el espacio de visualización un modelo del proceso expresado en forma de reglas borrosas. De la misma forma es posible también representar en el espacio de visualización modelos analı́ticos. Los mapas de modelos son útiles 4.5. REPRESENTACIÓN VISUAL DE CONOCIMIENTO 77 Mapa de modelo: x2+y−z=0 18 1 16 0.8 0.6 14 0.4 12 0.2 10 0 8 −0.2 6 −0.4 −0.6 4 −0.8 2 −1 0 0 5 10 15 Figura 4.8: Mapa de modelo. para determinar en qué medida un modelo analı́tico (ecuaciones explı́citas) se cumple en cada punto del espacio de caracterı́sticas correspondiente a un punto del espacio de visualización [27] [22]. Si se tiene una ecuación que es función de las caracterı́sticas consideradas en el espacio de entrada: f (x) = 0 (4.5) se podrı́a evaluar para las imágenes en el espacio de entrada correspondientes a los puntos del espacio de visualización, por ejemplo, en una rejilla regular: f (mi ) = f (Sgi →mi (gi )) = i (4.6) donde i sólo será nulo donde se cumpla el modelo dado por la ecuación 4.5 y será precisamente esta magnitud la que se represente en el espacio de visualización. En la figura 4.8 se muestra el mapa del modelo para la ecuación z = x2 + y en el ejemplo. Se observa cómo el modelo se cumple para la zona correspondiente al grupo de datos mayor, como era de esperar puesto que esos datos fueron generados de acuerdo con dicha ecuación, al contrario que el grupo menor de datos. Tanto en el caso de los mapas de modelos como en el de los mapas borrosos, lo que realmente se está representando en el espacio de visualización son los subespacios que definen los modelos de ambos tipos: ecuaciones analı́ticas y reglas respectivamente. Con esta técnica, por lo tanto, estas entidades se 78 CAPÍTULO 4. DATA MINING VISUAL convierten en visualizables, lo cual permite conjugar la intuición fı́sica, presente en el espacio de caracterı́sticas, con la intuición visual y geométrica, presente en el espacio de visualización. 4.5.7. Mapas de correlaciones El análisis de correlaciones es una técnica muy potente para descubrir relaciones lineales entre pares de variables. Tradicionalmente, esta técnica se ha aplicado sobre el conjunto de datos completo, proporcionando sólo información global. Sin embargo esto no es muy útil en datos de procesos industriales que, por su carácter no lineal, tı́picamente contienen varios puntos de funcionamiento, donde las correlaciones entre variables del proceso pueden ser diferentes. En [25] [22] se propone la representación en el espacio de visualización de las correlaciones locales entre variables de un proceso a partir de datos del mismo en el espacio de caracterı́sticas, representación que se denomina mapa de correlaciones. El enfoque local es posible ponderando los datos en el espacio de caracterı́sticas con una función de núcleo: 1 wk (y) = e− 2 kxk −Sgi →mi (y)k 2 /σ 2 (4.7) Cada punto del espacio de visualización y (normalmente los gi de la rejilla regular) es proyectado sobre el espacio de entrada, y esta imagen Sgi →mi (y) es usada como centro de la función de núcleo para calcular la media local y la matriz de covarianzas local: P k xk · wk (y) µ(y) = P (4.8) k wk (y) P [xk − µ(y)][xk − µ(y)]T wk (y) P C(y) = (cij ) = k (4.9) k wk (y) A partir de la matriz de covarianzas local es posible definir de forma directa la matriz de correlaciones local en torno a y como: cij R(y) = (rij ) donde rij = √ . (4.10) cii cjj El mapa de correlaciones para las variables xi y xj es representado por el valor rij (o rji debido a la simetrı́a de las matrices de covarianzas y correlaciones) en cada punto y de la rejilla del espacio de visualización. Observando la figura 4.9, que son los mapas de correlaciones para el ejemplo, se hace más evidente cómo los mapas de correlaciones constituyen, de hecho, una generalización de una matriz de correlaciones, indicando la distribución local de dichas correlaciones. 4.5. REPRESENTACIÓN VISUAL DE CONOCIMIENTO xx xy 1 15 0.5 15 10 0 5 0 5 10 yx 15 −1 0.5 15 10 0 5 0 0 5 10 yy 15 5 10 zx 15 −1 0 10 0 5 5 10 15 −1 0 −0.5 0 5 10 yz 15 0 5 10 zy 15 −1 0.5 10 0 0 −0.5 0 5 1 10 zz 15 0.5 10 0 −0.5 5 0 5 10 15 −1 0 −1 1 0.5 15 0 −1 1 −0.5 5 10 0 −1 0 −0.5 5 0 0 0.5 15 1 0.5 15 10 1 −0.5 5 0 0.5 −0.5 5 10 15 0 0 1 15 1 0.5 15 10 0 xz 1 −0.5 5 0 79 −0.5 0 5 Figura 4.9: Mapas de correlaciones. 10 15 −1 80 CAPÍTULO 4. DATA MINING VISUAL Todos los datos. Variable "z" codificada en color 3 Sólo datos con z>0.4 y z<0.6 2 2.5 2 2 2 1.5 1.5 1 0.5 0.5 0 1.5 1 1 y y 1 0.5 0 0 −0.5 −0.5 −1 −1.5 −2 3 −1 0 x 1 2 −1 0 −1 −2 −2 −0.5 −1 0 x 1 2 −1 Figura 4.10: Interpretación de las correlaciones entre x e y vista en los mapas de correlaciones. En la figura 4.10 se muestra una interpretación de la variación de la correlación xy de la figura 4.9 en la zona en que cambia el signo de la correlación. Ası́, considerando la z constante, para x pequeñas (en los planos de componentes se puede ver que es en la parte inferior del mapa) la correlación es positiva, pasando gradualmente a correlación nula y después negativa según aumenta la x (hacia arriba en los mapas). La elección de la variable σ de la ecuación (4.7) influye en el grado de “localidad” de los mapas de correlaciones. Para valores muy grandes de σ los mapas de correlaciones presentan los valores de correlaciones globales, siendo por tanto cada uno de ellos de un color uniforme. Para valores de σ muy pequeños, los mapas de correlaciones se ven muy influidos por el ruido y los pocos datos que tiene en cuenta para el cálculo de la matrices de covarianzas, lo cual genera mapas ruidosos y resultantes de matrices de covarianzas degeneradas. Los mapas de correlaciones pueden considerarse como la representación en el espacio de visualización de simples modelos locales lineales de carácter cualitativo extraı́dos de datos, y que pueden ser usados tanto para asistir en la identificación de la condición del proceso en distintas regiones del espacio de visualización, como para extraer nuevo conocimiento sobre el comportamiento del proceso en distintos puntos de funcionamiento. Capı́tulo 5 Residuos en Modelos de Datos 5.1. Introducción La aplicación de técnicas de redundancia analı́tica es posible también con modelos basados en datos. La idea principal es desacoplar la parte que podemos denominar “explicable por el modelo” de la parte “no explicable por el modelo” en cada muestra del vector de caracterı́sticas del proceso. La parte no explicable portarı́a información altamente especı́fica en relación con situaciones novedosas, las cuales en su mayor parte podrı́an corresponder con situaciones de fallo. Esto es especialmente aplicable a fallos modelizables como fallos aditivos, puesto que en ciertos casos se puede encontrar relación directa entre el vector de fallo aditivo y el vector de residuos. 5.2. Generación de residuos En general, un modelo del sistema define un subespacio topológico S dentro del espacio de sus variables (caracterı́sticas), o lo que es lo mismo, impone unas relaciones entre sus variables, una restricción en los grados de libertad de sus variables. Se puede generar un residuo vectorial a partir del modelo de la siguiente forma: = x − x̂ (5.1) donde x es el vector de valores instantáneos de las variables del proceso y x̂ es el valor más semejante a x predicho por el modelo: = x − S(x) (5.2) En general S será una función que devuelva x cuando éste esté contenido en el subespacio del proceso (x ∈ S) y distinto de x en caso contrario (x ∈ / S). 81 82 CAPÍTULO 5. RESIDUOS EN MODELOS DE DATOS En el primer caso el residuo vectorial serı́a nulo y el sistema se encontrarı́a en situación de no fallo (estrictamente hablando, en situación de “acorde con el modelo”). En el segundo caso habrı́a una indicación de fallo y será cuestión de la naturaleza de la función S si el residuo es significativo o no para su uso en el aislamiento del fallo, es decir, si provee información válida para llevar a cabo dicho aislamiento [30]. La función S podrı́a ser, en principio, cualquier técnica de proyección, y en concreto, cualquiera de las mencionadas en el apartado 3.4. 5.3. Detección de Novedades La detección de novedades (novelty detection) consiste en detectar cuándo un dato nuevo1 no corresponde con ninguno de los estados del proceso presente en los datos que fueron usados para la creación del modelo [105] [1] [83] [39] . Esto se relaciona con el apartado anterior puesto que un indicador de novedades es: e = kx − x̂k (5.3) valor escalar que se denomina error de modelado (error de cuantificación, quantization error, en el SOM). Esto, en principio, sólo es válido en los métodos de modelado a partir de datos que tengan en cuenta el dominio de los datos que fueron usados para crear el modelo2 : si el nuevo dato no está contenido dentro de ese dominio, entonces es una “novedad”. El problema de detectar cuando un dato x ∈ Rn pertenece al dominio de una variable aleatoria ξ ∈ Rn no es directo cuando la información de partida es un conjunto de muestras de dicha variable aleatoria. Este problema está relacionado con la Teorı́a de Decisión y lo que se conoce en Estadı́stica como detección de valores atı́picos (outlier testing). El problema de detección de valores atı́picos consiste en descubrir cuándo un dato x puede corresponder con una realización de la variable aleatoria ξ o no. El dominio de la variable aleatoria va implı́cito en la función de densidad de probabilidad (fdp) de los datos, puesto que corresponde con los valores de x donde esta función es no nula. El caso donde x cae fuera del dominio de ξ es inmediato puesto que es evidente que no puede ser una realización de ξ. Sin embargo cuando x está dentro del dominio de ξ, no se garantiza que sea 1 Sea un dato “nuevo” un dato que acaba de ser adquirido o que simplemente no fue usado en la creación del modelo. Aunque la palabra es similar, el significado es diferente al del término “novedad”. 2 Dicho de manera simplificada, que no extrapolen. La interpolación también puede crear algún problema si no se tiene en cuenta, pero puede detectarse como se explica en 5.5.2. 5.3. DETECCIÓN DE NOVEDADES 83 una realización de ésta, sobre todo en los casos en los que la fdp es próxima a cero. Además esto último siempre ocurrirá en casos en los que la fdp sea no nula en todo Rn , como en la distribución normal. La mayor parte de las veces el objetivo es, por tanto, cuantificar al menos qué probabilidades hay de cometer un error en la decisión, ya sean falsos positivos o falsos negativos. La Teorı́a de Decisión proporciona varias posibilidades para la detección de novedades; aquı́ se mencionarán algunos métodos especialmente interesantes por su carácter intuitivo o por su carácter práctico. La primera idea es realizar una estimación de la fdp de la variable aleatoria a partir de los datos muestra, poner un umbral3 para realizar la discriminación, evaluar el dato en la fdp y, si el resultado queda por encima del umbral, el dato se supone realización de la variable aleatoria. Existen también soluciones partiendo sólo del modelo creado a partir de los datos, sin embargo el problema es algo distinto. Generalmente el modelo, al contrario que la fdp, no tiene en cuenta el “ruido”, refiriéndose este “ruido” al responsable de la varianza de los datos respecto a la media aproximada por el modelo; un caso especial es GTM, que sı́ que tiene en cuenta el ruido, en cierta manera, por medio del parámetro β. En estos casos, la solución, que consiste en escoger un umbral para el error de modelado e de la ecuación (5.3), puede tener en cuenta de alguna manera los datos de partida para obtener información sobre el ruido, para posteriormente deducir de ello el umbral más adecuado. Resumiendo, existen al menos tres alternativas como criterio para la detección de novedades: Umbral para la fdp relacionado con la probabilidad de error en la detección. Umbral global para el error de modelado. En GTM podrı́a ser proporcional a 1/β, y en otro caso (SOM, etc.) estimarse a partir de los datos de entrenamiento. Serı́a como darle un “grosor” al subespacio topológico del modelo igual en todo él. Umbral para el error de modelado distinto en cada punto perteneciente al subespacio del modelo. Serı́a como darle al subespacio un “grosor” distinto en cada punto. 3 Que puede ser un valor tal que al integrar la fdp donde ésta supere dicho valor, dé un resultado de 0.99, por ejemplo. 84 CAPÍTULO 5. RESIDUOS EN MODELOS DE DATOS 5.4. Residuo vectorial Si se considera el vector (5.1) completo (y no sólo su módulo), además de la detección puede haber un aislamiento del fallo puesto que, bajo ciertas condiciones, en un fallo aditivo el vector de residuos es semejante al vector de fallo. Si se produce un fallo en el que el proceso se mueve en una dirección aleatoria dentro de su espacio, cuando este espacio es de alta dimensionalidad es muy probable que el movimiento sea en una dirección ortogonal al subespacio que representa el modelo del proceso4 . Es decir, que podemos obtener un vector semejante al de fallo tomando el vector diferencia entre el punto actual y el más cercano dentro del subespacio del proceso, que es precisamente lo que se plantea en las ecuaciones (5.1) y (5.2) 5.4.1. Validez del residuo vectorial Las técnicas que sirven para realizar modelos basados en datos se pueden clasificar en dos grupos: 1. Modelos basados en el soporte 5 de los datos (GRNN, SOM, k-means, . . . ). Son modelos que aproximan la geometrı́a de la función de densidad de probabilidad. 2. Modelos mı́nimo-cuadráticos (RBF, perceptrón multicapa autoasociativo). Tratan de minimizar una función de error cuadrático. Los modelos basados en soporte están estadı́sticamente fundamentados. Tratan de buscar una función objetivo en la que figura la función de densidad de probabilidad (que lleva implı́cito el soporte de los datos). Los modelos mı́nimo-cuadráticos, sin embargo, buscan simplemente minimizar el error de aproximación y obtienen como resultado algo parecido a la función identidad: f (x) = x, y entonces: El error de modelado en valor absoluto no se corresponde con la proporción de error cometido. La dirección de los residuos en algunos casos es totalmente no significativa (en cuanto a información útil para aislamiento de fallos, por ejemplo). 4 Esto es idéntico a la idea básica de Random Projections explicada en 3.4.1. Soporte o dominio de una variable aleatoria: rango de valores que puede tomar. Se entiende aquı́ este término en un sentido más amplio, denotando la geometrı́a de la región en el espacio ocupada o poblada por los datos. 5 5.4. RESIDUO VECTORIAL 85 10 4 10 4 8 3 8 3 6 2 4 6 2 4 1 2 0 0 −2 −1 −4 1 2 0 0 −2 −1 −4 −2 −6 −8 −10 −10 −5 0 5 10 −2 −6 −3 −8 −4 −10 −10 (a) Módulo del vector de residuos con un modelo mı́nimo-cuadrático. −3 −5 10 8 8 6 6 4 4 2 2 0 0 −2 −2 −4 −4 −6 −6 −8 5 −4 10 (b) Módulo del vector de residuos con un modelo basado en soporte. 10 −10 −10 0 −8 −5 0 5 10 (c) Dirección del vector de residuos con un modelo mı́nimo-cuadrático. −10 −10 −5 0 5 10 (d) Dirección del vector de residuos con un modelo basado en soporte. Figura 5.1: Comparación de los residuos, tanto en módulo como en dirección, para modelos basados en soporte y mı́nimo-cuadráticos. En el caso ideal, una “dirección significativa” para los residuos implica que los valores de cada componente son proporcionados con la desviación real de dicha componente, y que los signos de las desviaciones son los correctos. En la figura 5.1 se muestra una comparación de residuos generados con un modelo mı́nimo-cuadrático (RBF) y con un modelo basado en soporte (GRNN), en la que se comprueba que en el caso del modelo mı́nimo-cuadrático los residuos son prácticamente nulos aun en puntos lejanos a los datos usados para generar el modelo. Se puede ver intuitivamente lo que ocurre en un caso particular con un perceptrón multicapa autoasociativo. La hipersuperficie que representa está definida en todo el espacio, mientras que el proceso sólo se moverá en 86 CAPÍTULO 5. RESIDUOS EN MODELOS DE DATOS x y z 100 200 300 400 500 600 Tiempo (muestras) 700 800 900 Figura 5.2: Representación del vector de residuos. Ejemplo de fallo aditivo haciendo su aparición en torno a la muestra 900. una zona determinada de ese espacio (su dominio). Es claro que cuando se presente una situación muy lejana a la de los datos de entrenamiento de la red, el punto que la representa probablemente se proyecte en una zona muy alejada de los datos de entrenamiento (de su dominio), con lo cual el residuo será totalmente inútil. 5.4.2. Representación del residuo vectorial Dado el enfoque eminentemente visual de esta tesis la representación más adecuada para el vector de residuos es un detalle bastante importante. Para una representación de dicho vector a lo largo del tiempo, una simple gráfica tiempo-valor por componente es confusa cuando el número de componentes es grande. Otro tipo de representación, que ha dado excelentes resultados en la práctica, es el mostrado en la figura 5.2. Los valores de las componentes del vector de residuos se muestran codificadas con color (hacia rojos, positivos; hacia azules negativos; verde significa valor nulo) en una gráfica en la que cada lı́nea en el eje vertical corresponde a una componente del vector y el eje horizontal corresponde con tiempos. Este tipo de representación permite diferenciar fácilmente cada una de las componentes y detectar la desviación de cualquiera de ellas del cero con un sólo vistazo. 5.5. Consideraciones en el uso de residuos Se pueden hacer dos consideraciones especiales en cuanto al uso de residuos y respecto al modelo de datos a usar: a) los criterios para escoger los datos para generación del modelo y b) los problemas del carácter interpolante o no del modelo. 5.5. CONSIDERACIONES EN EL USO DE RESIDUOS 5.5.1. 87 Elección de datos para el modelo Existen dos formas de combinar el uso de residuos y proyección de trayectoria para el diagnóstico de fallos: 1. Introducir en el modelo todas las situaciones disponibles en forma de datos (normales y de fallo). En este caso los residuos detectarán estados no presentes en el modelo, que pueden ser de fallo o simplemente estados considerados normales pero de los que no se tenı́an datos. 2. Introducir en el modelo sólo situaciones normales. A menudo es más fácil tener datos de situaciones normales puesto que el proceso se encontrará en ese estado la mayor parte del tiempo. Nuevamente, los residuos detectarán estados no presentes en el modelo, que pueden ser de fallo o, en teorı́a con menor probabilidad, un estado normal no contemplado en el modelo. La única diferencia entre uno y otro caso serı́a la mayor predisposición del operador del proceso, en el segundo caso, a considerar fallo en un primer momento cualquier aviso que dieran los residuos. 5.5.2. Modelo con interpolación Cuando se utiliza una técnica de proyección para generar residuos, puede ser importante distinguir cuándo el proceso está en una zona del mapa que corresponde con datos disponibles y cuándo son resultado de interpolación realizada por el modelo entre agrupaciones de dichos datos usados en la generación de dicho modelo. Para distinguir en una determinada proyección si se está en zona modelada hay que mirar tanto el error de modelado/residuos como el mapa de distancias, teniendo en cuenta que en zonas de interpolación, una técnica de proyección continua no genera residuos, y en una discreta (como el SOM) éstos pueden ser mı́nimos (generalmente hay neuronas interpolantes). Además, en ambos casos, los residuos pueden no ser significativos para el diagnóstico de fallos. 88 CAPÍTULO 5. RESIDUOS EN MODELOS DE DATOS Capı́tulo 6 Metodologı́a de Supervisión 6.1. Introducción Todas las ideas y técnicas concernientes a Data Mining Visual que han sido comentadas en previos apartados, se pueden organizar en el marco de una metodologı́a aplicable a supervisión de procesos complejos que se pueden relacionar con otras metodologı́as estándar de Data Mining como CRISP-DM [16]. Todo ello puede ilustrarse con el ejemplo de la implementación real de un sistema de monitorización mediante técnicas de Data Mining Visual, una aplicación denominada MAPREX, que ha sido desarrollada en el seno de un proyecto de investigación del Área de Ingenierı́a de Sistemas y Automática para la supervisión de sistemas de un tren de laminación en caliente de Aceralia Corporación Siderúrgica. 6.2. 6.2.1. El sistema MAPREX MAPREX: un sistema de monitorización MAPREX es un sistema de monitorización de la condición basado en SOM. Tiene capacidades de representación de datos tı́picas en la monitorización de procesos: señales a lo largo del tiempo, espectros, etc.; también tiene la posibilidad de almacenamiento de datos. Además, MAPREX tiene implementadas técnicas de redundancia analı́tica empleando un modelo basado en datos constituido por un SOM. 89 90 CAPÍTULO 6. METODOLOGÍA DE SUPERVISIÓN Comprensión del negocio Comprensión de los datos Preparación de los datos Implantación Generación del modelo Evaluación Figura 6.1: Modelo de referencia CRISP-DM. 6.2.2. MAPREX: una herramienta de Data Mining Visual El sistema MAPREX es una aplicación instalada en un ordenador portable que permite realizar Data Mining Visual en planta, al mismo pie del proceso. Esto posibilita correlacionar la información que provee MAPREX, representada de diversas formas, con la información procedente de percepciones sensoriales (visual, auditiva, olfativa, etc.) acerca del proceso que sólo es posible obtener in situ. Debido a esto, la emisión de hipótesis sobre la validez y la significancia de los datos tomados del proceso, ası́ como la configuración de una extracción de caracterı́sticas sobre estos datos del proceso realizada en tiempo real y la consiguiente comprobación de la utilidad de la información resultante se convierte en una tarea altamente interactiva. MAPREX y CRISP-DM La metodologı́a de supervisión mediante Data Mining Visual encaja perfectamente en un estándar de desarrollo de proyectos de Data Mining como es CRISP-DM (CRoss Industry Standard Process for Data Mining) [16]. El modelo de referencia del CRISP-DM tiene varias fases. La secuencia de fases no es lineal sino que puede implicar vueltas a pasos anteriores, como se muestra en la figura 6.1: 6.2. EL SISTEMA MAPREX 91 1. Entendimiento del negocio: entender los objetivos y requerimientos desde la perspectiva del negocio, y entonces convertir este conocimiento en la definición de un problema de Data Mining y un plan preliminar diseñado para conseguir los objetivos. 2. Comprensión de los datos: recoger datos, familiarizarse con ellos, identificar problemas de calidad de los mismos, y descubrir las primeras cosas interesantes para conjeturar hipótesis respecto a información oculta en ellos. 3. Preparación de los datos: comprende todas las actividades encaminadas a formar el conjunto de datos final que será introducido en las herramientas de generación de modelos. Las tareas de preparación de datos probablemente se lleven a cabo varias veces, sin ningún orden preestablecido. Esto incluye la selección de atributos, registros y tablas, ası́ como la transformación y limpieza de los datos para las herramientas de generación de modelos. 4. Generación del modelo: se seleccionan las técnicas de modelado, se aplican y se calibran sus parámetros a valores óptimos. Suele haber varias técnicas para el mismo problema que pueden tener unos requerimientos distintos en cuanto al formato de los datos, lo cual puede implicar volver al paso anterior de preparación de datos. 5. Evaluación: comprobar si el modelo generado cumple los objetivos impuestos en la fase inicial. Si no los cumple porque no se consideró algún aspecto clave, habrá que volver al paso de comprensión del negocio. 6. Implantación: uso del modelo generado. Puede ser tan simple como la generación de un informe o tan complejo como la implementación de un proceso de Data Mining continuo. MAPREX se enmarca fácilmente dentro de la metodologı́a CRISP-DM. Es a la vez una herramienta de desarrollo de sistemas de supervisión por medio de técnicas de Data Mining Visual y el sistema de supervisión en sı́. Ası́, MAPREX es aplicable en las siguientes fases del modelo de referencia CRISP-DM: Comprensión de los datos: MAPREX dispone de diversas formas de representación de datos, como son formas de onda, espectros, y caracterı́sticas; todas ellas son útiles en los primeros pasos para captar las particularidades de los datos procedentes de un proceso. Ası́, las caracterı́sticas son configurables como valores instantáneos1 para señales 1 Realmente dichas señales se preprocesan a través de un filtro de media. 92 CAPÍTULO 6. METODOLOGÍA DE SUPERVISIÓN Comprensión del negocio Comprensión de los datos Preparación de los datos Generación del modelo Evaluación Implantación Determinar los objetivos del negocio Antecedentes Objetivos Criterios de éxito Tomar datos iniciales Informe de la toma de datos iniciales Conjunto de datos Descripción del conjunto de datos Seleccionar datos Criterios de inclusión/exclusión Evaluar resultados Evaluación de los resultados de data mining respecto a los criterios de éxito de negocio Modelos aprobados Planear implantación Plan de implantación Describir los datos Informe de descripción de los datos Seleccionar la técnica de modelado Técnica de modelado Suposiciones de modelado Explorar los datos Informe de exploración de los datos Limpiar datos Informe de limpieza de datos Evaluar situación Inventario de recursos Requerimientos, suposiciones y restricciones Riesgos y contingencias Terminologı́a Costes y beneficios Determinar los objetivos del Data Mining Objetivos del Data Mining Criterios de éxito del Data Mining Producir plan del proyecto Plan del proyecto Evaluación inicial de herramientas y técnicas Verificar calidad de los datos Informe de calidad de los datos Construir conjunto de datos Atributos derivados Registros generados Integrar datos Datos combinados Generar diseño de prueba Diseño de prueba Generar modelo Configuración de parámetros Modelos Descripción de modelos Evaluar modelo Evaluación de modelo Revisión de configuración de parámetros Revisar proceso Revisión del proceso Determinar siguientes pasos Lista de posibles acciones Decisión Planear monitorización y mantenimiento Plan de monitorización y mantenimiento Generar informe final Informe final Presentación final Revisar proyecto Documentación de la experiencia Formatear datos Datos reformateados Figura 6.2: Tareas genéricas y salidas del modelo de referencia CRISP-DM. 6.2. EL SISTEMA MAPREX 93 consideradas como estáticas, o como valores espectrales (energı́as en bandas de frecuencia) para señales consideradas como dinámicas, puesto que la mayor parte de este tipo de señales tienen como origen elementos giratorios en máquinas (que generan magnitudes mecánicas cuasiperiódicas: vibraciones, fuerzas, etc.), corrientes alternas, etc. Preparación de los datos: MAPREX puede realizar extracción de caracterı́sticas off line en datos almacenados previamente, con vistas a la generación de un modelo posterior. Generación de modelos: a partir de los datos obtenidos, MAPREX puede generar un modelo basado en SOM, útil para Data Mining Visual tanto on line como off line, con capacidades de proyección de datos y generación de residuos. Evaluación: con el modo simulación, en MAPREX se puede comprobar que el modelo es correcto con datos off line. Si todo funciona correctamente se puede proceder a la evaluación on line y de forma continua, progresiva y simultáneamente a la implantación. Implantación: por el carácter portable del sistema MAPREX es posible llevar todos los pasos anteriormente mencionados al mismo pie del proceso, con lo cual la implantación puede ser inmediata. 6.2.3. Estructura de la aplicación MAPREX La aplicación MAPREX tiene la estructura que se muestra esquematizada en la figura 6.3: 1. Un módulo de adquisición de datos, que realiza las tareas relacionadas con la adquisición, almacenamiento y representación de señales a lo largo del tiempo junto con sus espectros. 2. Un módulo de extracción de caracterı́sticas, que realiza extracciones de caracterı́sticas de forma on line y representa la evolución temporal de las caracterı́sticas previamente configuradas. También realiza extracciones de caracterı́sticas off line que producen datos listos para entrenar un SOM. 3. Un módulo SOM, que entrena SOMs y los ejecuta en tiempo real, usando como entrada los datos que se van generando en una extracción de caracterı́sticas sobre las variables del proceso que se van muestreando. Como resultado de la ejecución, el SOM representa la trayectoria 94 CAPÍTULO 6. METODOLOGÍA DE SUPERVISIÓN de estado sobre diferentes vistas del espacio de visualización y genera residuos, mostrándolos también gráficamente. 6.3. Una sesión con MAPREX A continuación se describirá una sesión tı́pica con la aplicación. La aplicación MAPREX, al final de una de dichas sesiones, tiene el aspecto de la figura 6.4. Las ventanas que muestra se irán abriendo según se van necesitando en los sucesivos pasos que se relatan en el resto de este apartado. 6.3.1. Selección de señales El primer paso consiste en seleccionar las señales y configurarlas en el subsistema de adquisición. Los parámetros configurables para cada señal son: Nombre: una cadena alfanumérica que identifique la señal. Sensibilidad: valor que da la relación de número de unidades de la señal por voltio en la entrada. Unidad: cadena alfanumérica que identifica las unidades en la que se mide la magnitud de la señal. Hay que seleccionar también la frecuencia de muestreo en función del máximo ancho de banda de entre las señales, ası́ como el número de datos que se usará en los espectros de las señales, lo cual determinará su resolución. Con esta configuración mı́nima, MAPREX está listo para adquirir datos. 6.3.2. Visualización de las señales en tiempo real Una vez iniciada la adquisición de datos, se pueden visualizar las señales en tiempo real, tanto en el dominio del tiempo como en el de la frecuencia. Esto constituye el primer nivel de monitorización de variables del proceso. Ya en este punto se puede obtener información interesante del proceso, que será aprovechada en el siguiente paso de selección de caracterı́sticas. 6.3.3. Selección de caracterı́sticas Existen dos formas complementarias para realizar una selección de las caracterı́sticas del proceso de forma interactiva con MAPREX: la selección on line y la selección off line. SOM registro de SOMs entrenados registro de extracciones de características registro de señales Características Extracción de Características Señales en la Frecuencia Adquisición de Datos Señales en el Tiempo Proyección de Trayectoria sobre Mapas Residuos 6.3. UNA SESIÓN CON MAPREX 95 Figura 6.3: Diagrama de bloques de la aplicación MAPREX. PROCESO 96 CAPÍTULO 6. METODOLOGÍA DE SUPERVISIÓN Selección on line La selección on line de caracterı́sticas se apoya principalmente en las ventanas de representación temporal y frecuencial de las señales. Como éstas tienen información a muy corto plazo (prácticamente correspondiente al instante), requieren una atención continua. Sin embargo, también es posible representar información a más largo plazo, como resultado de una extracción de caracterı́sticas en tiempo real, en la denominada ventana de caracterı́sticas. Las caracterı́sticas a representar se elegirán por las conclusiones obtenidas de la observación de las señales en tiempo y frecuencia o por conocimiento previo. Las caracterı́sticas configurables son valores medios de señales y energı́as de la señal contenidas en bandas de frecuencia dadas por su frecuencia central y ancho. Selección off line Todo lo mencionado hasta ahora para observación on line de señales se puede realizar de forma off line para análisis sobre archivos de datos previamente capturados: representación temporal, frecuencial y extracción de caracterı́sticas. Además, se dispone de una posibilidad adicional que es la de representación de espectrogramas. 6.3.4. Preparación de datos para modelado La preparación de datos para modelado consiste en la extracción de caracterı́sticas, con la configuración elegida como resultado de los pasos previos, sobre archivos seleccionados de datos capturados. Estos archivos se habrán seleccionado de forma que resuman todas las condiciones posibles del proceso. 6.3.5. Generación del modelo Una vez obtenidos los datos para modelado, el paso siguiente es generar el modelo. El modelo basado en datos implementado en MAPREX es una red neuronal SOM que, una vez escogida su configuración (número de neuronas, vecindad, etc.), puede ser entrenada con los mencionados datos resultado de la extracción de caracterı́sticas. 6.3.6. Explotación del modelo El siguiente paso es el aprovechamiento del modelo generado. Para ello, una vez cargado el archivo del modelo, se puede abrir toda una serie de ventanas que aprovechan las dos aplicaciones que tiene el modelo basado 6.3. UNA SESIÓN CON MAPREX 97 en datos constituido por el SOM: proyección de trayectoria y generación de residuos. Proyección de trayectoria Las ventanas que aprovechan la capacidad de reducción de la dimensión del SOM para visualización son ventanas que representan precisamente el espacio de visualización del proceso, en las que se realiza la proyección del vector de caracterı́sticas instantáneo —que podemos denominar puntero de estado o condición—, y en las que, dependiendo del tipo de ventana, se representa de fondo distinta información del proceso codificada con colores —y que es como visualizar el proceso en sı́—. En MAPREX se dispone actualmente de los siguientes tipos: Planos de componentes (ver apartado 4.5.2). Mapa de distancias (ver apartado 4.5.3). Mapas de activación (ver apartado 4.5.4). Mapas de correlaciones (ver apartado 4.5.7). En cualquiera de estas ventanas y en cualquier posición se puede colocar una etiqueta, que aparecerá automáticamente en el resto de ventanas del SOM. Generación de residuos En una ventana adicional MAPREX puede representar en tiempo real el vector de residuos instantáneo generado por el SOM como una “cinta” que se desliza de derecha a izquierda. En vertical se tienen las caracterı́sticas y en horizontal el tiempo, correspondiendo la parte derecha al instante actual. Cuando los residuos son nulos, los residuos son verdes. Cuando aparece un residuo rojo (positivo) quiere decir que la caracterı́stica correspondiente tiene un valor mayor de lo esperado (de lo estimado por el modelo del SOM). Cuando aparece un residuo azul (negativo) quiere decir que la caracterı́stica correspondiente tiene un valor menor de lo esperado (de lo estimado por el modelo del SOM). Esto permite conocer al instante: Qué variables están involucradas en el fallo. El sentido de las desviaciones. En qué momento se produjo el fallo. 98 CAPÍTULO 6. METODOLOGÍA DE SUPERVISIÓN Figura 6.4: Pantalla de MAPREX durante una sesión tı́pica. Capı́tulo 7 Resultados 7.1. Introducción En este capı́tulo se verán casos reales de aplicación de las técnicas expuestas en capı́tulos anteriores. En primer lugar se mostrará la aplicación a monitorización en tiempo real sobre un pequeño motor de inducción en laboratorio. En segundo lugar se tratará el caso de Data Mining Visual en un proceso industrial real, un tren de laminación en caliente. Estos ejemplos están realizados con MATLAB por razones de nitidez en las figuras. También se muestra una captura de pantalla de la aplicación MAPREX mostrando las posibilidades que ya tiene implementadas referidas al primer caso en estudio. 7.2. 7.2.1. Monitorización de sistemas en tiempo real Descripción del sistema El sistema a monitorizar consta de un motor de inducción trifásico de 4kW y dos pares de polos con las caracterı́sticas mostradas en el cuadro 7.1. En los ejemplos funcionará siempre en vacı́o y para variar sus condiciones de funcionamiento se le introducirán asimetrı́as en su alimentación, tanto de forma total y brusca (eliminando una fase) como de forma gradual (por medio de una resistencia variable en una fase). También se le introducirán asimetrı́as mecánicas en el eje con una pequeña masa desequilibrante. Para la toma de datos del proceso se utilizaron acelerómetros piezoeléctricos (ICP) para medir vibraciones, sensores de efecto Hall para medir corrientes y una resistencia variable con la temperatura PT-100 para medir la temperatura. El esquema de este sistema se muestra en la figura 7.1. 99 100 CAPÍTULO 7. RESULTADOS Potencia nominal Tensión nominal Corriente nominal Velocidad Frecuencia alimentación cos(φ) 5,5 CV 380 V (Y) 9A 1430 rpm 50 Hz 0,83 Cuadro 7.1: Caracterı́sticas técnicas del motor trifásico. Corriente S Corriente R Desequilibrio gradual en la alimentación Vibración Y R Vibración Z Asimetría Mecánica R S T Fallos de fase totales m 4 kW 380V 3~ 1500 rpm Vibración X Figura 7.1: Esquema del equipo de pruebas para el motor trifásico. 7.2. MONITORIZACIÓN DE SISTEMAS EN TIEMPO REAL 7.2.2. 101 Obtención del modelo Se tomaron datos de temperatura (T ), vibraciones en tres ejes perpendiculares (X, Y y Z) y corrientes en dos (R y S) de las tres fases (denominadas R, S y T ), muestreados a 20 kHz por ser aproximadamente el doble del ancho de banda de las señales de vibraciones, las que más ancho de banda tienen de entre todas ellas. Estos datos incluyeron las siguientes condiciones del motor: parado, funcionamiento normal, fallo en fase R, fallo en fase S, fallo en fase T , y la combinación de todas esas condiciones con una asimetrı́a mecánica (desequilibrio) en el eje1 . Esto hace un total de nueve condiciones diferentes. Los fallos en la fase R fueron tanto bruscos como graduales, provocados estos últimos con la resistencia intercalada en dicha fase. Añadido a esto hay que tener en cuenta que los datos fueron tomados en un intervalo largo de tiempo que incluye una variación de la temperatura del motor desde temperatura ambiente (unos 20o C) hasta unos 50o C para los datos que posteriormente se usaron en el entrenamiento, llegando hasta unos 60o C para los datos de test. Posteriormente, como caracterı́sticas se escogieron la temperatura y los armónicos múltiplos de la velocidad de giro del motor 1×, 2× y 3× (25, 50 y 75 Hercios) para las vibraciones en los tres ejes X, Y y Z, que proporcionan información sobre fallos mecánicos del motor como desalineamientos o desequilibrios del rotor. Por otro lado se tomó, también en los tres ejes de vibración, el armónico de 100 Hz, que es útil para detectar desequilibrios en la alimentación del motor (alimentado a 50 Hz) y, como caso extremo, fallos de fase. Por último, de las dos corrientes se considerará su armónico fundamental de 50 Hz. Esto hace un total de 15 caracterı́sticas, que se denominarán como se muestra en la tabla 7.2. Para la extracción de caracterı́sticas se consideró la temperatura como variable estática y sólo se usó su valor medio. En el caso del resto de caracterı́sticas se usó una STFT con un tamaño de ventana 8192, un solapamiento del 90 % y ponderación por ventana de Hanning, y se calcularon los valores eficaces en bandas de 15 Hz alrededor de las frecuencias centrales correspondientes a cada caracterı́stica. Esto, aplicado a unos 450 segundos de muestras, generó 9150 datos. Con estos datos se entrenó un SOM de 100 × 100. 7.2.3. Aplicación del modelo El primer paso después del entrenamiento, normalmente, es etiquetar el SOM aprovechando las muestras controladas disponibles. En este caso se disponı́a de muestras controladas para todas las situaciones consideradas. En 1 Evidentemente, la condición de parado con desequilibrio es idéntica a la de sin desequilibrio. 102 CAPÍTULO 7. RESULTADOS Caracterı́stica Temperatura Armónico 25 Hz vibración eje X Armónico 50 Hz vibración eje X Armónico 75 Hz vibración eje X Armónico 100 Hz vibración eje X Armónico 25 Hz vibración eje Y Armónico 50 Hz vibración eje Y Armónico 75 Hz vibración eje Y Armónico 100 Hz vibración eje Y Armónico 25 Hz vibración eje Z Armónico 50 Hz vibración eje Z Armónico 75 Hz vibración eje Z Armónico 100 Hz vibración eje Z Armónico 50 Hz corriente fase R Armónico 50 Hz corriente fase R Nombre largo Temperatura X 25Hz X 50Hz X 75Hz X 100Hz Y 25Hz Y 50Hz Y 75Hz Y 100Hz Cojinetes 25Hz Cojinetes 25Hz Cojinetes 25Hz Cojinetes 25Hz Corriente R 50Hz Corriente S 50Hz Nomb. abreviado T X25 X50 X75 X100 Y25 Y50 Y75 Y100 Z25 Z50 Z75 Z100 R S Cuadro 7.2: Variables (caracterı́sticas) escogidas para el motor trifásico. la figura 7.2 pueden observarse los mapas de activación para algunas de ellas. Se puede destacar la ventaja de los mapas de activación frente a la simple proyección de trayectoria con el ejemplo de la figura 7.3. En este ejemplo aparentemente hay tantos datos en la lı́nea dispersa superior derecha como en el grupo compacto inferior izquierdo. El mapa de activación, sin embargo, revela que en el grupo compacto están la mayorı́a de los puntos, proyectados unos encima de otros. Una vez etiquetado el SOM, el mapa de distancias tiene el aspecto de la figura 7.4. En este caso concreto todavı́a habrı́a sido relativamente fácil identificar las condiciones del motor en el espacio de visualización a la vista de los planos de componentes, mostrados en la figura 7.5. Para ello bastarı́a buscar: dónde los armónicos de 100 Hz de las vibraciones se hacen altos, para encontrar los fallos de fase dónde se anulan las corrientes de cada fase, para identificar sus respectivos fallos dónde los armónicos de 25 Hz2 se hacen altos, para encontrar qué zonas corresponden a asimetrı́a mecánica en el eje. 2 Frecuencia que corresponde aproximadamente a la velocidad de giro mecánica. 7.2. MONITORIZACIÓN DE SISTEMAS EN TIEMPO REAL normal fallo R fallo S fallo T 103 Figura 7.2: Mapas de activación para varios grupos de muestras controladas del motor trifásico. 104 CAPÍTULO 7. RESULTADOS Mapa de activacion "parado y normal" Figura 7.3: Comparación entre mapa de activación y trayectoria proyectada para el motor trifásico. Mapa de distancias deseqfallo S fallo S deseq parado deseqfallo T normal deseqfallo R fallo T fallo R Figura 7.4: Mapa de distancias etiquetado para todas las condiciones conocidas del motor trifásico. 7.2. MONITORIZACIÓN DE SISTEMAS EN TIEMPO REAL 105 T X25 X50 X75 X100 Y25 Y50 Y75 Y100 Z25 Z50 Z75 Z100 R S Figura 7.5: Planos de componentes para el caso del motor trifásico. En los mapas de correlaciones aparecen algunos detalles interesantes que ilustran la utilidad de los mismos (no se representan aquı́ por ser su número muy grande). En primer lugar, es fácil identificar de un golpe de vista dónde la correlación global de un cierto signo es predominante buscando colores rojos o azules. En este caso aparecen ejemplos muy claros, con mapas de correlaciones totalmente rojos, como los de todas las combinaciones entre sı́ de X25, Y25 y Z25. Esto se detectarı́a incluso observando sus planos de componentes, que son prácticamente idénticos. En la elección de caracterı́sticas se escogieron varias de ellas aun sospechando a priori estas correlaciones totales por dos razones: 1. Esta redundancia de información facilita la detección de fallos en sensores. 2. Para conseguir un número de caracterı́sticas suficiente para el buen funcionamiento de los residuos. Aun existiendo el problema de la dimensionalidad, es necesario un cierto número mı́nimo de caracterı́sticas para que se cumpla la hipótesis del apartado 5.4. En la figura 7.6(a) se muestra un representación de puntos dispersos de las caracterı́sticas Y100 y Z100, donde aparecen dos comportamientos claramente diferenciados: uno con correlaciones dudosas y otro con correlación claramente positiva. En la figura 7.6(b) adyacente, el mapa de correlaciones Y100 Z100 indica claramente a qué condiciones del motor corresponden 106 CAPÍTULO 7. RESULTADOS Y100 Z100 (a) Representación de puntos de los datos (b) Mapa de correlaciones locales para el armónico de 100 Hz de la vibración entre el armónico de 100 Hz de la Y frente al de la Z. vibración Y y el mismo de la Z. Figura 7.6: Comparación de los mapas de correlaciones con un representación de puntos dispersos para el motor trifásico. esas dos diferentes situaciones: la primera, a las condiciones con asimetrı́a mecánica en el eje y la segunda, al resto de condiciones. Con datos de prueba tomados para todas las situaciones consideradas, pero a temperaturas mayores que los datos de entrenamiento, se comprobó que el modelo era capaz de reconocer las situaciones que se le presentaban y además avisaba, con el residuo de la temperatura, de que ésta era mayor de lo normal. Esta situación se muestra en la figura 7.7, directamente en una captura de pantalla de la aplicación MAPREX. 7.3. Data Mining de procesos industriales 7.3.1. Descripción del proceso Para mostrar algunas de las posibilidades de las técnicas de Data Mining Visual aplicada a procesos se utilizará el ejemplo de un motor de continua en un tren de laminación en caliente de Arcelor, que tiene las caracterı́sticas mostradas en el cuadro 7.3. Se dispone de cuatro variables: corriente de campo if , corriente de inducido ia , velocidad ω y tensión de inducido Va . 7.3. DATA MINING DE PROCESOS INDUSTRIALES 107 Figura 7.7: Captura de pantalla de MAPREX mostrando residuos para las mismas condiciones del entrenamiento pero a mayor temperatura para el motor trifásico en laboratorio. 108 CAPÍTULO 7. RESULTADOS Potencia: Tensión de inducido nominal: Corriente de inducido nominal: Corriente de campo nominal: Velocidad nominal: Velocidad máxima: Localización: Caja: 6000 kW 700 V 9000 A 150 A 180 rpm 360 rpm Tren acabador en caliente F2 Cuadro 7.3: Caracterı́sticas del motor de continua. BOBINA A B C D E F TIEMPO 15:44:48 15:46:41 15:48:53 15:50:47 15:53:04 15:54:44 ESPESOR 1.73 1.73 4.02 4.02 4.02 1.55 ANCHO 1010 1010 1010 1010 1010 1010 ACERO B085G99 B085G99 B012F53 B012F53 B012F55 B011B99 LIM. ELÁST. 32 32 22 22 22 24 Cuadro 7.4: Etiquetas y propiedades de las seis bobinas laminadas. 7.3.2. Obtención del modelo Se dispone de datos que corresponden a la laminación de seis bobinas (ver cuadro 7.4), divididos en varios segmentos que se etiquetan con una letra que indica el segmento (a, b, . . . , f), dos caracteres que indican o bien inicio de laminación (il), o bien los diferentes segmentos durante la laminación (l1, l2, . . . ), o bien final de laminación (fl). Los caracteres sb significan “sin banda”. Con los datos procedentes de esas seis bobinas, se entrenó un SOM de 10×10, que por retroproyección se convirtió a 50 × 50. 7.3.3. Aplicación del modelo Observando los planos de componentes de la figura 7.8, una persona que conozca este proceso de laminación reconocerá en el espacio de visualización zonas como dónde está laminando y dónde está el tren en vacı́o, dónde funciona a velocidad superior a la nominal y dónde a velocidad inferior, etc. Es posible también representar planos de variables que no fueron introducidas en el SOM, pero que se pueden obtener de las que sı́ lo fueron, como por ejemplo, en este caso (figura 7.9), el par generado por el motor Te = K · ia · if , donde K es una constante, que no hace falta para representar el plano por 7.3. DATA MINING DE PROCESOS INDUSTRIALES Corriente de inducido Tensión de inducido Corriente de campo Velocidad 109 Figura 7.8: Planos de componentes para el motor de continua del tren de laminación. Par 4 x 10 1.5 1 0.5 0 −0.5 −1 Figura 7.9: Plano de par, variable que no interviene en el entrenamiento del SOM. 110 CAPÍTULO 7. RESULTADOS sb6 dfl ffl_ sb3 sb2 bfl_ sb4 sb5 bl3 bl2 cfl al4 al3 dfl bfl bl5 bl6 bl4 bl7 al6 fil afl efl__ bl7_ al5 fl8 fl7 fl5 efl___ cl8 efl_ dl8 sb1 el6 efl eil fl2 el5 fl1 el4 dl3 el3’ dl6 el1 dl1 cl2 dl2 fl6 ffl al1 dl7 cl6 cl1 fl3 al2 ail dil cil dfl2 sb6 bl1 cl7 dl5 cl5 cl3 dl4 el2 el3 cl4 (a) Mapa de activación correspondiente a (b) Mapa de distancias etiquetado y con sb6. trayectoria de fin de laminación d. Figura 7.10: Etiquetado del espacio de visualización en el caso del tren de laminación. ser la codificación en color relativa. Este plano es útil, en el caso que nos ocupa, para diferenciar más claramente dónde el tren está laminando (par mayor que cero) y dónde no (par alrededor de cero y negativo). Se dispone de datos etiquetados (muestras controladas) puesto que los datos están divididos en segmentos, identificados como se explicó antes, por lo que es posible etiquetar sus correspondientes zonas en el espacio de visualización usando mapas de activación. En la figura 7.10(a) se muestra el mapa de activación para los datos etiquetados como sb6, y en la figura 7.10(b) el resultado de etiquetar las zonas de todos los segmentos sobre el mapa de distancias, junto con la trayectoria correspondiente al tramo dfl. Lo que primero se observa es que las laminaciones de las bobinas a y b son muy parecidas entre sı́, ası́ como las bobinas c, d y e. La bobina f se encuentra en una situación intermedia, pero más parecida a las a y b. Esto concuerda con lo que se puede observar en el cuadro 7.4 en cuanto a espesor objetivo y tipo de acero. La información que proporciona el conocimiento de ecuaciones puede ser incorporada al mapa por medio de los mapas de modelos. Las ecuaciones para un motor de continua son conocidas y una de ellas es la siguiente: Va = Ra · ia + La dia + K · if · ω dt (7.1) Si por ejemplo se pretende identificar la zona correspondiente al control de velocidad por tensión de inducido, es un caso particular de la ecuación (7.1), donde la corriente de inducido y la de campo son constantes, y la derivada 7.3. DATA MINING DE PROCESOS INDUSTRIALES residuo zona par máximo 800 500 700 Va (V) 111 400 600 300 500 200 400 100 300 0 −100 200 −200 100 −300 0 −400 −100 0 50 100 ω (r.p.m.) 150 200 250 −500 (a) Modelo del motor para zona de par (b) Mapa del modelo de la zona de par máximo. máximo. Figura 7.11: Mapa de modelo para motor de continua. se anula al considerar régimen permanente. No se dispone de los parámetros de la ecuación, pero se pueden estimar de los datos. Ası́, se puede hallar la recta de regresión que se representa en la figura 7.11(a), y que resulta ser: f (Va , ω) = Va − 4,08ω + 4,23 = 0 (7.2) A partir de esta ecuación es inmediato hallar el mapa del modelo que se presenta en la figura 7.11(b)3 . La zona verde, con residuo nulo, corresponde con la del funcionamiento del motor según el modelo dado por la ecuación (7.2). En cuanto a los mapas borrosos, el primer ejemplo podrı́a ser la estimación de una variable cualitativa. Como en este caso no surge claramente ninguna variable de carácter tı́picamente cualitativo, a efectos de comparación se usará la variable velocidad ω. Se pueden extraer inmediatamente unas reglas de los siguientes hechos relacionados con el funcionamiento del motor de continua y del control con debilitamiento de campo: 1. Cuanto más alta es la tensión de inducido, más alta es la velocidad. 2. Cuanto más baja es la corriente de campo, más alta es la velocidad. 3. Por debajo de la velocidad nominal, la corriente de campo se mantiene a su valor nominal. 4. Por encima de la velocidad nominal, la tensión de inducido se mantiene a su valor nominal. 3 Esto mismo se puede deducir de los planos de componentes de la velocidad, la corriente de campo o la tensión de inducido. 112 CAPÍTULO 7. RESULTADOS Mapa borroso: Velocidad Mapa borroso: Laminando cierto alta media baja falso Figura 7.12: Mapas borrosos para el caso del tren de laminación. y las reglas que surgen de este conocimiento son: SI (Va ES alta) Y (If ES baja) ENTONCES (Velocidad ES muy-alta) SI (Va ES alta) Y (If ES media) ENTONCES (Velocidad ES alta) SI (Va ES alta) Y (If ES alta) ENTONCES (Velocidad ES media) SI (Va ES media) Y (If ES alta) ENTONCES (Velocidad ES baja) SI (Va ES baja) Y (If ES alta) ENTONCES (Velocidad ES muy-baja) De esas reglas se obtiene el mapa borroso de la figura 7.12 (izquierda), que se puede ver que coincide en gran medida con el plano de componente de la velocidad. Otro ejemplo es el mapa borroso mostrado en la 7.12 (derecha), que sirve para delimitar claramente las zonas donde el tren se encuentra laminando, y que se obtiene de las reglas: SI (Va NO ES baja) Y (Ia ES alta) ENTONCES (Laminando ES si) SI (Va NO ES baja) Y (Ia ES media) ENTONCES (Laminando ES si) SI (Va ES baja) O (Ia ES negativa) ENTONCES (Laminando ES no) SI (Va ES baja) O (Ia ES cero) ENTONCES (Laminando ES no) Las funciones de pertenencia usados en ambos mapas borrosos se encuentran representados en la figura 7.13. En lo relativo al análisis de las relaciones de dependencia entre variables, si se observan detenidamente los planos de componentes de la figura 7.8 se puede apreciar que el plano de la velocidad es el “negativo” del plano de la corriente de campo excepto para las regiones donde la tensión de inducido baja de su valor nominal. Puede llegarse a esta misma conclusión de un solo vistazo al mapa de correlaciones correspondiente en la figura 7.14. También 7.3. DATA MINING DE PROCESOS INDUSTRIALES alta negativa 1 0.8 0.6 0.4 0.2 0 alta baja 1 0.8 0.6 0.4 0.2 0 200 400 Va 600 no 0.8 0.6 0.4 0.2 0 −2 0 Ia 0 Laminando 1 2 0.6 0.4 0.2 40 funcionando 0.8 0.6 0.4 0.2 0 −1 alta 0.8 5000 no−funcionando 1 Degree of membership si 1 media 0 −5000 −2 1 Degree of membership 0 Degree of membership cero media Degree of membership media Degree of membership Degree of membership baja 1 113 60 80 100 Ifi muy−baja baja media 120 140 alta muy−alta 0.8 0.6 0.4 0.2 0 −1 0 Control 1 2 −1 0 1 2 3 Velocidad 4 5 Figura 7.13: Funciones de pertenencia para el caso del tren de laminación. puede observarse la correlación directa (positiva) entre la tensión de inducido Va y la velocidad ω en la región complementaria de la anterior, y lo que puede considerarse una no correlación global entre la tensión de inducido Va y la corriente de campo if . Todas estas relaciones son fruto del control con debilitamiento de campo del motor. Otras correlaciones como la globalmente positiva entre ia y Va se ven claramente reflejadas en la ecuación del motor (7.1) También es posible establecer hipótesis acerca del proceso por medio de los residuos cuando se aplica a datos de condiciones no presentes en los datos de entrenamiento. Las figuras 7.15 y 7.16 muestran parte de la laminación de una bobina con acero B085G99 y espesor objetivo 4,06 que no está presente en los datos de entrenamiento. De la proyección de la trayectoria de estado se puede deducir que esta laminación se parece más a las c, d y e. Sin embargo el vector de residuos revela algunas diferencias de esta nueva laminación con respecto a las mencionadas en las primeras muestras. La nueva situación se proyecta en la frontera entre sb6, cl1 y dl1. Ya que esa es una zona de altas distancias neuronales, la condición señalada por el SOM parece ser una situación intermedia resultante de la interpolación de dichas condiciones, y respecto a las cuales la corriente de inducido es ahora más alta y la corriente de campo es ligeramente más baja. 114 CAPÍTULO 7. RESULTADOS ia ia ia Va 1 1 0 Va ia −1 −1 Va Va 1 1 f a −1 i V f 1 a 1 0 ω ia 0 0 −1 ω Va 1 1 i ω f 1 0 1 −1 1 0 −1 ω if −1 0 −1 f f 0 −1 Va ω 1 i i 1 0 −1 Va if 0 −1 ia ω 1 0 0 i i ia if ωω 1 −1 1 0 0 0 0 −1 −1 −1 −1 Figura 7.14: Mapas de correlaciones para el motor de continua del tren de laminación. Ia Va If w 50 100 150 200 250 300 Tiempo (muestras) 350 400 450 500 Figura 7.15: Residuos de la laminación de prueba. 7.3. DATA MINING DE PROCESOS INDUSTRIALES 115 datos de prueba de laminación 0 5 10 15 20 25 30 35 40 45 0 5 10 15 20 25 30 35 40 45 Figura 7.16: Trayectoria sobre el mapa de distancias de la laminación de prueba. 116 CAPÍTULO 7. RESULTADOS Capı́tulo 8 Conclusiones 8.1. Conclusiones En esta tesis se propone un enfoque visual para supervisión de procesos, aplicando técnicas de visualización más allá de la simple monitorización mediante representación de la evolución de sus variables o los espectros de sus señales. Ası́, se describe la aplicación de técnicas de reducción de la dimensión para proyectar datos del proceso, con multitud de variables, en un espacio visualizable y cómo posteriormente se “cartografı́a” este espacio, relacionando cada zona con cada condición del proceso, pudiendo usar para este fin conocimiento expresable en forma de reglas difusas (mapas borrosos), modelos analı́ticos conocidos (mapas de modelos), casos conocidos —datos etiquetados— (mapas de activación) y correlaciones entre variables (mapas de correlaciones). Este enfoque también hace posible la extracción de nuevo conocimiento acerca del proceso (Data Mining) a través de este espacio de visualización, dejando todavı́a la puerta abierta a numerosas ideas dentro de esta misma lı́nea. Como ventaja de este enfoque frente a otros métodos automáticos de diagnóstico se puede mencionar la total claridad en la exposición de los mecanismos de inferencia durante el diagnóstico de fallos, puesto que ello es realizado en última instancia por un ser humano, al que, por medio de sofisticados métodos de visualización, se le ha facilitado enormemente la tarea de comprender los datos procedentes del proceso supervisado. El enorme potencial del enfoque de la visualización para la supervisión de procesos se debe a varias razones: Explota las capacidades pre-atención (pre-attentive) del ser humano, consiguiendo una transmisión instantánea de la información proveniente del proceso, de forma que se toma conocimiento de eventos ocurridos 117 118 CAPÍTULO 8. CONCLUSIONES en él sin la necesidad de la participación del razonamiento. Se adapta a la forma visual de razonar de las personas, lo que permite extraer nuevo conocimiento acerca del proceso fácilmente. Permite la homogeneización de muy diversas formas de conocimiento del ser humano a través de una representación visual unificada que permite conectar conceptos. 8.2. Aportaciones Son varias las aportaciones de esta tesis: Un enfoque visual global para la supervisión de procesos, que propone extender la aplicación de las técnicas de visualización a todos los ámbitos posibles de la supervisión de procesos, usándolas para homogeneizar conocimiento de diversos orı́genes y formas. Ası́, se han añadido nuevas técnicas a las propuestas parciales ya existentes en la aplicación de técnicas de visualización a la supervisión. Esto incluye la representación visual en un espacio común de modelos del proceso procedentes de dos formas de conocimiento: reglas, generalmente deducidas de la experiencia, y ecuaciones explı́citas, provenientes del conocimiento de leyes de la fı́sica. Esta idea se presentó en [22], para el 37th Annual IEEE Industry Applications Society Meeting, IAS’02. La primera de estas formas propuestas para representación de conocimiento se refiere a los mapas borrosos o mapas de inferencia borrosos, descritos en el apartado 4.5.5, que permiten representar en el plano de visualización aquellos estados del proceso que pueden expresarse en términos de reglas sencillas que relacionan las caracterı́sticas del proceso. Los mapas borrosos fueron presentados en [21], para la Second Conference of the European Society for Fuzzy Logic and Technology, EUSFLAT 2001. El segundo de los métodos propuestos para representación de conocimiento corresponde con los mapas de modelos (analı́ticos), abordados en el apartado 4.5.6, que permiten representar en el plano de visualización los estados que se ajustan a ecuaciones explı́citas que relacionan las caracterı́sticas del proceso. Los mapas de modelos fueron presentados en [27], en International Federation of Automatic Control 15th IFAC World Congress. 8.2. APORTACIONES 119 En esta tesis se definen las correlaciones locales, una forma de calcular correlaciones en distintas zonas del espacio de los datos que aporta una descripción local de las propiedades estadı́sticas de segundo orden. Esto hace idónea su aplicación para la descripción de conjuntos de datos con dependencias no lineales, tales como los generados por procesos no lineales en distintos puntos de funcionamiento. Las correlaciones locales constituyen propiedades locales en el espacio de entrada que admiten representación en el espacio de visualización. Como consecuencia de ello, se propone otra técnica que permite extraer nuevo conocimiento e identificar nuevos estados a través de la visualización en el “mapa del proceso” de las correlaciones existentes entre las variables del proceso para todos sus puntos de funcionamiento. Esa idea, constituida por los mapas de correlaciones, descritos en el apartado 4.5.7, fue presentada en [25], en la International Conference on Artificial Neural Networks (ICANN’02), y posteriormente aparece publicada en Lecture Notes in Computer Science. Por otro lado, aunque se ha hecho hincapié en el uso de técnicas de proyección concretas (SOM, KR-SOM, GTM), en el apartado 4.3 y en el capı́tulo 5 se han dado unas pautas que facilitan la elección de otras técnicas de proyección tanto para la visualización (apdo. 4.3) como para la generación de residuos (cap. 5), haciendo un estudio y enumerando una serie de propiedades deseables en una técnica de proyección con vistas a supervisión y Data Mining Visual. Otra de las propuestas de esta tesis es una formalización, en el capı́tulo 6, del uso de técnicas de visualización aplicadas a supervisión en términos de una metodologı́a estándar de Data Mining (CRISPDM). Finalmente todas estas aportaciones se han completado con una implementación software real de este paradigma de supervisión por medio de técnicas de Data Mining Visual, la aplicación MAPREX, descrita en el capı́tulo 6, cuyas posibilidades se han visto potenciadas por el uso de un sistema hardware (computador) portable, que permite la implantación inmediata de un sistema de supervisión polivalente, permanente o no, en cualquier lugar de la planta. El sistema MAPREX fue presentado en [20], en International Federation of Automatic Control 15th IFAC World Congress. 120 CAPÍTULO 8. CONCLUSIONES 8.3. Lı́neas futuras Existen todavı́a muchas lı́neas abiertas en el enfoque visual para supervisión de procesos: Todavı́a hay propiedades encerradas en la forma del subespacio topológico —que representa al proceso en el espacio de caracterı́sticas— que podrı́an ser representadas en el espacio de visualización. Un ejemplo serı́an los valores propios de las matrices de correlaciones locales, que pueden desvelar la dimensionalidad intrı́nseca del proceso también de forma local. La generación de residuos a partir de modelos en datos todavı́a presenta muchas incógnitas. Entre las posibles vı́as de investigación serı́a cómo puede eliminarse la hipótesis de la alta dimensionalidad del espacio de caracterı́sticas o un método de cálculo exacto del vector de fallo aditivo. Otra lı́nea en las que las técnicas de visualización se revelan prometedoras es el diseño de sensores virtuales. El Grupo de Visualización de Procesos Complejos del Área de Ingenierı́a de Sistemas y Automática de la Universidad de Oviedo ha abordado en más de un proyecto el diseño de sensores virtuales [73], para lo cual también se están comenzando a aplicar estas técnicas de Data Mining Visual, y que están demostrando un gran potencial aplicadas a todos los pasos del diseño: para la verificación de los datos, la comprensión de los mismos, para la selección de caracterı́sticas, para la evaluación del sensor virtual, etc. Algunas de las aportaciones de esta tesis no han tenido todavı́a implementación en un sistema como MAPREX: mapas de modelos, mapas borrosos. Queda, por tanto, como lı́nea futura la verificación de su utilidad on line sobre un proceso real. La única forma en la que se ha considerado la información dinámica en las señales, tanto respecto a desarrollo teórico como a implementación en MAPREX, ha sido en las caracterı́sticas espectrales. Se podrı́a pensar en considerar la dinámica de las señales en forma de derivadas, principalmente pensando en la realización de mapas de modelos de ecuaciones diferenciales (o en diferencias). Es posible complementar las técnicas de visualización con las técnicas totalmente automáticas de supervisión. No está todavı́a implementada en MAPREX una etapa posterior con técnicas puramente automáticas de machine learning que evita la atención continua de un operario sobre 8.3. LÍNEAS FUTURAS 121 el sistema de monitorización. El enfoque visual aportarı́a la flexibilidad que proporcionan los resultados fácil y completamente interpretables por un ser humano, y que le permitirı́a contradecir en última instancia los diagnósticos del sistema automático si no está de acuerdo con ellos, además de tratar los casos que no han sido considerados en dicho sistema automático. 122 CAPÍTULO 8. CONCLUSIONES Apéndice A Nomenclatura x y Smi →gi Sgi →mi gi mi mij {xk }k=1,...,K Ai c(k) φ hij τ (gi ) f (x) i wk (y) Punto en el espacio de caracterı́sticas. Vector de caracterı́sticas. Punto en el espacio de visualización. Proyección del espacio de caracterı́sticas al espacio de visualización. Proyección del espacio de visualización al espacio de cracterı́sticas. Puntos de rejilla regular en el espacio de visualización. Puntos correspondientes a los gi en el espacio de caracterı́sticas. Componente j del vector mi . Conjunto de muestras en el espacio de caracterı́sticas. Valores del mapa de activación correspondientes a los puntos gi del espacio de visualización. Neurona ganadora del SOM para el dato xk . Función base radial. Función escalar de núcleo de campo receptivo en la posición de la neurona j respecto a la neurona i. Valor de mapa borroso en el punto gi del espacio de visualización. Modelo (parcial) del proceso (analı́tico o FIS) función del vector de caracterı́sticas. Residuo del modelo f en el punto gi del espacio de caracterı́sticas. También residuo del modelo fi . Ponderación del punto xk para el cálculo de media y matriz de covarianzas locales en el punto y del espacio de visualización. 123 124 σ µ(y) C(y) cij R(y) rij x̂ S(x) e ξ if ia Va Te ω Ra La APÉNDICE A. NOMENCLATURA Ancho de funciones de núcleo (funciones base radiales) como Φ y wk . Media local en el punto y del espacio de visualización. Matriz de covarianzas locales en el punto y del espacio de visualización. Elementos de la matriz C(y). Matriz de correlaciones locales en el punto y del espacio de visualización. Elementos de la matriz R(y). Residuo vectorial. Vector de caracterı́sticas estimado por un modelo. Modelo basado en datos (concretamente por medio de técnica de proyección). Error de modelado, equivalente a kk. Variable aleatoria que genera los valores del vector de caracterı́sticas cuando se usa un modelo probabilı́stico del proceso. Corriente de campo. Corriente de inducido. Tensión de inducido. Par generado por el motor eléctrico. Velocidad angular de giro. Resistencia del bobinado de inducido. Inductancia del bobinado de inducido. Bibliografı́a [1] Esa Alhoniemi, Johan Himberg y Juha Vesanto. Probabilistic measures for responses of self-organizing map units. En H. Bothe, E. Oja, E. Massad y C. Haefke, editores, International ICSC Congress on Computational Intelligence Methods and Applications (CIMA ’99), páginas 286–290. ICSC Academic Press, 1999. [2] Neil Arthur y Jim Penman. Induction machine condition monitoring with higher order spectra. IEEE Transactions on Industrial Electronics, 47(5):1031–1041, octubre 2000. [3] Peter Ballé y Rolf Isermann. Fault detection and isolation for nonlinear processes based on local linear fuzzy models and parameter estimation. En Proceedings of the American Control Conference, páginas 1605– 1609. Philadelphia, Pennsylvania, 1998. [4] Michèle Basseville y Igor V. Nikiforov. Detection of Abrupt Changes: Theory and Application. Prentice-Hall, 1993. [5] Hans-Ulrich Bauer y Klaus R. Pawelzik. Quantifying the neighborhood preservation of self-organizing feature maps. IEEE Transactions on Neural Networks, 3(4):570–579, julio 1992. [6] R. Beguenane. Induction motors thermal monitoring by means of rotor resistance identification. IEEE Transactions on Energy Conversion, 14(3):566–570, septiembre 1999. [7] R. Bellman. Adaptive Control Processes: A Guided Tour . Princeton University Press, New Jersey, 1961. [8] Mohamed El Hachemi Benbouzid. A review of induction motors signature analysis as a medium for faults detection. IEEE Transactions on Industrial Electronics, 47(5):984–993, octubre 2000. 125 126 BIBLIOGRAFÍA [9] Giovanni Betta y Antonio Pietrosanto. Instrument fault detection and isolation: State of the art and new research trends. IEEE Transactions on Instrumentation and Measurement, 49(1):100–107, febrero 2000. [10] Ella Bingham y Heikki Mannila. Random projection in dimensionality reduction: applications to image and text data. En 7th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD-2001 , páginas 245–250. San Francisco, CA, USA, 2001. [11] C. Bishop, M. Svensén y C. Williams. Magnification factors for the GTM algorithm. En IEE Fifth International Conference on Artificial Neural Networks, páginas 64–69. Cambridge, U.K., julio 1997. [12] Christopher M. Bishop. Neural Networks for Pattern Recognition. Oxford University Press, 1995. [13] Christopher M. Bishop, Markus Svensen y Christopher K. I. Williams. GTM: The generative topographic mapping. Neural Computation, 10(1):215–234, 1998. [14] Piero P. Bonissone, Yu-To Chen, Kai Goebel y Pratap S. Khedkar. Hybrid soft-computing systems: Industrial and commercial applications. Proceedings of the IEEE , 87(9):1641–1667, septiembre 1999. [15] Stuart K. Card, Jock D. MacKinlay y Ben Shneiderman. Readings in Information Visualization: Using Vision To Think . Morgan Kaufmann Publishers, San Francisco, 1998. [16] Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer y Rüdiger Wirth. CRISP-DM 1.0, stepby-step data mining guide. http://www.crisp-dm.org, 2000. [17] Tommy W.S. Chow y Hong-Zhou Tan. HOS-based nonparametric and parametric methodologies for machine fault detection. IEEE Transactions on Industrial Electronics, 47(5):1051–1059, octubre 2000. [18] Albert Cohen y Jelena Kovačević. Wavelets: The mathematical background. Proceedings of th IEEE , 84(4):514–522, abril 1996. [19] Pierre Comon. Independent Component Analysis, a new concept ? Signal Processing, 36(3):287–314, abril 1994. Special issue on HigherOrder Statistics. BIBLIOGRAFÍA 127 [20] Abel A. Cuadrado, Ignacio Dı́az, Alberto B. Diez, Manuel Domı́nguez, Juan A. González y Faustino Obeso. MAPREX: A SOM-based condition monitoring system. En International Federation of Automatic Control 15th IFAC World Congress. Barcelona, Spain, 2002. [21] Abel A. Cuadrado, Ignacio Dı́az, Alberto B. Diez, Faustino Obeso y Juan A. González. Fuzzy inference maps for condition monitoring with self-organizing maps. En Second Conference of the European Society for Fuzzy Logic and Technology, EUSFLAT 2001 , páginas 55–58. Leicester, UK, 2001. [22] Abel A. Cuadrado, Ignacio Dı́az, Alberto B. Diez, Faustino Obeso y Juan A. González. Visual data mining and monitoring in steel processes. En 37th Annual IEEE Industry Applicatons Society (IAS) Meeting, páginas 493–500. Pittsburgh, PA, USA, 2002. [23] Pierre Demartines y Jeanny Herault. Curvilinear component analysis: a self-organizing neural network for nonlinear mapping of data sets. IEEE Transactions on Neural Networks, 8(1):148–154, enero 1997. [24] Duane DeSieno. Adding a conscience to competitive learning. En Proc. ICNN’88, Int. Conf. on Neural Networks, páginas 117–124. IEEE Service Center, Piscataway, NJ, 1988. [25] Ignacio Dı́az, Abel A. Cuadrado y Alberto B. Diez. Correlation visualization of high dimensional data using topographic maps. En International Conference on Artificial Neural Networks, ICANN’02 (Madrid, Spain), Lecture Notes in Computer Science vol. 2415 , páginas 1005– 1010. Springer, 2002. [26] Ignacio Dı́az, Alberto B. Diez y Abel A. Cuadrado. Complex process visualization through continuous self organizing maps using radial basis functions. En International Conference on Artificial Neural Networks, ICANN’01, (Viena, Austria), Lecture Notes in Computer Science vol. 2130 , páginas 443–450. Springer, 2001. [27] Ignacio Dı́az, Alberto B. Diez, Abel A. Cuadrado y Manuel Domı́nguez. Prior knowledge integration in self organizing maps for complex process supervision. En International Federation of Automatic Control 15th IFAC World Congress. Barcelona, Spain, 2002. [28] Ignacio Dı́az, Alberto B. Diez, Abel A. Cuadrado, Armandino Fombona, Faustino Obeso y Juan A. González. Kernel regression interpolation 128 BIBLIOGRAFÍA in SOM-based process condition monitoring. En DIAGNOS’2000 . La Habana, 2000. [29] Ignacio Dı́az, Alberto B. Diez González, Abel A. Cuadrado Vega y José M. Enguita González. RBF approach for trajectory interpolation in self-organizing map based condition monitoring. En J.M. Fuertes, editor, Proceedings of the 7th IEEE International Conference on Emerging Technologies and Factory Automation (ETFA’99), páginas 1003–1010. UPC, Barcelona, Catalonia, Spain, 1999. [30] Ignacio Dı́az y Jaakko Hollmén. Residual generation and visualization for understanding novel process conditions. En International Joint Conference on Neural Networks (IJCNN, WCCI’2002). Honolulu, Hawaii, USA, 2002. [31] Ignacio Dı́az Blanco. Detección e Identificación de Fallos en Procesos Industriales Mediante Técnicas de Procesamiento Digital de Señal y Redes Neuronales. Aplicación al Mantenimiento Predictivo de Accionamientos Eléctricos. Tesis Doctoral, Universidad de Oviedo, 2000. [32] Richard O. Duda, Peter E. Hart y David G. Stork. Pattern Classification. Wiley-Interscience, 2000. [33] Alberto J. Ferrer Riquelme. Aplicación del control estadı́stico multivariante. Automática e Instrumentación, (326):62–72, febrero 2002. [34] Fiorenzo Filippetti, Giovanni Franceschini, Carla Tassoni y Peter Vas. Recent developments of induction motor drives fault diagnosis using AI techniques. IEEE Transactions on Industrial Electronics, 47(5):994– 1004, octubre 2000. [35] Kenneth D. Forbus. Qualitative process theory. Artificial Intelligence, 24:85–168, 1984. [36] Toshio Fukuda y Takanori Shibata. Theory and applications of neural networks for industrial control systems. IEEE Transactions on industrial electronics, 39(6):472–489, diciembre 1992. [37] J.J. Gertler. Survey of model-based failure detection and isolation in complex plants. IEEE Control Systems Magazine, 8(6):3–11, diciembre 1988. [38] J.J. Gertler. An evidential reasoning extension to quantitative modelbased failure diagnosis. IEEE Transactions on Systems, Man and Cybernetics, 22(2):275–289, marzo 1992. BIBLIOGRAFÍA 129 [39] Tom Harris. A Kohonen S.O.M. based, machine health monitoring system which enables diagnosis of faults not seen in the training set. En International Joint Conference on Neural Networks, IJCNN’93 (Nagoya, Japan), páginas 947–950. IEEE Service Center, Piscataway, NJ, 1993. [40] T. Hastie y W. Stuetzle. Principal curves. Journal of the American Statistical Association, 84:502–516, 1989. [41] Simon Haykin. Neural Networks, a Comprehensive Foundation. Prentice-Hall, Inc., 1999. [42] Akram Hossain, Zafar Ahmed Choudhury y Suzali Suyut. Statistical process control of an industrial process in real time. IEEE Transactions on Industry Applications, 32(2):243–249, marzo 1996. [43] A. Hyvärinen y E. Oja. Independent component analisis: algorithms and applications. Neural Networks, 13(4–5):411–430, 2000. [44] Rolf Isermann. On fuzzy logic applications for automatic control, supervision, and fault diagnosis. IEEE Transactions on Systems, Man and Cybernetics, Part A, 28(2):221–235, marzo 1998. [45] Rolf Isermann y Peter Ballé. Terminology in the field of supervision, fault detection and diagnosis. Technische Universität Darmstadt, World Wide Web. http://w3.rt.e-technik.tu-darmstadt. de/institut/terminology.en.html. [46] Rolf Isermann y Mihaela Ulieru. Integrated fault detection and diagnosis. En IEEE International Conference on Systems, Man and Cybernetics. “Systems Engineering in the Service of Humans”, tomo 1, páginas 743–748. 1993. [47] Yumi Iwasaki. Real-world applications of qualitative reasoning. IEEE Expert Intelligent Systems and their Applications, páginas 16–21, mayo 1997. [48] J.-S.R. Jang, C.-T. Sun y E. Mizutani. Neuro-Fuzzy and Soft Computing. A Computational Approach to Learning and Machine Intelligence.. Prentice Hall, 1997. [49] Samuel Kaski. Dimensionality reduction by random mapping: Fast similarity computation for clustering. En International Joint Conference on Neural Networks, IJCNN’98 , páginas 413–418. IEEE Service Center, Piscataway, NJ, Anchorage, Alaska, 1998. 130 BIBLIOGRAFÍA [50] Daniel A. Keim. Designing pixel-oriented visualization techniques: Theory and applications. IEEE Transactions on Visualization and Computer Graphics, 6(1):59–78, enero–marzo 2000. [51] Daniel A. Keim. Visual exploration of large data sets. Communications of the ACM , 44(8):39–44, agosto 2001. [52] Stuart K. Kim et al. A gene expression map for caenorhabditis elegans. Science, 293:2087–2092, septiembre 2001. [53] Teuvo Kohonen. The self-organizing map. Proceedings of the IEEE , 78(9):1464–1480, septiembre 1990. [54] Teuvo Kohonen. Self-Organizing Maps. Springer-Verlag, 1995. [55] Teuvo Kohonen, Samuel Kaski, Krista Lagus, Jarkko Salojärvi, Jukka Honkela, Vesa Paatero y Antti Saarela. Self organization of a massive document collection. IEEE Transactions on Neural Networks, 11(3):574–585, mayo 2000. [56] Teuvo Kohonen, Erkki Oja, Olli Simula, Ari Visa y Jari Kangas. Engineering applications of the self-organizing map. Proceedings of the IEEE , 84(10):1358–1384, octubre 1996. [57] Benjamin Kuipers. Qualitative simulation. Artificial Intelligence, 1986. Reprinted in Qualitative Reasoning about Physical Systems, ed. Daniel Weld and J. De Kleer, Morgan Kaufmann, 1990, p.236-260 , 26:289– 338, 1986. [58] Chin-Teng Lin y C.S. George Lee. Neural Fuzzy Systems: A NeuroFuzzy Synergism to Intelligent Systems. Prentice-Hall, 1996. [59] Yi Lu, Tie Qi Chen y Brennan Hamilton. A fuzzy system for automotive fault diagnosis: Fast rule generation and self-tuning. IEEE Transactions on Vehicular Technology, 49(2):651–660, marzo 2000. [60] Man-Wai Mak y Sun-Yuan Kung. Estimation of elliptical basis function parameters by the EM algorithm with application to speaker verification. IEEE Transactions on Neural Networks, 11(4):961–969, julio 2000. [61] Richard J. Mammone, Xiaoyu Zhang y Ravi P. Ramachandran. Robust speaker recognition. A feature-based approach. IEEE Signal Processing Magazine, páginas 58–71, septiembre 1996. BIBLIOGRAFÍA 131 [62] Jianchang Mao y Anil K. Jain. Artificial neural networks for feature extraction and multivariate data projection. IEEE Transactions on Neural Networks, 6(2):296–316, marzo 1995. [63] E.B. Martin, A.J. Morris y J. Zhang. Process perfomance monitoring using multivariate statistical process control. IEE Proc.-Control Theory Appl., 143(2):132–144, marzo 1996. [64] Andrew Craig McCormick. Cyclostationary and Higher-Order Statistical Signal Processing Algorithms for Machine Condition Monitoring. Tesis Doctoral, Department of Electronic and Electrical Engineering. University of Strathclyde, mayo 1998. [65] Jerry M. Mendel. Tutorial on higher order statistics (spectra) in signal processing and system theory: Theoretical results and some applications. Proceedings of the IEEE , páginas 278–304, 1991. [66] Sushmita Mitra y Yoichi Hayashi. Neuro fuzzy rule generation: Survey in soft computing framework. IEEE Transactions on Neural Networks, 11(3):748–768, mayo 2000. [67] A. Murray y J. Penman. Extracting useful higher order features for condition monitoring using artificial neural networks. IEEE Transactions on Signal Processing, 45(11):2821–2828, noviembre 1997. [68] Y. Nakamori y M. Ryoke. Identification of fuzzy prediction models through hyperellipsoidal clustering. IEEE Transactions on Systems, Man, and Cybernetics, 24(8):1153–1173, agosto 1994. [69] Katsuhiko Ogata. Ingenierı́a de Control Moderna. Prentice Hall, 1998. [70] R.J. Patton, C.J. Lopez-Toribio y F.J. Uppal. Artificial intelligence approaches to fault diagnosis. En IEE Colloquium on Condition Monitoring Machinery, External Structures and Health (Ref. No. 1999/034). abril 1999. [71] W. Pedrycz y H. C. Card. Linguistic interpretation of self-organizing maps. En IEEE Int. Conf. on Fuzzy Systems, páginas 371–378. IEEE Service Center, Piscataway, NJ, 1992. [72] J. Penman y A. Stavrou. Broken rotor bars: their effect on the transient performance of induction machines. IEE Procceedings on Electric Power Applications, 143(6), noviembre 1996. 132 BIBLIOGRAFÍA [73] Alberto Pintado Sánchez, Ignacio Dı́az Blanco, Abel A. Cuadrado Vega, Alberto B. Diez González, Faustino Obeso Carrera y Vanesa Lobato Rubio. Virtual sensor design for coating thickness estimation in a hot dip galvanising line based on interpolated SOM local models. En 28th Annual Conference of the IEEE Industrial Electronics Society (IECON’02). Sevilla, España, 2002. [74] Tomaso Poggio y Federico Girosi. Networks for approximation and learning. Proceedings of the IEEE , 78(9):1481–1497, septiembre 1990. [75] John G. Proakis y Dimitris G. Manolakis. Digital Signal Processing. Principles, Algorithms and Applications. Prentice Hall, 1998. [76] Mysore Ramaswamy, Sumit Sarkar y Ye-Sho Chen. Using directed hypergraphs to verify rule-based expert systems. IEEE Transactions on Knowledge and Data Engineering, 9(2):221–237, marzo–abril 1997. [77] H. Ritter. Parametrized self-organizing maps. En S. Gielen and B. Kappen, editors, ICANN93-Proceedings, páginas 568–575. Springer Verlag, Berlin, Amsterdam, 1993. [78] R. A. Roberts y C. T. Mullis. Digital signal processing. AddinsonWesley, 1987. [79] Sam T. Roweis y Lawrence K. Saul. Nonlinear dimensionality reduction by locally linear embedding. Science, 290:2323–2326, diciembre 2000. [80] Bernhard Schölkopf. Support Vector Learning. Tesis Doctoral, Technischen Universitat Berlin, septiembre 1997. [81] Bernhard Schölkopf, Christopher J.C. Burges y Alexander J. Smola, editores. Advances in Kernel Methods: Support Vector Learning. MIT Press, 1999. [82] Bernhard Schölkopf, Alexander Smola y Klaus-Robert Müller. Nonlinear component analysis as a kernel eigenvalue problem. Neural Computation, 10(5):1299–1319, 1998. [83] O. Simula y E. Alhoniemi. SOM based analysis of pulping process data. En Engineering Applications of Bio-Inspired Artificial Neural Networks. International Work-Conference on Artificial and Natural Neural Networks, IWANN’99. Proceedings, Vol.2 (Lecture Notes in Computer Science Vol.1607), páginas 567–77. Springer-Verlag, Berlin, Germany, 1999. BIBLIOGRAFÍA 133 [84] Timo Sorsa, Hiekki N. Koivo y Hannu Kovisto. Neural networks in process fault diagnosis. IEEE Transacions on Systems Man and Cybernetics, 21(4):815–849, julio–agosto 1991. [85] Donald F. Specht. A general regression neural network. IEEE Transactions on Neural Networks, 2(6):568–576, noviembre 1991. [86] Michio Sugeno y Takahiro Yasukawa. A fuzzy-logic-based approach to qualitative modeling. IEEE Transactions on Fuzzy Systems, 1(1):7–31, febrero 1993. [87] Johan Fredrik Markus Svensen. The Generative Topographic Mapping. Tesis Doctoral, Aston University, abril 1998. [88] Peter J. Tavner y James Penman. Condition Monitoring of Electrical Machines. Research Studies Press Ltd., John Wiley and Sons Inc., 1987. [89] Joshua B. Tenenbaum, Vin de Silva y John C. Langford. A global geometric framework for nonlinear dimensionality reduction. Science, 290:2319–2323, diciembre 2000. [90] Sergios Theodoridis y Konstantinos Koutroumbas. Pattern Recognition. Academic Press, 1999. [91] M. Tipping y C. Bishop. Mixtures of probabilistic principal component analyzers. Neural Computation, 11(2):443–482, 1999. [92] Zekeriya Uykan, Cüneyt Güzeliş, M. Ertugrul Çelebi y Heikki N. Koivo. Analysis of input-output clustering for determining centers of RBFN. IEEE Transactions on Neural Networks, 11(4):851–858, julio 2000. [93] Juha Vesanto. SOM-based data visualization methods. Intelligent Data Analysis, 3(2):111–126, 1999. [94] Juha Vesanto. Data Exploration Process Based on the Self-Organizing Map. Tesis Doctoral, Helsinki University of Technology, 2002. [95] Marcos R. Vescovi, Marcelo M. Lamego y Adam Farquhar. Modeling and simulation of a complex industrial process. IEEE Expert Intelligent Systems and their Applications, páginas 42–46, mayo 1997. [96] Thomas Villmann, Ralph Der, Michael Herrmann y Thomas M. Martinetz. Topology preservation in self-organizing feature maps: Exact definition and measurement. IEEE Transactions on Neural Networks, 8(2):256–266, marzo 1997. 134 BIBLIOGRAFÍA [97] Jörg Walter. PSOM network: Learning with few examples. En Proc. Int. Conf. On Robotics and Automation (ICRA) IEEE . 1998. [98] Jörg Walter y Helge Ritter. Rapid learning with parameterized selforganizing maps. Neurocomputing, 12:131–153, 1996. [99] Zhenyuan Wang, Yilu Liu y Paul J. Griffin. Neural net and expert system diagnose transformer faults. IEEE Computer Applications in Power , páginas 50–55, enero 2000. [100] Paul J. Werbos. Neurocontrol and elastic fuzzy logic: Capabilities, concepts, and applications. IEEE Transactions on Industrial Electronics, 40(2):170–180, abril 1993. [101] James R. Whiteley y James F. Davis. Qualitative interpretation of sensor patterns. IEEE Expert, páginas 54–63, abril 1993. [102] Bernard Widrow. 30 years of adaptive neural networks: Perceptron, madaline, and backpropagation. Proceedings of the IEEE , 78(9):1415– 1440, septiembre 1990. [103] David J. H. Wilson y George W. Irwin. RBF principal manifolds for process monitoring. IEEE Transactions on Neural Networks, 10(6):1424–1434, noviembre 1999. [104] Seongkyu Yoon y John F. MacGregor. Fault diagnosis with multivariate statistical models part I: using steady state fault signatures. Journal of Process Control , 11:387–400, 2001. [105] Alexander Ypma y Robert P.W. Duin. Novelty detection using selforganizing maps. En International Conference on Neural Information Processing (ICONIP’97), páginas 1322–1325. Dunedin, New Zealand, 1997.