Supervisión de Procesos Complejos mediante Técnicas de Data

Universidad de Oviedo Departamento de Ingenierı́a Eléctrica, Electrónica, de Computadores y Sistemas Tesis Doctoral Supervisión de Procesos Complejos mediante Técnicas de Data Mining con Incorporación de Conocimiento Previo Abel Alberto Cuadrado Vega Noviembre 2002 2 Universidad de Oviedo Departamento de Ingenierı́a Eléctrica, Electrónica, de Computadores y Sistemas TESIS SUPERVISIÓN DE PROCESOS COMPLEJOS MEDIANTE TÉCNICAS DE DATA MINING CON INCORPORACIÓN DE CONOCIMIENTO PREVIO Memoria presentada para la obtención del grado de Doctor por la Universidad de Oviedo Autor: Abel Alberto Cuadrado Vega Directores: Alberto B. Diez González Ignacio Dı́az Blanco Gijón, Noviembre de 2002 4 Agradecimientos Este trabajo sólo ha podido salir adelante con la inestimable ayuda y apoyo incondicional de mis directores, Alberto Diez e Ignacio Dı́az. Muchas gracias por darme esta oportunidad, por enseñarme, por orientarme, y por proporcionarme proyectos tan interesantes durante estos cuatro años. Una gran parte de la “culpa” de que, después varios años de agotadora carrera, recuperara la ilusión inicial por hacer Ingenierı́a Industrial el mismo dı́a que empecé el proyecto fin de carrera la tiene Nacho (bueno, unos meses después; ese dı́a concretamente me dejó a cuadros). Desde entonces, cada dı́a me contagia con su entusiasmo por descubrir cosas nuevas. Gracias a toda la gente del Área de Ingenierı́a de Sistemas y Automática (incluidos los que ya no están): desde proyectantes, becarios, PAS, profesores, hasta el mismo Director del Departamento, Guillermo Ojea. No podrı́a haberme imaginado un lugar de trabajo mejor. Gracias a Alberto Diez y a Juan Carlos Álvarez por darme unas pistas de lo que es la vida real; a Hilario López, por inspirarme la idea de hacer esta carrera; a Diego Álvarez y a Juan Manuel Guerrero, porque nos ha tocado seguir caminos paralelos desde que empezamos la carrera allá por el 91, y muchas veces me han servido de referencia y me han echado una mano cuando me hacı́a falta; a Alfonso Fernández de Lera por hacer que pasar la jornada entera en el campus sea más ameno; Gracias a Felipe González, Alfonso Fernández Vázquez, Alberto Pintado y Eva Janeiro, por trabajar tan duramente conmigo en diferentes proyectos (y a Pablo Garcı́a, que encima me ha prestado una pedalera para la guitarra). Gracias a todos, porque quisiera nombrar uno a uno, y hacer más menciones especiales, pero ni hay espacio ni vienen a cuento aquı́. Gracias al personal de Aceralia, porque nos ponen en contacto con la industria real: Faustino Obeso, José Luis Rendueles, Luis Rodrı́guez Loredo, Pablo Fernández Quiroga y demás. Por supuesto, gracias a mis amigos, sin los cuales la vida serı́a bastante más aburrida: Ángel, Adriana, Jorge (y ahora Sara también), Eloy, Ana, Pedro C., Pedro F., Fran, José, Joseba, Sonia, Rafa, Ernesto y, cómo no, Carlos (ese ı́nclito elemento que hasta recuerda alguna que otra rabieta mı́a 5 6 en segundo de EGB). Por último, gracias a mi familia. A mi madre y a mi padre, que han sido capaces de criar a “los tres mosqueteros” (éstos se llaman Marcos, Sonia y Alberto, no Athos, Porthos y Aramis), y que han confiado en mı́ y siempre me han ayudado en mi objetivo de trabajar en lo que más me gusta. Resumen La calidad del producto fabricado y la ausencia de fallos en el proceso de fabricación son requisitos fundamentales en una planta industrial. Cada vez se desarrollan métodos más eficaces y eficientes de asegurar el cumplimiento de estos dos requisitos, métodos que generalmente se basan en enfoques totalmente automáticos implementados en un computador. Esta tesis propone un enfoque global de aplicación de técnicas de visualización a la supervisión de procesos que complementa la enorme potencia de cálculo y memoria de un computador con la creatividad y grandes capacidades de percepción visual del ser humano, permitiendo incorporar conocimiento previo que éste posee sobre el proceso, y extraer nuevo conocimiento relacionando leyes fı́sicas, reglas extraı́das de la experiencia y datos provenientes del proceso. La idea principal es representar gráficamente toda esta información bajo una misma forma unificada, que, sobre todo, facilita la comprensión del gran volumen de datos que se pueden generar en un proceso. Esta forma unificada de representación está constituida por un espacio de visualización, al que por medio de técnicas de proyección no lineal se traslada información/conocimiento disponible en el espacio de las variables del proceso, espacio éste de muy alta dimensionalidad y por tanto no visualizable directamente. Este esquema se complementa con la aplicación de una técnica de redundancia analı́tica que se basa en el modelo del proceso constituido por una técnica de proyección y que encaja perfectamente en el marco de este enfoque de Data Mining Visual para la supervisión de procesos complejos. En esta tesis, además, se presenta una aplicación software diseñada según estos mismos principios y se muestran algunos resultados de esta metodologı́a aplicada sobre casos reales: un motor de inducción de 4 kW en laboratorio y un motor de continua de 6000 kW de un tren de laminación de la empresa siderúrgica Aceralia. 7 8 Índice general 1. Introducción y Objetivos 13 1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.2. Motivación y objetivos . . . . . . . . . . . . . . . . . . . . . . 14 1.3. Formulación del problema . . . . . . . . . . . . . . . . . . . . 18 2. Técnicas de Supervisión de Procesos 2.1. Introducción . . . . . . . . . . . . . . . . . . . 2.2. Técnicas basadas en modelos analı́ticos . . . . 2.2.1. Ecuaciones de paridad . . . . . . . . . 2.2.2. Estimación de parámetros . . . . . . . 2.2.3. Observadores de estado . . . . . . . . . 2.3. Técnicas basadas en conocimiento . . . . . . . 2.3.1. Métodos cualitativos . . . . . . . . . . 2.3.2. Sistemas expertos basados en reglas . . 2.3.3. Sistemas de inferencia borrosos . . . . 2.4. Técnicas basadas en datos . . . . . . . . . . . 2.4.1. Clasificadores . . . . . . . . . . . . . . 2.4.2. Redundancia analı́tica basada en datos 2.4.3. Control estadı́stico de procesos . . . . 2.5. Técnicas hı́bridas . . . . . . . . . . . . . . . . 2.5.1. Técnicas de visualización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3. Técnicas de Reducción de la Dimensión 3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . 3.2. Selección de variables . . . . . . . . . . . . . . . . . . 3.3. Extracción de caracterı́sticas . . . . . . . . . . . . . . 3.3.1. Normalización . . . . . . . . . . . . . . . . . . 3.3.2. Técnicas de análisis espectral . . . . . . . . . 3.3.3. Otras técnicas de extracción de caracterı́sticas 3.4. Técnicas de proyección . . . . . . . . . . . . . . . . . 3.4.1. Técnicas de Proyección Lineal . . . . . . . . . 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 23 25 26 26 27 27 27 28 28 30 30 31 32 33 34 . . . . . . . . 35 35 36 37 39 40 49 49 50 10 ÍNDICE GENERAL 3.4.2. 3.4.3. 3.4.4. 3.4.5. Escalado Multidimensional . Modelos Autoasociativos . . Mapas Topológicos . . . . . Otras técnicas de proyección . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 54 57 63 4. Data Mining Visual 4.1. Introducción . . . . . . . . . . . . . . . 4.2. Formas básicas de representación . . . 4.3. Proyección de datos . . . . . . . . . . . 4.4. El error de modelado . . . . . . . . . . 4.5. Representación visual de conocimiento 4.5.1. Etiquetado . . . . . . . . . . . . 4.5.2. Planos de componentes . . . . . 4.5.3. Mapa de distancias . . . . . . . 4.5.4. Mapas de activación . . . . . . 4.5.5. Mapas borrosos . . . . . . . . . 4.5.6. Mapas de modelos . . . . . . . 4.5.7. Mapas de correlaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 65 66 69 70 72 72 72 73 74 75 76 78 . . . . . . . . . 81 81 81 82 84 84 86 86 87 87 . . . . . . . . . . 89 89 89 89 90 93 94 94 94 94 96 5. Residuos en Modelos de Datos 5.1. Introducción . . . . . . . . . . . . . . . . . 5.2. Generación de residuos . . . . . . . . . . . 5.3. Detección de Novedades . . . . . . . . . . 5.4. Residuo vectorial . . . . . . . . . . . . . . 5.4.1. Validez del residuo vectorial . . . . 5.4.2. Representación del residuo vectorial 5.5. Consideraciones en el uso de residuos . . . 5.5.1. Elección de datos para el modelo . 5.5.2. Modelo con interpolación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6. Metodologı́a de Supervisión 6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . 6.2. El sistema MAPREX . . . . . . . . . . . . . . . . . 6.2.1. MAPREX: un sistema de monitorización . . 6.2.2. MAPREX: una herramienta de Data Mining 6.2.3. Estructura de la aplicación MAPREX . . . . 6.3. Una sesión con MAPREX . . . . . . . . . . . . . . 6.3.1. Selección de señales . . . . . . . . . . . . . . 6.3.2. Visualización de las señales en tiempo real . 6.3.3. Selección de caracterı́sticas . . . . . . . . . . 6.3.4. Preparación de datos para modelado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Visual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ÍNDICE GENERAL 11 6.3.5. Generación del modelo . . . . . . . . . . . . . . . . . . 96 6.3.6. Explotación del modelo . . . . . . . . . . . . . . . . . . 96 7. Resultados 7.1. Introducción . . . . . . . . . . . . . . 7.2. Monitorización de sistemas en tiempo 7.2.1. Descripción del sistema . . . . 7.2.2. Obtención del modelo . . . . 7.2.3. Aplicación del modelo . . . . 7.3. Data Mining de procesos industriales 7.3.1. Descripción del proceso . . . . 7.3.2. Obtención del modelo . . . . 7.3.3. Aplicación del modelo . . . . . . . real . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 99 99 99 101 101 106 106 108 108 8. Conclusiones 117 8.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 8.2. Aportaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 8.3. Lı́neas futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 A. Nomenclatura 123 12 ÍNDICE GENERAL Capı́tulo 1 Introducción y Objetivos 1.1. Introducción El buen funcionamiento de una planta industrial viene condicionado por la eficacia y eficiencia de cada uno de los tres niveles en los que se suele dividir la automatización de la misma: gestión, supervisión y control. Cada nivel tiene unos objetivos diferenciados y actúa sobre el nivel inmediatamente inferior para lograrlos1 . El nivel de gestión es el que marca los objetivos principalmente económicos, realiza la planificación y tiene unos tiempos entre actuaciones sobre el nivel de supervisión relativamente largos. El nivel de supervisión tiene la función de verificar el correcto funcionamiento de la planta, pudiendo incluirse en ello la búsqueda de la calidad en la producción, tan importante hoy en dı́a para cumplir objetivos económicos debido a la gran competencia existente en el mercado mundial. Ello lo consigue por medio de acciones sobre el nivel más bajo, el nivel de control, reconfigurando sus estrategias o realizando acciones radicales, como paradas completas, ante una posibilidad de fallo catastrófico. El nivel de control es el que interacciona de forma más cercana con los procesos de fabricación, actuando directamente sobre la maquinaria y requiriendo velocidades de actuación muy elevadas ante eventos en el proceso. Ası́ pues, la importancia de la supervisión radica, primero, en la necesidad de verificar que los procesos de control funcionan de manera adecuada, y segundo, que lo hagan con la precisión que los objetivos de calidad del producto final requieren. El verificar que el control del proceso funcione de manera adecuada tiene que ver con el buen estado de toda la maquinaria del proceso. Un elemento del proceso en mal estado no estará de acuerdo con los modelos matemáticos que se tienen de él y, por tanto, el sistema de control, 1 O sobre el proceso directamente, en el caso del nivel más bajo, el de control. 13 14 CAPÍTULO 1. INTRODUCCIÓN Y OBJETIVOS que se habrá diseñado teniendo en cuenta dichos modelos, no realizará su trabajo correctamente, dando lugar a un producto de baja calidad. También, en caso extremo, se podrı́a producir un fallo grave que pudiera hacer que el proceso de fabricación se detuviera completamente. 1.2. Motivación y objetivos La detención completa de un proceso de fabricación suele conllevar grandes pérdidas económicas. A su vez, un producto de mala calidad es una desventaja para la competitividad de la empresa en los mercados, lo cual supone un obstáculo para el objetivo de maximización de beneficios. Como consecuencia de ello, las estrategias de mantenimiento han evolucionado a lo largo del tiempo para evitar estos inconvenientes interfiriendo lo menos posible en la continuidad del proceso de fabricación. Ası́, en un sistema de mantenimiento básico, la sustitución de componentes en el proceso de fabricación sólo se realiza cuando se produce el fallo de los mismos (mantenimiento correctivo). Este sistema tiene tres inconvenientes principalmente. Por un lado, un fallo que provoque la parada total del proceso puede producirse en un momento inconveniente, en el que las pérdidas económicas sean mayores respecto a otro momento. Por otro lado, un fallo total en un elemento del proceso puede dar lugar a fallos en elementos adyacentes, y puede convertirse incluso en un problema de seguridad para los trabajadores de la planta, generando accidentes. Una tercera razón también podrı́a ser el stock de componentes que habrı́a que tener para la sustitución. Otra estrategia de mantenimiento que intenta evitar estos inconvenientes es el mantenimiento preventivo, que consiste en la sustitución de componentes en función de datos estadı́sticos de vida útil de los mismos. Ello permite también planificar paradas del proceso con antelación, cuando sea necesario, para la sustitución. Sin embargo este sistema de mantenimiento también tiene un inconveniente, sobre todo en componentes de alto coste, y es que a veces se desperdician componentes que todavı́a están en perfecto estado. Además, siempre existe la posibilidad de que los componentes fallen antes de lo previsto. El sistema que actualmente presenta más ventajas es el mantenimiento predictivo o mantenimiento por condición. Por este método se realiza la sustitución de los componentes basándose en el estado de los mismos, deducido a través de su monitorización, ya sea continua o discontinua en función principalmente de lo crı́tico que sea el elemento dentro del proceso. La función de la supervisión de procesos, por consiguiente, se puede resumir como la verificación del funcionamiento óptimo de procesos, con tres 1.2. MOTIVACIÓN Y OBJETIVOS 15 objetivos: Detectar fallos en la maquinaria e instrumentación de forma anticipada para prevenir paradas no planificadas del proceso. Detectar en el proceso desviaciones del funcionamiento correcto y que dan lugar a la fabricación de producto defectuoso o de baja calidad. Actuar o sugerir actuación para volver al óptimo en los dos casos anteriores. Llevar a cabo estos objetivos a través de la monitorización no es, sin embargo, tarea fácil. La mayorı́a de los procesos industriales se pueden calificar como “complejos”. Este adjetivo se deriva del hecho de que los procesos industriales generan una cantidad enorme de datos provenientes de muchas variables que suelen estar relacionadas de forma no lineal. La caracterı́stica de no linealidad es un problema importante, puesto que la mayor parte de la teorı́a de control de sistemas se centra en sistemas lineales. Un modelo en ecuaciones explı́citas de un proceso no lineal suficientemente preciso, si existe, suele ser difı́cil de tratar. En cuanto al gran número de variables, es un inconveniente debido a la maldición de la dimensionalidad (curse of dimensionality) que plantea que el número de datos que hace falta para hacer estimaciones suficientemente precisas a partir de los mismos (estimación de funciones de densidad de probabilidad, aproximación de funciones, etc.) aumenta exponencialmente con la dimensión del espacio de datos [7]. El problema de la no linealidad, y la dificultad derivada de obtener modelos explı́citos, hace que se piense en recurrir a modelos basados en datos frente a otros modelos analı́ticos basados en ecuaciones explı́citas. Respecto al problema de la dimensionalidad, hace necesario el uso de técnicas de reducción de la dimensionalidad para eliminar componentes de los vectores de datos (variables) que no contengan información significativa o que contengan información redundante. Para la supervisión de maquinaria son tı́picos los métodos que fijan umbrales para determinadas variables como método para detectar problemas (métodos de umbral ). Es muy común en máquinas rotativas (motores y generadores eléctricos, bombas, ventiladores, turbinas, . . . ) medir valores de niveles de vibración (valor eficaz en una banda de frecuencia), que no deberán sobrepasar unos valores estándar o dados por el fabricante para considerar que funcionan correctamente [88]. En estos casos también se suelen emplear métodos algo más sofisticados de análisis espectral de las vibraciones para descubrir qué fallo concreto que se está produciendo. Quizás, el mayor esfuerzo en investigación en los últimos años para la detección y diagnóstico de fallos se ha dirigido hacia enfoques en los que 16 CAPÍTULO 1. INTRODUCCIÓN Y OBJETIVOS todo el proceso de detección y diagnóstico, desde la adquisición de datos hasta la señalización e indicación de fallos, se realiza de forma automática. Ası́, son de aparición frecuente en la bibliografı́a técnicas como las de redundancia analı́tica, en las que para el diagnóstico se usan las diferencias entre las salidas de un modelo analı́tico del proceso y el proceso real. En realidad, el concepto de redundancia analı́tica se puede referir al uso de cualquier modelo no fı́sico (matemático) para ese fin. Las técnicas que usan un modelo matemático en forma de ecuaciones explı́citas, como las de ecuaciones de paridad, las de estimación de parámetros y las de estimación de estado, se pueden englobar dentro de un grupo que podrı́amos denominar técnicas basadas en modelos analı́ticos. Sin embargo este grupo de técnicas necesitan para su aplicación un modelo del proceso suficientemente preciso, lo cual es infrecuente en procesos complejos. Gertler, en [37], hace un resumen de estas técnicas para detección y diagnóstico de fallos basadas en modelos para plantas complejas. Otro grupo de técnicas no tienen unos requerimientos tan fuertes en cuanto al conocimiento del modelo del proceso y les basta con un conocimiento impreciso, incompleto o incluso más bien intuitivo, expresado en forma similar al lenguaje humano. Entre ellas se encuentran las técnicas basadas en conocimiento. Éstas incluyen enfoques como el razonamiento cualitativo, la lógica difusa o los sistemas expertos basados en reglas. Por ejemplo, relacionado con este grupo de técnicas, Isermann [44] presenta aplicaciones de lógica difusa para control, supervisión y diagnóstico de fallos. También son posibles combinaciones de modelos analı́ticos y modelos basados en conocimiento. Ası́, Ballé [3] enfoca la detección y diagnóstico de fallos en procesos no lineales a través de modelos difusos lineales locales y estimación de parámetros. Isermann [46] integra información analı́tica y conocimiento heurı́stico para diagnóstico de fallos a través de lógica difusa. Patton [70] resume varias técnicas disponibles de inteligencia artificial aplicadas al diagnóstico de fallos, y de ellas escoge B-splines cómo método que integra un enfoque cualitativo y otro cuantitativo, y que se demuestra equivalente a los sistemas difusos. Gertler [38] añade la posibilidad de razonamiento aproximado (evidential reasoning) en la metodologı́a basada en modelos, aumentando la capacidad de toma de decisiones en el diagnóstico. Sin embargo, a veces el conocimiento previo sobre el proceso que se posee es prácticamente nulo, pero en cambio se dispone de una gran cantidad de datos de historial de variables del proceso. Para esos casos son aplicables las técnicas basadas en datos. Este tipo de técnicas incluye desde métodos estadı́sticos hasta métodos de inteligencia artificial como las redes neuronales. Ası́, dentro de las técnicas basadas en datos se han propuesto metodologı́as de reconocimiento de patrones (clasificadores), de redundancia analı́tica con 1.2. MOTIVACIÓN Y OBJETIVOS 17 modelos basados en datos y de control estadı́stico de procesos (Statistical Process Control, SPC). Sorsa [84] aplica con éxito perceptrones multicapa en la detección de fallos, usándolos como clasificadores. Dı́az [30] muestra, en cuanto a la generación de residuos a partir de modelos basados en datos, las ventajas de enfoques que tienen en cuenta el dominio de los datos en la etapa de cálculo del modelo (GRNN, por ejemplo) frente a los que no (perceptrón multicapa, Radial Basis Functions networks,. . . ). Wilson [103] presenta un método en el que se halla un modelo basado en redes RBF (Radial Basis Functions), con el que se realiza una proyección de los datos en un espacio bidimensional y como criterio para detectar fallos se usa el error de modelado. Esto último también lo realiza Harris [39], pero por medio de una red SOM (Self-Organizing Map). También son posibles combinaciones de técnicas basadas en datos con las anteriormente mencionadas. Sugeno [86] estudia el modelado cualitativo basado en lógica difusa a partir de datos. De forma semejante, Lu [59] presenta un sistema de diagnóstico de fallos para automóviles basado en un sistema difuso, con la particularidad de que a partir de datos se deducen reglas y se ajustan las funciones de pertenencia. Bonissone [14] trata las combinaciones posibles entre las distintas técnicas de computación flexible (Soft Computing) aplicadas a tareas de diagnosis, control y predicción. Filippetti [34] hace una recopilación de recientes desarrollos en el diagnóstico de fallos en accionamientos de motores de inducción a través de técnicas de inteligencia artificial, concretamente sistemas expertos basados en reglas, redes neuronales, lógica difusa y neuro-fuzzy. Sin embargo, todas estas técnicas no pueden evitar completamente la posibilidad de detecciones erróneas, y muchas veces no dan información acerca de cómo se realizó cada diagnóstico concreto, o no proporcionan una medida de la fiabilidad de dichos diagnósticos. Esto puede llegar a hacer que el personal técnico desconfı́e de los equipos de monitorización basados en éstas técnicas, o bien deje de confiar después de sucesivos diagnósticos erróneos. Un enfoque bien distinto es el proporcionado por la técnicas de visualización aplicadas a la monitorización de la condición [56] [83] [93] [13]. En ellas el diagnóstico final lo realiza el ser humano, gracias a que los datos se han transformado y se representan de forma que éste pueda aprovechar sus habilidades de procesamiento visual de la información, superiores a la de cualquier máquina. Para llevarlo a cabo se cuenta con numerosas técnicas de proyección no lineal, muy usadas en tareas de procesamiento de datos de alta dimensionalidad en numerosos campos de la ciencia, como el SelfOrganizing Map (SOM) [53], Generative Topographic Mapping (GTM) [13], Curvilinear Component Analysis (CCA) [23], y otras [89] [79]. Esta tesis se centrará en este enfoque de visualización para la incorporación y extracción 18 CAPÍTULO 1. INTRODUCCIÓN Y OBJETIVOS Técnicas basadas en modelos analíticos Ecuaciones de paridad Estimación de parámetros Observadores de estado Técnicas basadas en conocimiento Métodos cualitativos Sistemas expertos basados en reglas Sistemas de inferencia borrosos Técnicas basadas en datos Clasificadores Redundancia analítica basada en datos Control estadístico de procesos Técnicas híbridas Hibridación de técnicas de soft computing Técnicas de visualización Figura 1.1: Clasificación de técnicas de detección y diagnóstico de fallos. de conocimiento en la supervisión de procesos industriales. 1.3. Formulación del problema El planteamiento del problema de la supervisión de procesos complejos se puede realizar a través de la Teorı́a de Sistemas en Espacio de Estados (ver por ejemplo [69] para una explicación de las ideas básicas). El estado de un sistema (el proceso) puede ser descrito completamente por un conjunto de variables denominadas variables de estado. No existe un único conjunto de variables de estado para un sistema, pero lo que siempre se cumple es que el número de variables de estado en cada conjunto de un sistema es siempre el mismo. Sea x(t) el vector de variables de estado en cada instante de tiempo t. Este vector x(t) describe una trayectoria en el espacio de todos los posibles estados del sistema X ⊂ Rn , siendo n el número de variables de estado del sistema. Esta trayectoria será función del estado inicial del sistema x(t0 ), y de las entradas u(t) que reciba el sistema en cada instante t ≥ t0 . Esta relación se puede expresar como una ecuación diferencial, denominada ecuación de estado: ẋ(t) = f (x(t), u(t), t) (1.1) 1.3. FORMULACIÓN DEL PROBLEMA 19 Las variables de estado de un sistema no tienen por qué ser accesibles para medir, e incluso no necesariamente tienen interpretación fı́sica. Sin embargo, los valores de las medidas que se puedan tomar en el sistema, dependerán por un lado de su estado, y por otro de la entrada al sistema, lo cual se puede expresar con la llamada ecuación de salida: y(t) = g(x(t), u(t), t) (1.2) siendo y(t) un vector de medidas del proceso. La dependencia de t en (1.1) y en (1.2) expresa el hecho de que tanto f como g pueden ser, en caso general, variantes con el tiempo. Cuando se trata de procesos complejos, la dimensión del espacio de estados puede ser enorme, haciendo el problema del seguimiento del estado computacionalmente casi imposible. Sin embargo, manejar tal número de variables de estado puede ser totalmente innecesario para los objetivos que se suelen plantear en la supervisión de procesos. Esto es exactamente lo que ocurre, por ejemplo, en el estudio de un fluido. El “estado” de un fluido puede caracterizarse tanto por variables macroscópicas (presión, temperatura, volumen; tres dimensiones) como por variables microscópicas (posición y cantidad de movimiento de cada molécula; número de dimensiones de orden superior a 1015 ). La elección de uno u otro punto de vista depende del nivel de detalle necesario para los objetivos del estudio. Ası́, por ejemplo, para determinar en qué fase se encuentra un fluido en equilibrio, bastan las variables macroscópicas “presión” y “temperatura”. Basándose en estas ideas, se puede definir condición de un proceso como un conjunto de estados del mismo que se etiquetan bajo el mismo nombre. La distinción del estado dentro de cada conjunto en general no será relevante para la supervisión. Es decir, una condición que podamos denominar “normal”, por ejemplo, corresponderá habitualmente a un conjunto de estados, y el conocimiento del estado concreto en cada instante no interesará. Como resultado, el espacio de estados del proceso quedará dividido en regiones y el problema será determinar en qué región se encuentra el proceso en cada instante, no el punto concreto. Un enfoque visual para la supervisión de procesos tiene como objetivo la representación gráfica de las regiones correspondientes a las diferentes condiciones de los procesos. Esto presenta un problema fundamental puesto que, como ya se dijo, las variables de estado pueden no ser accesibles para su medición. La deducción del valor de x(t) a partir de un vector de medidas y(t) en procesos complejos en general tampoco es posible, ya sea por la complejidad de f y g, o por la no observabilidad [69] de dichos procesos. Sin embargo, lo que se pretende no es hallar el valor de x(t), sino que se trata de detectar la presencia del proceso en uno de los conjuntos de 20 CAPÍTULO 1. INTRODUCCIÓN Y OBJETIVOS estados, o condiciones. Cabe pensar que el vector de medidas y(t) puede llevar suficiente información sobre el estado para poder discernir en que condición se encuentra el sistema en cada instante. En general, esta hipótesis no es muy restrictiva y suele ser suficiente elegir de forma adecuada las variables a medir en el sistema para que su condición se refleje en el vector de medidas. Esta elección es lo que determina la función g. Como resultado, se traslada el problema de la representación de las regiones de las distintas condiciones en el espacio de estados a un problema equivalente pero en un espacio de medidas. La evolución a lo largo del tiempo del vector de medidas en su espacio puede ser muy complejo. Aun permaneciendo el proceso en una determinada condición, las medidas pueden estar variando de forma rápida y con patrones complicados. Esto provoca que las regiones correspondientes a las distintas condiciones del proceso estén fuertemente entrelazadas, resultando muy dificultosa su interpretación y separación en el mencionado espacio de medidas. Teniendo en cuenta esto, se pueden clasificar las señales del proceso en dos grandes grupos: Señales estáticas, que son señales que pueden considerarse invariantes respecto a la condición del proceso. Señales dinámicas, que son señales que varı́an aun permaneciendo constante la condición del proceso. De las señales estáticas se puede usar directamente su valor instantáneo para el vector de medidas. En cambio, sobre las señales dinámicas habrá que realizar un proceso denominado extracción de caracterı́sticas que pretende obtener un vector de parámetros representativos de la dinámica de la señal (caracterı́sticas) que sean constantes respecto a la condición del proceso2 . Se trata ası́ de eliminar la información redundante presente en el complicado patrón de variación de la señal original y que no sirva para diferenciar condiciones del proceso. Como resultado de la extracción de caracterı́sticas —incluyendo los valores de las señales estáticas, que pueden considerarse resultado de una extracción de caracterı́sticas trivial, o haber sufrido un filtrado para eliminar ruido— de nuevo se ha trasladado el problema de un espacio a otro, en este caso de un espacio de medidas a un espacio de caracterı́sticas. Finalmente, ya sólo queda abordar el problema de la representación gráfica de la trayectoria que será indicación de la condición del proceso en el espacio de caracterı́sticas. Salvo procesos muy simples, el espacio de caracterı́sticas tendrá una dimensión mayor de tres y no será, por tanto, representable 2 Es decir, que no cambien a menos que cambie la condición del proceso. 1.3. FORMULACIÓN DEL PROBLEMA 21 gráficamente. La solución consiste en realizar una proyección del espacio de caracterı́sticas en un espacio que se pueda representar (2D, por ejemplo) que se denominará espacio de visualización. En principio se podrı́an poner dos objeciones a esta solución. La primera es que en el espacio de caracterı́sticas aparecerán relaciones no lineales entre variables (caracterı́sticas), al igual que ocurrı́a en el espacio de estados original entre las variables de estado. En ese caso, el uso de una técnica de proyección lineal (por ser más simple) hará que probablemente se pierda información referente a la condición del proceso. Es decir, regiones correspondientes a distintas condiciones del proceso podrı́an aparecer proyectadas en el mismo lugar del espacio de visualización. Como segunda objeción, se podrı́a argumentar que al proyectar se pierde toda la información sobre las variables del proceso que se tenı́a en el espacio de caracterı́sticas y puesto que las caracterı́sticas generalmente tendrán un significado fı́sico acerca del proceso, convendrı́a conservarlas. Para evitar el inconveniente apuntado por la primera objeción será necesario utilizar un método de proyección no lineal. Respecto al inconveniente citado en la segunda objeción, a lo largo de esta tesis se verá que empleando las técnicas adecuadas no sólo puede conservarse la información del proceso que se poseı́a en el espacio de caracterı́sticas al proyectar sobre el espacio de visualización, sino que además se facilitará la extracción de nuevo conocimiento en dicho espacio de visualización que relacione variables del proceso del espacio de caracterı́sticas. Un esquema que ilustra las ideas mencionadas en este apartado se muestra en la figura 1.2. El resto de esta tesis se distribuye de la siguiente forma. En el capı́tulo 2 se describen las diferentes técnicas existentes para la supervisión de procesos. En el capı́tulo 3 se explican las técnicas de reducción de la dimensión que servirán de base para el planteamiento del enfoque de Data Mining Visual para supervisión de procesos que se propondrá en el capı́tulo 4. Ello se complementa con una descripción, en el capı́tulo 5, de un método de aplicación de redundancia analı́tica aprovechando las mismas técnicas de proyección que se usan en Data Mining Visual. En el capı́tulo 6 se enmarcará este enfoque de Data Mining Visual aplicado a supervisión dentro de un estándar de Data Mining, como es CRISP-DM, y se describirá una implementación real de un sistema de supervisión que aplica las técnicas de los capı́tulos 4 y 5, un sistema denominado MAPREX. Por último, se muestran algunos resultados de aplicación a un motor de inducción en laboratorio y a un motor de continua de 6000 kW de un tren de laminación en el capı́tulo 7, y se termina con las conclusiones y algunas propuestas de trabajo futuro dentro de la misma lı́nea en el capı́tulo 8. (Inaccesible) ~ 1015D Espacio de Estados (Significado físico) ~ 105D Espacio de Medidas EC (Todavía con significado físico) ~101D Espacio de Características TP ? AA prioriB 2D, 3D Espacio de Visualización C no physical meaning Extracción de Características (EC) Usa conocimiento previo sobre Típicamente aprovecha la estructura la geometría de las regiones estadística de los datos. O sobre la física del proceso Conocimiento previo se usa aquí para Técnica de Proyección (TP) la interpretación Pocas o ninguna hipótesis de las regiones. sobre los datos. El enfoque de Reducción de la Dimensión sensores 22 CAPÍTULO 1. INTRODUCCIÓN Y OBJETIVOS Figura 1.2: Esquema de reducción de la dimensión para el enfoque visual de la supervisión de procesos. Capı́tulo 2 Técnicas de Supervisión de Procesos 2.1. Introducción Para poder hablar acerca de “supervisión de procesos” es necesario definir previamente ciertos términos fundamentales. Se puede definir supervisión1 como la monitorización de un sistema fı́sico y la ejecución de las acciones apropiadas para mantener el funcionamiento en caso de fallo. A su vez, se entiende por monitorización (monitoring) como una tarea en tiempo real para determinar las condiciones de un sistema fı́sico registrando información, y reconociendo e indicando anomalı́as en su comportamiento. Un fallo (fault) es una desviación no permitida de al menos una propiedad caracterı́stica o variable del sistema respecto al comportamiento considerado aceptable/usual/estándar/nominal. Un fallo total (failure) es un fallo que implica una interrupción permanente de la capacidad del sistema para llevar a cabo una función requerida bajo condiciones de funcionamiento especificadas. Una perturbación es una entrada desconocida y no controlada actuando sobre el sistema. La detección de fallos (fault detection) es determinar si hay fallos presentes en el sistema. El aislamiento de fallos (fault isolation) es la determinación de la localización del fallo, es decir, de qué componente ha fallado. La identificación de fallos (fault identification) es la determinación de la cuantı́a y el comportamiento a lo largo del tiempo de un fallo. Ası́, el término “diagnóstico de fallos” (fault diagnosis) de forma genérica suele referirse algunas veces a detección, aislamiento e identificación de fallos, y otras solamente a aislamiento e identificación de fallos. En la bibliografı́a 1 Estas y otras definiciones en este apartado han sido tomadas de [45]. 23 24 CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS fallos ruido entradas perturbación salidas PLANTA Generador de residuos (con modelo de la planta) residuos Método de decisión diagnóstico Figura 2.1: Diagrama de bloques de la aplicación de redundancia analı́tica. están bien asentados términos como “detección y aislamiento de fallos” (FDI, Fault Detection and Isolation) y “detección, aislamiento e identificación de fallos” (FDII, Fault Detection, Isolation and Identification). El problema de la detección, aislamiento e identificación de fallos es un subconjunto del problema de la supervisión, puesto que en principio no incluye la actuación sobre el sistema estudiado para llevarlo al funcionamiento considerado correcto. Sin embargo, si se puede llegar hasta la identificación del fallo, la acción correctora a realizar suele ser inmediatamente deducible, además de ser muy especı́fica del problema y proceso concreto. Son muchas las herramientas usadas en el problema de la detección, aislamiento e identificación de fallos. Generalmente las técnicas usadas para ese fin se basan en el uso de modelos del sistema, en muy diversas formas, que son usados como referencia para comparar con el comportamiento real del sistema y descubrir fallos (desviaciones en el comportamiento del sistema). Esta idea, denominada redundancia analı́tica deriva del uso que se hizo tradicionalmente de múltiples elementos (sensores, indicadores, etc.) realizando la misma función (midiendo la misma magnitud) para poder ser comparados y detectar fallos en ellos2 y a lo que se denomina redundancia fı́sica. Un esquema de un sistema de redundancia analı́tica se representa en la figura 2.1. Existe una clase de métodos, muy empleados, denominados métodos de 2 Con dos se detecta que hay fallo, con más se puede detectar qué elemento, o elementos, según número, han fallado. 2.2. TÉCNICAS BASADAS EN MODELOS ANALÍTICOS 25 umbral que, estrictamente hablando, usan modelos —muy burdos, en ciertos casos— consistentes en la comprobación de lı́mites y el análisis frecuencial (o modelos de señales en general, como lo denomina Isermann [46] [44]). Los modelos más simples después de los mencionados, menos frecuentemente aplicables en procesos complejos, son los modelos lineales. Los modelos lineales de sistemas han sido ampliamente estudiados por la Teorı́a de Control y para ellos existen multitud de técnicas aplicables a detección de fallos. Otra forma de modelar sistemas, aplicable ya a sistemas más complejos, deriva de la llamada fı́sica cualitativa. Los modelos cualitativos son descripciones no numéricas de los sistemas y están orientados a captar los aspectos fundamentales del sistema o mecanismo, suprimiendo gran parte del detalle y manteniendo las propiedades más significativas de su comportamiento. Los sistemas expertos basados en reglas y los sistemas borrosos de inferencia se basan también en este conocimiento impreciso tı́pico del ser humano. Muchas veces no se dispone ni de modelos analı́ticos ni de conocimiento del proceso pero sı́ de una cantidad ingente de datos provenientes del mismo. En estos casos tradicionalmente se han aplicado técnicas estadı́sticas y, más recientemente, han aparecido técnicas que apenas dependen de una estructura fija para el modelo y sı́ más de un gran número de parámetros que se obtienen a partir de los datos por medio de un “aprendizaje” o “entrenamiento”. Las redes neuronales, por ejemplo, son buenos aproximadores de funciones no lineales y son por tanto muy útiles cuando se trata con sistemas complejos. En los siguientes apartados se profundizará algo más en todas éstas técnicas y en sus ámbitos de aplicación, que dependen de la información previa que se tenga del sistema o proceso. 2.2. Técnicas basadas en modelos analı́ticos Las técnicas basadas en modelos analı́ticos son aplicables cuando se tienen modelos analı́ticos del sistema (ecuaciones explı́citas). Esto ocurre especialmente con sistemas lineales. En muchos casos, sin embargo, no son aplicables estos métodos porque los modelos disponibles son sólo aproximaciones que no son lo suficientemente precisas [70] [44]. 26 CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS 2.2.1. Ecuaciones de paridad Se basa en expresar el comportamiento del sistema por medio de ecuaciones diferenciales3 lineales explı́citas de la forma: fi (x) = 0 i = 1, . . . , n (2.1) donde x es el vector de variables y sus derivadas. Cuando, en un momento determinado de la evolución del proceso, no se cumple el modelo dado por esas ecuaciones debido a un fallo se obtiene: fi (x) = i i = 1, . . . , n (2.2) donde al menos un i es distinto de cero. Esos i se denominan residuos. Un residuo es, en general, un indicador de fallo basado en la desviación entre medidas y cálculos derivados de modelos del sistema. La utilidad de los residuos no reside sólo en su capacidad para detectar fallos, sino también para aislarlos. Esto es posible transformando las ecuaciones de forma que cada i sea indicador de un determinado fallo [37] [38]. Realmente los residuos nunca son exactamente nulos debidos a imprecisiones del modelo y ruidos en las medidas. Debido a ellos hay que aplicar sobre los residuos métodos de decisión. 2.2.2. Estimación de parámetros Los métodos de estimación de parámetros se basan en modelos analı́ticos para detectar e identificar los fallos a través de desviaciones en los parámetros del proceso respecto a valores esperados. Los parámetros del proceso pueden estimarse de forma continua (on line) a través de técnicas como RLS, el filtro de Kalman, etc. Un caso especialmente interesante se presenta cuando los parámetros tienen un significado fı́sico claro (la resistencia del rotor en un motor de inducción, por ejemplo [6]). En esos casos es inmediata la aplicación de conocimiento experto para el aislamiento de los fallos. Una forma particular de estimación de parámetros se aplica cuando existe una variable que no es medible o fácilmente medible directamente, pero se puede deducir de otras variables que si están accesibles para su medición. Las técnicas que se emplean con este fin suelen recibir el nombre de sensores virtuales [73]. 3 O ecuaciones en diferencias para sistemas muestreados. 2.3. TÉCNICAS BASADAS EN CONOCIMIENTO 2.2.3. 27 Observadores de estado Este tipo de métodos también están basados en modelos analı́ticos. Se detectan e identifican los fallos a través de la estimación del estado por medio de técnicas como el filtro de Kalman, el filtro de Wiener, etc., denominados, en general, observadores. 2.3. Técnicas basadas en conocimiento Cuando no se dispone de modelos analı́ticos del proceso, una alternativa la constituye lo que se puede denominar como técnicas basadas en conocimiento. Estas técnicas hacen uso del conocimiento acerca del proceso de carácter incompleto e impreciso, tı́pico del ser humano, y que es codificado y representado de diversas formas, como se verá a continuación. 2.3.1. Métodos cualitativos Una forma de modelar sistemas aplicable a sistemas complejos deriva de la llamada fı́sica cualitativa o también razonamiento cualitativo [35] [57]. Los modelos cualitativos son descripciones no numéricas de los sistemas y están orientados a captar los aspectos fundamentales del sistema o mecanismo, suprimiendo gran parte del detalle y manteniendo las propiedades más significativas de su comportamiento. Por medio de simulación cualitativa se puede obtener la evolución del sistema a través de diferentes estados cualitativos. Un ejemplo puede ser la descripción del estado cualitativo de un balón subiendo: la posición del balón está ascendiendo y la velocidad hacia arriba está descendiendo. Posteriormente, por simulación cualitativa, se obtendrı́a el resultado de que el balón en algún punto de su ascenso se detendrá y comenzará a descender (sucesión de estados cualitativos). En muchos casos, dependiendo del nivel de detalle de la información que se usa en la simulación (resolución), pueden obtenerse diferentes soluciones alternativas para dicha sucesión de estados. Para intentar eliminar estas ambigüedades se puede añadir información cuantitativa. Una simulación semicuantitativa es una simulación cualitativa que usa información cuantitativa, como valores numéricos o intervalos, para restringir (acotar) sus resultados [95] [47]. 28 CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS 2.3.2. Sistemas expertos basados en reglas Los sistemas expertos basados en reglas (rule-based expert systems) identifican fallos por medio de conocimiento sobre el proceso puesto en forma de un conjunto de reglas “SI-ENTONCES” de la forma: SI sı́ntoma ENTONCES conclusión donde la conclusión de una regla puede servir como sı́ntoma de otra. El sistema experto las evalúa hasta que llega a conclusiones finales que serán sobre la existencia o no de fallos y su aislamiento. Los sı́ntomas en las primeras reglas del árbol de deducciones serán relaciones de observaciones en el proceso (medidas de variables o valores derivados de éstas, propiedades del proceso que pueden ser percibidas por el operador, etc.) [34] [37] [76]. El conjunto de reglas que usa el sistema experto se denomina base de conocimiento. El elemento que realiza el proceso de razonamiento o decisión se denomina motor de inferencia. 2.3.3. Sistemas de inferencia borrosos Los sistemas de inferencia borrosos (FIS, Fuzzy Inference System) son semejantes a los sistemas basados en reglas del apartado anterior en cuanto a que el conocimiento se expresa en forma de reglas “SI-ENTONCES”. Sin embargo, los sistemas borrosos son mucho más adecuados cuando se trata con información vaga, imprecisa e incompleta [48] [58]. Un sistema de inferencia borroso (en adelante FIS), cuyo esquema se muestra en la figura 2.2, incluye tres elementos: Un conjunto de reglas, que codifican un conocimiento disponible. Un conjunto de funciones de pertenencia, cuya finalidad es codificar y decodificar información numérica en información difusa (borrosa). Un mecanismo de razonamiento, que realiza la inferencia a partir de las reglas y unas variables de entrada o “hechos” para obtener unas variables de salidas o “conclusiones”. Un FIS funciona de la siguiente manera4 . Las variables de entrada pueden ser crisp (valores numéricos concretos) o fuzzy (valores imprecisos). Lo que en la figura 2.2 aparece como (x es A1 ) es una forma compacta de expresar: (x1 es A11 ) y (x2 es A21 ) y . . . y (xn es An1 ) 4 Como ejemplo de FIS se va a explicar el caso de un FIS Mamdani. 2.3. TÉCNICAS BASADAS EN CONOCIMIENTO 29 Regla 1 x es A1 w1 y es B1 (Fuzzy) Regla 2 x x es A2 w2 y es B2 (Fuzzy) Agregador (Crisp o fuzzy) (Crisp) Defuzzificador y Regla r x es Ar wr y es Br (Fuzzy) Figura 2.2: Diagrama de bloques de un sistema de inferencia borroso. que es el antecedente de la regla. Con (x1 es A11 ) se está evaluando la pertenencia del valor de x1 a un conjunto borroso denominado A11 . Al contrario que en la teorı́a de conjuntos crisp tradicional, donde la pertenencia de un elemento a un conjunto sólo puede ser “pertenece ” o “no pertenece” (1 o 0 respectivamente), en los conjuntos borrosos la pertenencia puede ser cualquier valor real en el intervalo [0, 1], indicando un mayor grado de pertenencia cuanto más se acerque dicho valor a 1. La pertenencia de una variable a un conjunto borroso se define por medio de una función de pertenencia que tiene el mismo dominio que la variable en cuestión y devuelve valores en el intervalo [0, 1]. Los resultados de evaluar los (xi es Aij ) se combinan por los operadores lógicos (“y”, “o”) que intervengan en cada regla (en el ejemplo sólo hay “y”). Estos operadores lógicos se denominan respectivamente t-norma y tconorma, y existen varias opciones en cuanto la elección de estos operadores mientras cumplan ciertas condiciones. Se suelen tomar las funciones “mı́nimo” y “máximo” respectivamente. El siguiente paso es evaluar el consecuente “entonces (y es Bi )”. La implicación consiste en recortar la función de pertenencia que aparece en el consecuente, que en este caso denominamos Bi , con el resultado que se obtuvo en el antecedente wi (grado de cumplimiento o fuerza de activación). Como resultado se obtiene una nueva función de pertenencia (variable borrosa). Todo estos pasos se realizan para cada regla. Posteriormente hay que agregar los resultados de todas las reglas para obtener un único resultado 30 CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS borroso. Ello se suele hacer con una t-conorma (la función máximo, por ejemplo). Finalmente, si lo que se necesita es un resultado crisp, hay que realizar lo que se denomina defuzzificación, que consiste en extraer un único valor a partir de la función de pertenencia resultado de la agregación de las reglas. Existen varios métodos para realizarlo, como pueden ser el centroide del área bajo la función, el bisector de dicha área, la media de los puntos donde la función de pertenencia es máxima, el extremo superior de los puntos donde es máxima, el extremo inferior de los puntos donde es máxima, etc. Se puede observar que un FIS es equivalente a una función no lineal y = f (x), o lo que es lo mismo, una hipersuperficie, y puede constituir, por tanto, un modelo de un proceso [86] [48] [58] [59] [9]. Esta idea se utiliza en el apartado 4.5.5. 2.4. Técnicas basadas en datos Además de los modelos analı́ticos y el conocimiento fı́sico que se tiene del funcionamiento de un proceso, existe otra importante fuente de información acerca del mismo: las magnitudes medibles en él durante su funcionamiento. 2.4.1. Clasificadores Los clasificadores son un conjunto de técnicas incluidas en la disciplina denominada Reconocimiento de Patrones que sirven para indicar a qué grupo pertenece un dato muestra de entre un conjunto de grupos predeterminados. Este tipo de técnicas son muy útiles cuando se dispone de datos del proceso para los diferentes estados o tipos de fallos que se quieren detectar, que aparecerán en dichos datos como agrupaciones. Al implementar un clasificador, se le proporcionan los datos de los que se dispone y, posteriormente, ante datos nuevos “decide” a qué grupo de los datos proporcionados previamente pertenecen. Algunos métodos generan además una probabilidad o grado de pertenencia a cada uno de los grupos, que da una idea de la fiabilidad de la clasificación de cada nuevo dato. Existen multitud de tipos de clasificadores, pero en los siguientes subapartados sólo se menciona un pequeño número de ellos. Una descripción más completa puede encontrarse en bibliografı́a de Reconocimiento de Patrones [12] [32] [90]. Clasificadores no supervisados Los clasificadores no supervisados (también llamadas técnicas de clustering) no necesitan conocer de antemano la pertenencia de cada dato de 2.4. TÉCNICAS BASADAS EN DATOS 31 entrenamiento para realizar los agrupamientos, por lo que estas técnicas se pueden aplicar cuando no se dispone de dicha información. Si se dispone de ella, sin embargo, esa información puede utilizarse posteriormente para evaluar la calidad de los agrupamientos y para “etiquetar” (ponerle nombre) a cada grupo. Existe una enorme variedad de métodos de clasificación no supervisados. Entre los métodos más conocidos con origen estadı́stico se tiene k-means. Una generalización de éste empleando funciones de pertenencia borrosas es el llamado fuzzy c-means, que proporciona un grado de certeza de pertenencia a cada grupo de datos. También existen clasificadores no supervisados entre las redes neuronales, como el Self-Organizing Map (SOM). Existen también técnicas que realizan agrupamientos a distintos niveles de detalle. Son las técnicas de Agrupamiento Jerárquico, que pueden tener dos enfoques: aglomerativo, que partiendo de datos individuales van creando grupos cada vez más grandes, y partitivo, que parten de un único grupo que se descompone progresivamente en grupos más pequeños. Clasificadores supervisados Estas técnicas de clasificación de patrones aprovechan la información suministrada por un “tutor” externo, relativa a la pertenencia a grupos predeterminados de los datos que se usan en su aprendizaje. Entre los métodos con base estadı́stica se encuentran, por ejemplo, los clasificadores de Bayes y el discriminante de Fisher. Otros métodos son Learning Vector Quantization (LVQ) [53] [54], Support Vector Machines [81], redes neuronales feedforward [100] [102] [36] y redes RBF (Radial Basis Functions) [12] [41]. El uso de clasificadores supervisados permite la aplicación posterior de la filosofı́a del razonamiento basado en casos (Case-Based Reasoning), que para supervisión de procesos consistirı́a en la interpolación y extrapolación sobre casos ya conocidos en cuanto a diagnóstico y aplicación de acciones correctoras. 2.4.2. Redundancia analı́tica basada en datos Una caracterı́stica deseable en los métodos de clasificación aplicados a FDI es poder detectar “novedades” (novelty detection), o lo que es lo mismo, datos que no pertenecen a ninguno de los grupos predeterminados y que, por tanto, corresponderán con condiciones nuevas del proceso, condiciones que no se presentan en los datos disponibles previamente. Esta caracterı́stica está muy relacionada con la generación de residuos. La generación de residuos 32 CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS a partir de modelos no sólo es posible con modelos analı́ticos, sino también con modelos que se pueden denominar “basados en datos”. Puede decirse que un modelo basado en datos se diferencia de uno analı́tico en que su estructura es bastante genérica y polivalente, es decir, aplicable a cualquier sistema, lineal o no lineal. En un modelo analı́tico tiene tanta importancia (o quizá más) la estructura como los parámetros. En un modelo basado en datos, sin embargo, la dificultad estriba en encontrar unos parámetros adecuados. Dichos parámetros se hallarán por aprendizaje o entrenamiento a partir de datos tomados del proceso. Este aprendizaje o entrenamiento consiste en la aplicación de métodos de optimización de una función objetivo relacionada con el error de ajuste a los datos de entrenamiento. La idea básica de la redundancia analı́tica basada en datos es semejante a la de modelos analı́ticos. Se le introduce al modelo un vector de variables (caracterı́sticas) del proceso y el generador de residuos devuelve un vector de residuos que da indicaciones de fallos. En sucesivos capı́tulos se verá que usando una técnica de proyección (proyección lineal, red neuronal autoasociativa, mapa topológico, etc.) el generador de residuos puede consistir en proyectar el vector de variables del proceso en el subespacio topológico definido por el modelo de datos, siendo el vector de residuos la diferencia entre en el original y el proyectado [104] [103] [26] [30]. 2.4.3. Control estadı́stico de procesos El control estadı́stico de procesos (Statistical Process Control, SPC) ha sido tradicionalmente aplicado al control de calidad de productos de fabricación por lotes (batch). Básicamente trata de comparar el estado actual del proceso con las condiciones operativas consideradas normales; cuando no está en dichas condiciones normales, se dice que el proceso está fuera de control. Los métodos clásicos se basan en la representación en gráficas de la evolución de unas pocas caracterı́sticas de calidad obtenidas en cada lote a partir de muestras del producto final. Los gráficos de Shewhart, CUSUM y EWMA (Exponentially Weighted Moving Average), son métodos monovariable de este estilo [4], aunque también existen versiones multivariable de los mismos. Recientemente se ha derivado hacia enfoques multivariable y on line, más precisos y que permiten acciones correctoras inmediatas sobre el proceso. Ejemplos de este último enfoque son las técnicas Multiway Principal Component Analysis (MPCA) y Multi-way Partial Least Squares (MPLS), muy relacionadas con las técnicas de visualización multivariable del siguiente apartado, y los gráficos de contribución (contribution plots) [63] [42] [33]. 2.5. TÉCNICAS HÍBRIDAS 2.5. 33 Técnicas hı́bridas La clasificación expuesta en este capı́tulo no pretende abarcar todos los casos posibles, sino quizá los más relevantes en la bibliografı́a sobre diagnóstico de fallos. Serı́a importante resaltar que también existen múltiples combinaciones de muchos de ellos, que podrı́amos denominar técnicas hı́bridas, y que intentan aprovechar las ventajas de cada técnica, combinando información sobre el proceso de las diversas fuentes: modelos analı́ticos, conocimiento, datos [14]. El conocimiento a priori particularmente está presente en formas muy diversas y sutiles —en forma lingüı́stica, en imágenes, . . . — y todos ellos generalmente son de carácter impreciso, difuso. Los métodos matemáticos que aprovechan estas caracterı́sticas de la forma de razonar del ser humano están en auge en los últimos años. Debido a este carácter heterogéneo del conocimiento, muchos de esos métodos hay que clasificarlos como técnicas hı́bridas puesto que combinan técnicas que por separado se ocupan de un sólo aspecto de la forma de razonar del ser humano. Como primeros ejemplos de aplicación práctica se pueden mencionar la combinación de métodos analı́ticos con métodos basados en conocimiento como la lógica borrosa [46] [70] [3], el uso de métodos de datos para obtener una interpretación cualitativa [101], sistemas expertos y redes neuronales [99], y la generación de reglas borrosas y funciones de pertenencia a partir de datos [59] [68]. Un caso en el que la hibridación se da frecuentemente es entre técnicas de soft computing. Soft computing (computación flexible) es un grupo de metodologı́as de computación que incluye la lógica borrosa, las redes neuronales, la computación evolutiva y la computación probabilı́stica [14]. En general son todas metodologı́as que aprovechan la tolerancia a la imprecisión, la incertidumbre y la verdad parcial para conseguir maleabilidad, robustez, bajo coste en la solución, y mayor compenetración con la realidad. Está especialmente extendida la combinación de redes neuronales con lógica borrosa, aportando las primeras su capacidad para aprender de datos y añadiéndose la posibilidad de interpretar lo aprendido de los datos en términos de lógica borrosa [66] [34] [48] [58]. Un ejemplo de hibridación de computación evolutiva con redes neuronales es el uso de la primera para la elección de la topologı́a o el cálculo de los pesos de las segundas. Un caso particular de hibridación, que se considerará aparte por constituir el tema central de esta tesis, es el caso de las técnicas de visualización. 34 CAPÍTULO 2. TÉCNICAS DE SUPERVISIÓN DE PROCESOS 2.5.1. Técnicas de visualización El objetivo final de prácticamente todas las técnicas mencionadas hasta ahora es el de detectar y dar diagnósticos de fallos, desde los más incipientes hasta los más severos, a través de la información recogida del proceso en diversas formas y de múltiples procedencias —principalmente datos, pero también información proveniente de los sentidos (información visual, auditiva, olfativa, etc.)— que es comparada con los modelos del proceso generados a partir de información y conocimiento acerca del proceso disponibles previamente, también en varias formas. Todo ello es realizado generalmente de forma automática5 por el sistema de diagnóstico, que es una máquina (computador). Sin embargo, con este enfoque, las habilidades del ser humano en cuanto a reconocimiento de patrones (sobre todo de forma visual), superiores a las de cualquier máquina, no son aprovechadas. La idea de las técnicas de visualización es “traducir” modelos de comportamiento complejos a forma visual [15] [50] [51] [52]. La información se puede codificar para fluir a través de diversos canales visuales de transmisión multidimensional: color, tamaño, posición, forma, movimiento. El espectador (observador), posteriormente, pasa de patrones visuales a la abstracción, genera modelos mentales, razona con ellos e incluso puede filtrar ruido empleando conocimiento a priori. Por supuesto, para que todo ello sea efectivo hay conseguir reducir una cantidad ingente de datos a la información estrictamente necesaria y útil, y elegir las formas de representación gráfica más adecuadas. Esta tesis transcurrirá en esta lı́nea de aplicación de técnicas de visualización. Ası́, el enfoque aquı́ adoptado consiste en aplicar las técnicas de reducción de la dimensión para proyectar datos del proceso con multitud de variables sobre un espacio visualizable, para posteriormente “cartografiar” este espacio, relacionando cada zona con cada condición del proceso, pudiendo usar para este fin conocimiento expresable en forma de reglas difusas (mapas borrosos), modelos analı́ticos conocidos (mapas de modelos) y casos conocidos —datos etiquetados— (mapas de activación). Este enfoque también hace posible la extracción de nuevo conocimiento acerca del proceso (data mining, minerı́a de datos) en este espacio de visualización (mapas de correlaciones), dejando todavı́a la puerta abierta a numerosas ideas dentro de esta misma lı́nea. 5 O semiautomática. Obviamente la información recogida por los sentidos del operario o técnico, por ejemplo, debe introducirse en el sistema de diagnóstico de forma manual. Capı́tulo 3 Técnicas de Reducción de la Dimensión 3.1. Introducción Las técnicas de reducción de la dimensión se usan tı́picamente en problemas con manejo de datos de alta dimensionalidad (gran número de variables). Los objetivos más comunes que justifican el empleo de técnicas de reducción de la dimensión son esquivar inconvenientes como la maldición de la dimensionalidad (curse of dimensionality), la mejora de la capacidad de generalización en clasificadores y la reducción de los requerimientos computacionales en la clasificación de patrones [62]. En el marco de Data Mining Visual, en el que se encuadra esta tesis, el objetivo es llegar hasta un espacio visualizable (2D, 3D) donde sean representables los conceptos procedentes del espacio multidimensional original, que son con los que es posible razonar. En la aplicación de Data Mining Visual a procesos complejos son imprescindibles las técnicas de reducción de la dimensión, incluso varias usadas en cadena, puesto que tales procesos son, por naturaleza, de una altı́sima dimensionalidad. Se puede realizar una clasificación de estas técnicas atendiendo a la aplicación de conocimiento previo, de los datos y del problema en sı́, que requieren: Selección de variables. Puede realizarse tanto usando conocimiento previo como sin él (de forma automática). Extracción de caracterı́sticas. Generalmente se aplica conocimiento previo en la elección de caracterı́sticas. Técnicas de proyección. No suelen aplicar conocimiento previo, sino sólo consideraciones en la geometrı́a de la distribución de los datos. 35 36 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN Además, este orden expuesto suele ser en general el orden de aplicación a los datos de este tipo de técnicas, y en particular para Data Mining Visual. A lo largo de este capı́tulo se describirán diversas técnicas disponibles de los tres tipos, haciendo especial énfasis en aquellas más útiles para Data Mining Visual. 3.2. Selección de variables Cuando el número de variables del proceso disponibles inicialmente es extremadamente grande, de tal forma que aparecen problemas derivados de la maldición de la dimensionalidad (curse of dimensionality) [7], puede ser necesario un paso previo de selección de variables, que puede realizarse tanto aplicando conocimiento a priori —escogiendo variables que ya se sabe que son significativas en cuanto a la condición del proceso— como por métodos estadı́sticos —basándose en medidas de la cantidad de información que contiene cada variable o grupo de variables—. Un esquema tı́pico para la selección del subconjunto de variables óptimo por métodos estadı́sticos tiene dos partes: 1. Escoger un criterio de selección: para decidir de entre dos subconjuntos de variables cual es mejor. Cuando se trata de diseño de clasificadores para reconocimiento de patrones, el criterio suele ser la minimización del error de clasificación. En otros casos los criterios pueden derivar de la Teorı́a de la Información (entropı́a, información mutua, etc.). Entre posibles criterios de selección se encuentran los métodos de contrastes de hipótesis y los de medidas de separabilidad de clases (divergencia1 , lı́mite de Chernoff y distancia de Brattacharyya, matrices de dispersión). 2. Ejecutar un procedimiento de búsqueda: escoger subconjuntos de variables para compararlos posteriormente por medio del criterio de selección mencionado. Para esta búsqueda existen multitud de métodos: Búsqueda exhaustiva (exhaustive search). Rama y lı́mite (branch and bound ). Selección secuencial hacia adelante (sequential forward selection). Genera soluciones no óptimas pero es más rápido. 1 Una forma de la medida de distancia Kullback-Leibler. 3.3. EXTRACCIÓN DE CARACTERÍSTICAS 37 Eliminación secuencial hacia atrás (sequential backward elimination). Al igual que el anterior genera soluciones no óptimas pero es más rápido. Búsqueda flotante (floating search). Algoritmos de Programación Dinámica. Estos métodos son también aplicables a caracterı́sticas (resultado de extracciones de caracterı́sticas, que se verán en el siguiente apartado) en lugar de a variables. En ese caso, estos métodos se pueden denominar “pasivos” porque seleccionan caracterı́sticas de entre las ya obtenidas. Existen también métodos que se pueden denominar “activos” que tratan de hallar caracterı́sticas que sean óptimas. Se puede encontrar abundante información sobre estas técnicas en algunas de las referencias clásicas de Reconocimiento de Patrones [12] y [90]. 3.3. Extracción de caracterı́sticas El primer obstáculo que se encuentra al interpretar los datos que se generan en un proceso es el gran volumen de los mismos. Los datos pueden imaginarse organizados como una gran matriz en la que las filas son las m variables del proceso y las columnas son las n sucesivas muestras de dichas variables tomadas a lo largo del tiempo, como se puede ver en la figura 3.1. El número total de datos vendrá dado por el producto de ambos valores: m · n. Una de las justificaciones del proceso de extracción de caracterı́sticas es la pretensión de reducir este valor. La razón es la gran carga computacional que suele conllevar en pasos posteriores ese gran volumen de datos. Otra razón para aplicar una extracción de caracterı́sticas a los datos procedentes de un proceso es la reducción de la complejidad en la variaciones de los datos. El objetivo último es la detección de diferentes condiciones en el proceso y un patrón de variación complejo en los valores de sus variables a lo largo del tiempo dificulta dicho objetivo. Se trata, en definitiva, de obtener un vector de caracterı́sticas invariante a la condición, es decir, que no cambie a menos que cambie la condición del proceso, como se planteó en el apartado 1.3. Respecto a este problema de búsqueda de invarianza ante la condición se puede hablar de dos tipos de señales: 1. Señales estáticas. Son señales consideradas invariantes respecto a la condición del proceso. De ellas se usarán como caracterı́sticas sus valores instantáneos (o filtrados, medias, para eliminar ruidos). Ejemplo tı́pico de señal estática es la temperatura. 38 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN 2. Señales dinámicas. Son señales que varı́an aun permaneciendo el proceso dentro de una condición dada. Requieren la aplicación de técnicas que generen caracterı́sticas que sean invariantes respecto a la condición. Ejemplo de ello pueden ser las técnicas de análisis espectral, para la obtención de energı́as en determinadas bandas de frecuencias de cada señal. En estos caso puede obtenerse más de una caracterı́stica por cada variable del proceso (varias bandas) o puede interesar caracterizar una señal dinámica por un único valor (su valor eficaz por ejemplo). Ejemplo tı́pico de señal dinámica es la vibración. Teniendo en cuenta esto, hay que resaltar que con la extracción de caracterı́sticas sobre señales dinámicas se está, de alguna forma, “encapsulando la dinámica” en las caracterı́sticas, convirtiendo ası́ un problema con dinámica en un problema estático. A la hora de escoger las caracterı́sticas que se obtendrán a partir de las variables del proceso hay que aplicar conocimiento a priori. El decidir si una determinada señal es considerada estática o dinámica implica un conocimiento sobre la forma de variación de la misma dentro del proceso. Asimismo, en las señales dinámicas sobre las que se aplique análisis espectral, hay que saber previamente qué bandas de frecuencia contienen información que sea significativa en cuanto a descubrir el estado en el que se halla el proceso en cada instante. Como resultado de la extracción de caracterı́sticas obtendremos un conjunto de datos que nuevamente se podrán organizar como una matriz de M filas, que corresponderán con cada una de las caracterı́sticas, y N columnas que se denominarán “muestras” y que estarán relacionadas con el tiempo (figura 3.1). Debido al primer objetivo de reducción del número total de datos, se pretenderá que se cumpla: M ·N <m·n (3.1) Hay que mencionar que cuando hay señales dinámicas, el número de caracterı́sticas M puede ser mayor que el número de variables que se usaron en la extracción de caracterı́sticas m. Por lo tanto, a la hora de escoger caracterı́sticas de señales dinámicas, hay que tener siempre presente la maldición de la dimensionalidad para no excederse en el número de éstas. La extracción de caracterı́sticas es un paso común a muchas de las técnicas basadas en datos mencionadas en el capı́tulo anterior, y conviene recalcar la importancia de la extracción de caracterı́sticas en cuanto a la efectividad del uso posterior de los datos, sea mediante una técnica estadı́stica o una red neuronal. En cuanto a la proyección de la trayectoria de estado tratada en esta tesis, un adecuado diseño de esta etapa puede significar la diferencia 3.3. EXTRACCIÓN DE CARACTERÍSTICAS 39 EXTRACCIÓN DE CARACTERÍSTICAS M caracterı́sticas m variables n muestras N muestras Figura 3.1: Estructuras de datos en extracción de caracterı́sticas. entre un comportamiento errático del puntero de estado o una pequeña deriva que apunta a un fallo inminente en el proceso. 3.3.1. Normalización A veces las variables a medir en un sistema o proceso son de magnitudes muy dispares, como por ejemplo temperaturas cercanas a la ambiente en Kelvin (del orden de 102 ) y presiones alrededor de la atmosférica en Pascales (del orden de 105 ). Sin embargo las técnicas que más adelante se aplicarán sobre los datos suelen ser sensibles a diferencias en el valor relativo de las variables sobre las que se aplican2 . Para paliar este problema es aconsejable realizar lo que se denomina normalización de los datos. La forma más sencilla de normalización es realizar una transformación lineal en cada variable de forma que todos los datos disponibles queden contenidos en el intervalo [−1, +1]. Aunque simple, este tipo de normalización a [−1, +1] tiene el inconveniente de que no produce un buen resultado en presencia de outliers (valores atı́picos). Otra forma de hacerlo, sin este inconveniente, es usando para una variable x: N 1 X x̄ = xk N k=1 N σ2 = 1 X (xk − x̄)2 N − 1 k=1 siendo la nueva variable normalizada x̃: x − x̄ x̃ = σ 2 (3.2) (3.3) Este problema suele reflejarse en una mayor influencia de las variables de mayor valor relativo en las funciones de coste, funciones de error o al considerar distancias euclı́deas en el espacio de los datos, lo cual la mayor parte de las veces no es lo que se pretende. 40 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN Este método trata cada variable independientemente. Hay otro método de normalización conocido como whitening que tiene en cuenta las correlaciones entre variables. En este caso se usarán las variables xi agrupadas en un vector x = (x1 , . . . , xd )T , con vector de media y matriz de covarianzas para N puntos: x̄ = N 1 X xk N k=1 (3.4) N 1 X Σ = (xk − x̄)(xk − x̄)T N − 1 k=1 (3.5) y los vectores transformados se obtienen por x̃ = Λ−1/2 UT (x − x̄) (3.6) donde U es la matriz que tiene como columnas los vectores propios de Σ y Λ la matriz diagonal con los valores propios correspondientes. Sin embargo, ninguno de estos tipos de normalización aprovecha conocimiento previo sobre los lı́mites posibles de variación de las variables. Esto puede generar problemas en ciertos casos, cuyo extremo tendrı́a lugar cuando se usan datos en los que algunas de las variables no presentan ninguna variación a lo largo de toda su historia. Si se usasen estos métodos de normalización se estarı́a amplificando el ruido existente en las muestras de estas variables, poniéndolo al mismo orden de magnitud que las otras variables. Por ello, en determinadas circunstancias se sugiere un método de normalización que no se basa sólo en caracterı́sticas estadı́sticas de los datos y que es más acorde con el significado fı́sico de las variables: valores por unidad. x̃ = xp. 3.3.2. u. = x xbase (3.7) Técnicas de análisis espectral Cuando en un proceso hay máquinas rotativas o alternativas, aparecen señales de las que antes se habı́an denominado “dinámicas” y que son más fáciles de tratar —es más fácil conseguir caracterı́sticas invariantes frente a una condición— en el dominio de la frecuencia. Las técnicas que sirven para pasar del dominio temporal al frecuencial son la técnicas de análisis espectral. En los siguientes subapartados se describirán varias técnicas de análisis espectral. Sin embargo hay que resaltar que la FFT, que se incluye dentro del siguiente subapartado, es, con mucho, la más utilizada, debido quizás a caracterı́sticas como rapidez de cálculo, generalidad y facilidad de aplicación. 3.3. EXTRACCIÓN DE CARACTERÍSTICAS 41 La Transformada de Fourier Discreta (DFT) La Transformada de Fourier Discreta (Discrete Fourier Transform, DFT) permite expresar en el dominio de la frecuencia señales que son discretas y periódicas en el dominio del tiempo. Para una secuencia {xk } de N muestras (un periodo de la señal), la DFT se define como: DFT(xk ) = Fn = N −1 X 2π xk e−j N kn , k = 0, 1, . . . , N − 1 (3.8) k=0 La DFT ası́ expresada tiene un coste computacional O(N 2 ), lo que la hace inviable en señales de cierta envergadura. Sin embargo, tiene la ventaja de disponer de una versión del algoritmo muy rápida, con un coste O(N log N ), denominada Transformada Rápida de Fourier (Fast Fourier Transform, FFT), que puede aplicarse cuando el número de muestras N es potencia de dos. Dada una señal con N muestras, la FFT genera otros N valores complejos, Fn , cada uno de los cuales corresponde con el armónico de frecuencia fn , de valor: n · fm fn = n = 0, 1, . . . , N − 1 (3.9) N siendo fm la frecuencia de muestreo. Pese a que la FFT está indicada para señales periódicas, se aplica a señales que no lo son, estrictamente hablando, porque las ventajas que ofrece, sobre todo de rapidez de cálculo, son mayores que sus inconvenientes. Ası́, puede usarse para obtener estimaciones del espectro de frecuencia de señales y después, de éste, extraer caracterı́sticas que sean valores de amplitudes de determinados armónicos, o bien energı́as o valores eficaces en determinadas bandas de frecuencia de las señales del proceso. Una forma de usar la FFT con una secuencia indefinidamente larga, de tal manera que se obtenga su espectro a lo largo del tiempo, es dividir esta secuencia en sucesivos intervalos solapados y aplicar la FFT a cada uno de los intervalos. Hay que tener en cuenta que a más tamaño de los intervalos menos resolución temporal y más frecuencial, y viceversa. Es lo que se denomina Short-Time Fourier Transform o espectrograma (figura 3.2). Como se mencionó, la FFT tiene un inconveniente al aplicarse a señales que no son realmente periódicas (o a porciones con periodos no enteros de señales periódicas) consistente en una deformación —lóbulos, side-lobes— en el espectro. Para disminuir este efecto, que se denomina derrame espectral (spectral leakage), se suele multiplicar cada dato dentro de un intervalo por valores que ponderan más los datos centrales y menos los de los extremos del intervalo. Existen distintos tipos de ponderación, denominadas ventanas, 42 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN 250 Frecuencia (Hz) 200 150 100 50 0 0 0.5 1 Tiempo (s) 1.5 2 Figura 3.2: Detalle a bajas frecuencias de un espectrograma de la vibración de un motor trifásico con un desequilibrio gradual en la alimentación. Se puede apreciar el aumento gradual del armónico de 100 Hz. Datos muestreados a 20 kHz, tamaño de ventana 16384, solapamiento 97,7 %, ventana de Hanning. como “ventana de Hanning”, “ventana de Bartlett”, etc., con propiedades bien conocidas en la literatura de Procesamiento Digital de Señal [78] [75]. El efecto secundario de aplicar una de estas ventanas es una distorsión armónica. Cepstrum El cepstrum es el resultado de aplicar la transformada discreta de Fourier inversa sobre el logaritmo del módulo de la transformada discreta de Fourier de la señal: iDFT(log |DFT(xk )|) (3.10) El cepstrum permite la separación o el desacoplamiento de fenómenos que se presentan asociados de forma no lineal en una señal como resultado de una multiplicación o convolución de otras señales. Ello es posible gracias a que lo que son convoluciones en el dominio del tiempo y multiplicaciones en el de la frecuencia se convierten en sumas en el cepstrum: Y (z) = H(z)U (z) log Y (z) = log H(z) + log Y (z) (3.11) El primer coeficiente del cepstrum es el valor medio del espectro de magnitudes logarı́tmico y por tanto representa la potencia de la señal. Los primeros coeficientes caracterizan la envolvente del espectro de la señal. Ası́ basta un pequeño número de ellos para representar una versión suavizada de éste. 3.3. EXTRACCIÓN DE CARACTERÍSTICAS 43 El cepstrum, por sus propiedades frente a fenómenos convolutivos y multiplicativos, es adecuado, por ejemplo, para el estudio de vibraciones en engranajes [88]. Un campo en el que se aplica muy frecuentemente es el reconocimiento de voz [61]. Predicción lineal (LPC) Otra posibilidad consiste en usar como caracterı́sticas los coeficientes ai de un modelo de predicción lineal o autorregresivo: xk = n X ai xk−i + νk (3.12) i=1 en el que νk representa ruido blanco planteando m ecuaciones:    x1 x0  ..   ..  . = . xm xm−1 aditivo. Los coeficientes ai se obtienen   a1 . . . x1−n ..   ..  .. . .  .  . . . xm−n an (3.13) De otra forma: X=W·A (3.14) (WT W)A = WT X (3.15) que por mı́nimos cuadrados: donde WT W es la matriz de autocorrelación de xk . Esta ecuación se resuelve eficientemente con el algoritmo de recursión de Levinson-Durbin. La transformada de Fourier discreta de la función de transferencia del modelo autorregresivo: G(θ) = 1 n X 1− ak e−jkθ (3.16) k=1 constituye una estimación del espectro de potencias que tiende al obtenido con la FFT al ir aumentando el número de coeficientes ak . Es, por tanto, una envolvente o un promedio del espectro que se obtiene con la DFT, salvo por la escala de amplitudes. También es posible recurrir a una combinación de cepstrum y predicción lineal hallando el primero a partir del espectro autorregresivo. Si los polos 44 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN del modelo autorregresivo z = zi están dentro de la circunferencia unidad y la ganancia es unidad, el cepstrum clp (n) está dado por:  p   1X n z n>0 clp (n) = (3.17) n i=1 i   0 n≤0 Wavelets Uno de los inconvenientes que suele suponer el uso del espectrograma es la solución de compromiso que hay que tomar en cuanto a la resolución temporal y frecuencial, que están determinadas de forma inversa por el tamaño de ventana escogido. Cuando este detalle es importante en determinado análisis, una opción a la que se puede recurrir es wavelets [18]. El análisis con wavelets es semejante al espectrograma con dos diferencias importantes: Ventanas de tamaño variable: más espacio de tiempo donde se quiere información de bajas frecuencias más precisa, y ventanas temporales más cortas donde se precisa más información de altas frecuencias. Funciones base distintas de las senoidales llamadas wavelets: formas de onda de duración limitada que cumplen una serie de propiedades como media nula y cuya forma es más bien irregular. Esta forma permite que las caracterı́sticas locales de la señal analizada sean mejor descritas. Consiste por tanto en descomponer la señal original en versiones desplazadas y cambiadas de escala temporal de una wavelet original en lugar de hacerlo en senos y cosenos (o exponenciales complejas) como en el caso del espectrograma. En este caso ya no se representa la amplitud de armónicos frente a frecuencia y tiempo ya que, al no ser las wavelets periódicas, no se habla de frecuencia sino de escala (respecto a una wavelet original). Tampoco se habla de amplitud de armónicos sino de coeficientes de wavelet. La transformada wavelet continua. La transformada wavelet continua de la función f (t) se define de forma muy parecida a la transformada de Fourier: Z ∞ C(escala, posicion) = f (t)Ψ(escala, posicion, t) dt (3.18) −∞ donde Ψ es la función wavelet. Existen muchas posibilidades para esta función como son la de Haar, las de Daubechies, Biorthogonal, Coiflets, Symlets, etc. cada una de las cuales tiene diferentes propiedades. 3.3. EXTRACCIÓN DE CARACTERÍSTICAS 45 Filtro paso-alto “detalles” H0 ↓2 H1 ↓2 Filtro paso-bajo “aproximaciones” Figura 3.3: Bloque de filtrado para transformada wavelet discreta. La transformada wavelet discreta. La transformada wavelet continua no es adecuada para la extracción de caracterı́sticas por la carga de cálculo que implica. Es necesaria una versión discreta para su cálculo eficiente en un computador. Esta es la transformada wavelet discreta, que se calcula en escalas y tiempos potencias de dos en vez de en todos los posibles como ocurre en la continua. La transformación base consiste en tomar una señal y obtener de ella otras dos, resultado de pasarla por dos filtro, uno paso-alto y otro paso-bajo. Como queremos obtener tantos datos como se tenı́an inicialmente y sin embargo se tiene el doble, se toma sólo una de cada dos muestras en las dos señales filtradas (submuestreo o downsampling). El esquema del proceso se muestra en la figura 3.3. La señal que contiene las bajas frecuencias es la que más caracteriza la señal original y por eso se denomina de aproximación, mientras que la de altas frecuencias es la de detalle. Si sucesivamente se repite la misma operación sobre la señal de aproximación, como se muestra en la figura 3.4, los datos que se obtienen corresponden a las regiones de frecuencias y tiempos que se representan en la figura 3.5. En algún caso la región de frecuencias de interés podrı́a no estar en la zona de bajas frecuencias sino en otra zona de frecuencias medias, por ejemplo. El proceso anterior se podrı́a realizar eligiendo según convenga la señal de detalle o de aproximación para obtener la zona con mayor resolución frecuencial 46 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN H0 1 ↓2 H1 2 ↓2 H0 ↓2 H0 ↓2 3 H1 ↓2 4 ↓2 H1 Figura 3.4: Filtrado para transformada wavelet discreta. 1 1 1 1 Frecuencia 2 2 3 4 Tiempo (muestras) Figura 3.5: Frecuencias en el filtrado para transformada wavelet discreta. 3.3. EXTRACCIÓN DE CARACTERÍSTICAS 47 donde interese. Se entra ya en lo que se denomina wavelet packets. Espectros de orden superior El espectro de potencia de una señal de un proceso estacionario {xk } se puede definir según el teorema de Wiener-Khintchine como la transformada de Fourier de la secuencia de autocorrelación: Sxx (θ) = ∞ X rxx (k)e−jkθ (3.19) k=−∞ siendo θ la frecuencia normalizada y definiéndose la secuencia de autocorrelación de {xk } como la esperanza: rxx (n) = E(x∗k xk+n ) (3.20) Otra definición equivalente es: Sxx = E{X(θ)X ∗ (θ)} (3.21) Los momentos de orden superior son una generalización de la autocorrelación, y como combinaciones no lineales de éstos especialmente útiles se encuentran los cumulantes. En concreto el cumulante de primer orden coincide con la media y el de segundo orden con la autocorrelación: C1x = E(xk ) C2x (n) = E(x∗k xk+n ) (3.22) (3.23) Los cumulantes de orden superior son sensibles a un desplazamiento de media y es, por tanto, conveniente definirlos bajo la suposición de media nula. Si el proceso tiene media no nula se restará la media y se aplicarán las definiciones de los cumulantes al proceso resultante. Los espectros de orden superior o poliespectros se obtienen como generalización de la ecuación (3.19) a los cumulantes de orden superior. Por ejemplo, del cumulante de orden tres: C3x (m, n) = E(x∗k xk+m xk+n ) (3.24) se obtiene el biespectro (figura 3.6): S3x (θ, φ) = ∞ X ∞ X C3x (m, n)e−jnθ e−jmφ (3.25) m=−∞ n=−∞ Los cumulantes y poliespectros de orden mayor de dos tienen utilidad debido a las siguientes caracterı́sticas que poseen [65]: 48 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN Figura 3.6: Biespectro de la vibración de un motor de inducción en sus cojinetes. Si yk y xk son procesos independientes entonces los cumulantes de la suma zk = xk +yk son iguales a la suma de cumulantes Cnz = Cnx +Cny . Si wk es gaussiana entonces sus cumulantes de orden mayor que dos son nulos. De las dos anteriores propiedades se deduce que si wk es gaussiana e independiente de xk y zk = xk + wk , entonces para cumulantes n > 2 (de orden superior a dos) Cnz = Cnx . Es decir, que estos cumulantes de una señal no gaussiana no se ven afectados por la presencia de ruido gaussiano coloreado. Los cumulantes de orden superior a dos pueden servir para analizar no linealidades en procesos, mientras que la secuencia de autocorrelación no. Los poliespectros, al contrario que el espectro de potencia, son complejos. Es decir, que preservan información de fase. Existen otras herramientas de análisis como son la bicoherencia, que es una versión normalizada del biespectro, y todas las que se derivan para analizar relaciones entre distintas señales, es decir, los cumulantes y poliespectros cruzados. Los cumulantes y poliespectros son útiles en el análisis de vibraciones de motores eléctricos [67] [2] [17] y en mantenimiento predictivo de máquinas eléctricas en general [64]. 3.4. TÉCNICAS DE PROYECCIÓN 3.3.3. 49 Otras técnicas de extracción de caracterı́sticas Existen multitud de técnicas aplicables a extracción de caracterı́sticas y cada campo tiene distintos subconjuntos de éstas como más usuales. En Reconocimiento del Habla son muy tı́picas las de análisis espectral, al igual que en Visión Artificial (en la versión bidimensional del análisis espectral). La estadı́stica proporciona muchas posibilidades de generación de caracterı́sticas: estadı́sticos de primer orden (media), de segundo orden (varianza) y de órdenes superiores. Ası́, por ejemplo, para las señales que denominamos dinámicas es tı́pico usar el valor eficaz, que es equivalente a la desviación tı́pica cuando son señales de media nula, como es el caso de las vibraciones. Algunas de las técnicas que se comentan en el siguiente apartado (como PCA) suelen considerarse dentro de las de extracción de caracterı́sticas. En esta tesis no se hace ası́ por el especial uso que se hace de ellas, aplicadas sobre todo a visualización. Nada impedirı́a usarlas para extracción de caracterı́sticas, salvo quizás el hecho de que se puede perder el significado fı́sico en las caracterı́sticas resultantes. 3.4. Técnicas de proyección Las técnicas de proyección también persiguen el objetivo de reducción de la dimensionalidad de los datos, sólo que en este caso dicha reducción se lleva a cabo sin aplicar conocimiento previo, simplemente por consideraciones de geometrı́a de los datos, de correlaciones entre ellos. Una proyección implica crear una correspondencia de cada punto del espacio de los datos (espacio de entrada o espacio de caracterı́sticas) con un punto de un subespacio topológico 3 de menor dimensión intrı́nseca definido en dicho espacio de entrada (figura 3.7). Cuando el objetivo final es la visualización, este subespacio topológico será bidimensional o tridimensional (considérese 2D por simplicidad), y a su vez se establecerá otra correspondencia (esta vez biyectiva) con otro espacio de igual dimensión (un plano, por simplicidad) fácilmente representable de forma gráfica y llamado espacio de visualización. El requisito fundamental para la técnica de proyección en cuanto a supervisión de procesos es que no se pierda información relevante en la proyección. Siempre se pierde información debido a que la correspondencia entre el espacio de entrada y el subespacio topológico no es biyectiva (es una correspondencia “muchos a uno”), pero debe tratarse de que lo que se pierda no sirva 3 O también variedad n-dimensional, como traducción del término inglés manifold. 50 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN 15 10 5 0 −5 −10 −15 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 Figura 3.7: Subespacio topológico de dimensión intrı́nseca 1 dentro de un espacio bidimensional. para discriminar condiciones en el proceso. Este requisito está relacionado con el de conservación de la topologı́a, que se comentará en el apartado 4.3. 3.4.1. Técnicas de Proyección Lineal Análisis de Componentes Principales El Análisis de Componentes Principales (Principal Component Analysis, PCA) consiste en la proyección lineal de los vectores xk del espacio de entrada en un espacio de menos dimensiones tal que tiene como base los vectores propios correspondientes a los valores propios mayores de la matriz de covarianzas Σ y que se llaman componentes principales: N Σ= 1 X (xk − x̄)(xk − x̄)T N − 1 k=1 (3.26) donde x̄ es la media de los vectores: N 1 X x̄ = xk N k=1 (3.27) Puesto que la matriz de covarianzas es real y simétrica sus vectores propios son ortogonales. Cuanto más se reduzca la dimensionalidad (menos vectores 3.4. TÉCNICAS DE PROYECCIÓN x2 u2 C1 51 u1 C2 x1 Figura 3.8: Pérdida de discriminación entre clases en PCA. propios se tomen como base para el espacio final) mayor es el error cometido. Normalmente lo que se pretende es reducir la dimensionalidad lo más posible sin que se pierda la información que discrimina entre las diferentes clases contenidas en los datos. Este problema se puede ilustrar con el sencillo ejemplo de la figura 3.8. Tomando un espacio final unidimensional, la proyección de las clases C1 y C2 serı́a sobre el vector u1 4 . Este procedimiento de reducción de dimensionalidad descrito también recibe el nombre de transformación de Karhunen-Loéve. El PCA tiene como inconveniente, igual que todas las técnicas de proyección lineales, que no da buenos resultados cuando en los datos hay presentes no linealidades. Sin embargo, existen varios intentos de aplicarlos con éxito a casos no lineales por medio de PCA locales [91]. Projection Pursuit Projection Pursuit es un conjunto de técnicas no supervisadas que realizan una proyección lineal que es de algún modo “interesante”, por medio de la optimización de una cierta función objetivo —función de “interés”— llamada ı́ndice de proyección (projection index ). Una proyección se considera “interesante” cuando los datos proyectados tienen alguna estructura: correlaciones entre variables, agrupamientos (función de densidad multimodal), etc. La distribución normal es la menos estructurada de todas las posibles. 4 En cambio, si se usase un método supervisado (teniendo en cuenta la información sobre las clases existentes) como el discriminante lineal de Fisher, que se mencionará más adelante, la proyección serı́a sobre u2 y no habrı́a pérdida de la información discriminante. 52 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN Cuando se aplica a estimación de densidad o regresión, projection pursuit sufre menos la maldición de la dimensionalidad que otras técnicas. Por otra parte tiene las desventajas de una técnica lineal y la de requerir una gran carga computacional. PCA es un caso particular de projection pursuit cuando el ı́ndice de proyección es la varianza de los datos proyectados. Otros casos particulares especialmente importantes son la técnica de Independent Component Analysis (ICA) [19][43] y el discriminante de Fisher [12][90] [32] Random Projections Esta técnica, de desarrollo muy reciente, consiste en proyectar de un espacio de dimensión d en un espacio de dimensión k, por medio de una matriz k ×d aleatoria, R, en la que cada vector columna se ha normalizado a módulo unidad. Se aprovecha el hecho de que vectores aleatoriamente escogidos en un espacio de altı́sima dimensionalidad son casi ortogonales, y por tanto, para d tendiendo a infinito, R tiende a ser ortogonal: RT R ' I. Se suele usar para reducciones de dimensión d desde ordenes superiores a decenas o centenas de miles hasta una dimensión k de un orden de cientos5 . Random Projections se aplica, tı́picamente, en Data Mining e indexado en grandes bases de datos de documentos de texto, de audio o de imágenes [49] [10]. 3.4.2. Escalado Multidimensional Los métodos de escalado multidimensional (Multidimensional Scaling, MDS) son un conjunto de métodos de proyección cuyo objetivo es conseguir en el espacio de salida unas distancias mutuas entre los puntos semejantes a las que éstos tienen en el espacio de entrada. Ello se realiza por minimización de una función de coste. El caso más simple es el de MDS métrico, que tiene como función de coste: XX E= (Xij − Yij )2 (3.28) i j6=i siendo X = (Xij ) e Y = (Yij ) las matrices de distancias mutuas de los puntos de entrada xk ∈ Rn y los de salida yk ∈ Rp respectivamente. Las distancias no tienen por qué ser euclı́deas. Conservar todas las distancias mutuas en los dos espacios sin más es imposible, en general, cuando la dimensión del espacio de salida es menor que la del espacio de entrada. Sin embargo suele interesar conservar más las 5 Por debajo de esos valores esta técnica deja de ser válida. 3.4. TÉCNICAS DE PROYECCIÓN 53 distancias más cortas, o lo que es lo mismo, suele interesar una conservación de la topologı́a local. Ası́ surge la Proyección de Sammon, que tiene como función de coste: 1 1 XX (Xij − Yij )2 (3.29) E= c i j<i Xij P P donde c = i j<i Xij es una constante de normalización. Una evolución de la proyección de Sammon es el método denominado Análisis de Componentes Curvilı́neas (Curvilinear Component Analysis, CCA) [23], que tiene como función de coste: 1 XX E= (Xij − Yij )2 F (Yij , λy ) (3.30) 2 i j6=i Como función F generalmente se escoge una función acotada y monótona decreciente para favorecer la preservación de la topologı́a local. Una forma simple podrı́a ser la función escalón: 1 si Yij ≤ λy F (Yij , λy ) = (3.31) 0 si Yij > λy donde λy se hace decrecer a lo largo del entrenamiento. Una ventaja importante de este método es que tiene menos carga computacional que la proyección de Sammon, además de ser capaz de “desdoblar datos fuertemente curvados” y de permitir escoger la escala a la que las distancias del espacio de entrada se respetan en el espacio de salida. Para las funciones F que cumplan ∂F/∂Yij = 0, tenemos la siguiente expresión para actualizar los yj : ∆yj = α(t)F (Yij , λy )(Xij − Yij ) yj − yi Yij ∀j 6= i (3.32) donde α(t) es un valor que decrece a lo largo del entrenamiento. Para comprobar la conservación de la topologı́a en CCA se usan representaciones dx—dy, que no están limitadas a ser usadas sólo con CCA. Un enfoque similar, que puede considerarse también encuadrado dentro de los métodos MDS, denominado Isomap [89], usa distancias geodésicas (camino más corto contenido dentro del subespacio topológico de los datos), caracterı́stica con la cual se afirma que es capaz de detectar mejor que otras técnicas MDS la geometrı́a de dicho subespacio topológico y su dimensionalidad intrı́nseca, incluso para casos fuertemente no lineales. También puede considerarse dentro del grupo de MDS la técnica llamada locally linear embedding (LLE) propuesta por Roweis et al. en [79], en la que la función de coste es el error de reconstrucción de cada dato como suma ponderada de sus k vecinos más próximos. 54 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN En general, este grupo de técnicas funcionan bien cuando se tienen comportamientos no lineales, pero: tienen una carga computacional relativamente elevada, es necesario iterar para proyectar nuevos puntos, y el espacio de visualización tiene una distribución irregular (aunque esto no es un inconveniente importante). 3.4.3. Modelos Autoasociativos Redes Neuronales Autoasociativas Por la capacidad que tienen las redes neuronales feedforward para llevar a cabo mapeos no lineales de un espacio vectorial a otro, sus aplicaciones son innumerables. Una de las más interesantes es la de reducción de la dimensionalidad por proyección no lineal. Se considera un perceptrón multicapa con dos capas de pesos, teniendo d entradas y d salidas y con M neuronas en la capa oculta tal que M < d. Si como objetivo en el entrenamiento se usan los propios vectores de entrada, la red intenta mapear cada vector sobre sı́ mismo y debido al reducido número de neuronas en la capa oculta la perfecta reconstrucción de todos los vectores de entrada no es, en general, posible. Esta red neuronal realiza un mapeo autoasociativo. Si las neuronas en la capa oculta tienen funciones de activación lineales se puede demostrar que la red realiza una proyección lineal sobre el espacio definido por las M componentes principales de los datos, es decir, que es equivalente al Análisis de Componentes Principales. Es posible conseguir una versión no lineal del Análisis de Componentes Principales añadiendo más capas ocultas con funciones de activación no lineal. Un esquema que se puede proponer es el mostrado en la figura 3.9 donde se presenta un perceptrón multicapa de cuatro capas donde las neuronas de la primera y tercera capas tienen función de activación no lineal, mientras que las de la segunda y cuarta pueden ser lineales. En la salida de las neuronas de la capa oculta aparecerá la proyección no lineal del vector de entrada sobre un espacio de M dimensiones [12]. El único inconveniente que se le puede achacar es la extrapolación que realiza la red cuando se le presenta a la entrada un vector fuera del dominio de los datos de entrenamiento, lo cual puede hacer que no sean muy adecuadas para la generación de residuos [30]. 3.4. TÉCNICAS DE PROYECCIÓN 55 SALIDAS xd x1 no lineal → z1 zM no lineal → x1 ENTRADAS xd Figura 3.9: Perceptrón multicapa en configuración autoasociativa. Radial Basis Functions Las redes de funciones base radiales (Radial Basis Functions, RBF) constituyen otro de los modelos de redes neuronales. La principal ventaja que poseen es la relativa rapidez y facilidad de entrenamiento. Este entrenamiento se realiza en dos fases. En la primera se determinan los parámetros de las funciones base por medio de, generalmente, métodos no supervisados. En una segunda fase se determinan los pesos que conforman la capa de salida de la red RBF. Las funciones base radiales tienen su origen en técnicas de interpolación exacta para aproximación de funciones multidimensionales. Se parte de unos datos de salida yj y otros de entrada xj correspondientes, y el objetivo es encontrar la función f tal que: yj = f (xj ) j = 1, . . . , N (3.33) La función f se escoge como suma ponderada con un conjunto de N funciones base φi (x) = φ(kx − xi k), una por cada punto: f (x) = N X φi (x)wi (3.34) i=1 Cuando el número de puntos es muy grande, la carga de cálculos puede ser excesiva si se utiliza una función base centrada en cada punto. En ese caso se suele recurrir a usar un número menor de centros calculados a partir de los puntos de entrada por métodos no supervisados [92]. 56 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN Evaluando la ecuación (3.34) para cada punto, se obtiene el conjunto de ecuaciones siguiente: ykj = M X φi (xj )wki j = 1, . . . , N k = 1, . . . , D (3.35) i=1 donde D es el número de dimensiones del espacio de salida y M el número de centros de las funciones base. El conjunto de ecuaciones se puede poner en forma matricial: Y = WΦ (3.36) siendo Y = (ykj ), W = (wki ), y Φ = (φij ) con φij = φi (xj ). Resolviendo por mı́nimos cuadrados se obtiene: WT = (ΦΦT )−1 ΦYT (3.37) Las funciones base φi (x) suelen ser gaussianas: φi (x) = e−kx−µi k 2 /2σ 2 (3.38) donde los µi son los centros de las funciones base y σ su ancho. Ese ancho σ de las funciones base puede ser igual para todas, distinto para cada una, e incluso matrices, de tal forma que las funciones base dejan de ser esféricas. Existen multitud de métodos para la elección de esas σ, como métodos heurı́sticos, en los que muchas veces se da su valor en función de las distancias entre centros, métodos de optimización a través de una función de coste, muchas veces calculando las σ de forma simultánea a los centros, etc. [41] [60]. En la ecuación (3.34) se suele añadir un término independiente w0 que compensa la diferencia de media entre las activaciones de las funciones base y las salidas yj . Este término independiente se puede incorporar al sumatorio con una nueva función base φ0 (x) = 1. A veces se introduce un término en la ecuación 3.37 para conseguir una solución más “suave”, refiriéndose éste adjetivo a la (hiper)superficie o mapeo entrada–salida y en el sentido de que entradas parecidas correspondan con salidas parecidas. Resulta entonces la ecuación: WT = (ΦΦT + λI)−1 ΦYT (3.39) donde λ es el coeficiente de regularización. Este resultado deriva de la teorı́a de regularización que surgió con la idea de estabilizar la solución en problemas mal condicionados por medio de una función auxiliar que integra información a priori acerca de la solución [74] [41]. 3.4. TÉCNICAS DE PROYECCIÓN 3.4.4. 57 Mapas Topológicos Self-Organizing Map Self-Organizing Map (SOM) es una arquitectura de red neuronal de aprendizaje competitivo, no supervisado o auto-organizado que fue propuesta por Kohonen [53] [56] [54] [55]. Está basado en otros métodos de aprendizaje competitivo como Vector Quantization (VQ). El método VQ trata de conseguir un conjunto finito de vectores mi ∈ Rn llamados vectores de codificación (codebook vectors) con una distribución que aproxime la función de densidad de probabilidad continua de una variable aleatoria vectorial representada por un conjunto de muestras x ∈ Rn . Ello se consigue con un proceso iterativo que consta de dos partes. Primero, para una muestra xj se busca el vector de codificación más “parecido” mc (neurona o unidad “ganadora”). Segundo, ese vector de codificación se actualiza de forma que sea aún más “parecido” al xj . Generalmente se usa como criterio de semejanza entre los xj y los mi la distancia euclı́dea, y entonces el mi más parecido a xj será aquél tal que kxj − mi k sea mı́nimo. La actualización del vector de codificación será de la forma: mnuevo = mc + α(k)[xj − mc ] c (3.40) El proceso se repite para todas las muestras xj , con j = 1, . . . , N , y todo ello a su vez se repite un cierto número de veces e (número de épocas). Además 0 < α(k) < 1 es un parámetro monótonamente decreciente con el paso o época6 k (cada vez que se recorren todos los xj ) con k = 1, . . . , e. Al cabo de cierto número de épocas, el algoritmo converge. Un proceso semejante es el que se lleva a cabo en el algoritmo k-means, pero buscando los mc para todos los xj antes de actualizar ninguno, y luego realizando la actualización de mi haciendo que cada uno de ellos se convierta en la media de los xj que le tienen como vector de codificación más cercano. El aprendizaje para el caso del SOM es igual al del VQ salvo por el hecho de que se fuerza una ordenación en sus unidades mi . Para ello se define previamente dicha ordenación sobre unas unidades gi en un espacio de generalmente dimensión 1 ó 2, denominado espacio de salida o espacio de visualización; esas unidades gi se corresponden una a una con las unidades mi . Esta ordenación suele consistir en un alineamiento de las unidades (en el caso 1D) o de la formación de una rejilla regular (en el caso 2D). También se define en este espacio de visualización una medida de distancia entre las unidades. La ordenación en el espacio de entrada de los mi se consigue, en 6 Se puede comenzar con un valor cercano a 1 y terminar con uno muy cercano a 0, por ejemplo 0,01. 58 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN el algoritmo de aprendizaje, actualizando no sólo la ganadora mc , sino sino todos los mi tales que sus gi correspondientes son vecinas de la gc : mnuevo = mv + α(k)[xj − mv ] v con v = {i | dv (gi , gc ) ≤ nc (k)} (3.41) donde dv () es la distancia definida en el espacio de visualización y nc (k) es una distancia decreciente7 con la época k. La vecindad es por tanto decreciente con el número de época, consiguiendo ası́ una rápida ordenación global inicial para, posteriormente, ir afinando de forma local. Otra posibilidad es actualizar en mayor proporción las unidades más cercanas a la ganadora: mnuevo = mv + hci (k)[xj − mv ] v (3.42) donde hci es una función escalar de núcleo: 2 hci (k) = h(k) e−dv (gi ,gc )/σ 2 (k) (3.43) En esta ecuación h(k) es equivalente al α(k) de la ecuación (3.41) y σ(k) tiene interpretación semejante al nc (k), indicando la amplitud del campo receptivo, esto es, las neuronas del entorno de la ganadora que se ven afectadas. Ambos se suelen hacer decrecer con la época k. El SOM, una vez entrenado, define una proyección no lineal del espacio de entrada sobre el espacio de visualización, en el que un punto x del primer espacio se proyecta en el segundo como y = gc , siendo gc el nodo de la rejilla correspondiente a la unidad ganadora para el dato x, es decir, el gi correspondiente al vector de codificación mi más cercano a x en el espacio de entrada. Una caracterı́stica muy importante, puesto que permite la visualización de la proyección por SOM, es la preservación de la topologı́a del espacio de entrada en el espacio de visualización. De acuerdo con esta propiedad, unidades vecinas en el espacio de visualización lo son también en el espacio de entrada. Aunque la preservación de la topologı́a no está totalmente garantizada en el SOM en todas las condiciones, existen medidas que indican en qué grado se cumple [96] [5]. Otra caracterı́stica del SOM es que sus vectores de codificación se distribuyen para aproximar la función de densidad de probabilidad de los datos de entrenamiento en el espacio de entrada8 , tendiendo a conseguir una distribución uniforme de estos datos proyectados en el espacio de visualización. Esto 7 Tı́picamente, se puede comenzar con un valor mitad del tamaño de la rejilla. La relación entre densidad de neuronas m(x), valor denominado factor de magnificación, y la densidad de datos de entrenamiento f (x) no es lineal para el algoritmo original de entrenamiento del SOM [54] [41], sino que se tiene aproximadamente: m(x) ∝ f 2/3 (x). Sin embargo existen versiones del entrenamiento del SOM que sı́ consiguen una relación lineal [24]. 8 3.4. TÉCNICAS DE PROYECCIÓN 59 hace que el SOM dedique regiones más grandes en el espacio de visualización a las agrupaciones de datos más densas. Debido a su mayor densidad, dichos datos pueden conformar estructuras más complejas, que quedarán mejor descritas en su proyección gracias a esta caracterı́stica del SOM. Una caracterı́stica del SOM interesante para métodos de visualización y redundancia analı́tica basada en datos es que la proyección se realiza en una zona delimitada; nada se proyecta fuera de la rejilla del espacio de visualización. Kernel Regression Self-Organizing Maps El SOM de regresión de núcleo (KR-SOM) es una ampliación del SOM [31] [29] [26] que intenta paliar las desventajas que genera el carácter discreto de éste. Esto incluye la dificultad de detectar ligeras tendencias o derivas que pueda experimentar un proceso, cuando se usa el SOM para proyectar su trayectoria de estado. El KR-SOM constituye una versión continua o interpolada del SOM. Existen dos posibilidades para realizar la interpolación: Interpolación exacta: RBF. Interpolación no exacta: GRNN. Las RBF, que se explicaron en apartados anteriores, son menos interesantes para KR-SOM de cara a la generación de residuos [30]. La definición de KR-SOM se hará con GRNN, que se definirá a continuación. General Regression Neural Network. La regresión de una variable dependiente y sobre una variable independiente (vectorial) x consiste en el cálculo del valor esperado de y para cada valor de x. Cuando disponemos de la función de densidad de probabilidad conjunta f (x, y) el cálculo puede realizarse de la siguiente forma: Z +∞ y f (x, y) dy E[y|x] = Z−∞+∞ (3.44) f (x, y) dy −∞ Si función de densidad de probabilidad conjunta no es conocida, se puede estimar a partir de datos, como media de gaussianas de varianza σ 2 centradas en cada dato del espacio conjunto (xi , yi ); este método se denomina estimador de Parzen. Bajo esas condiciones, se puede demostrar [85] que la siguiente 60 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN expresión produce una estimación de E[y|x]: kx−xi k2 e− 2σ2 yi ŷ(x) = Pi kx−xi k2 − 2σ 2 e i P (3.45) refiriéndose el ı́ndice i a todos los datos de que se dispone. La ecuación (3.45) recibe el nombre de General Regression Neural Network (GRNN). Definición de KR-SOM. En el KR-SOM la proyección del espacio de entrada sobre el espacio de visualización se realiza usando una GRNN (Generalized Regression Neural Network ) que realiza una aproximación de función continua Q : Rn −→ R2 por interpolación a partir de un conjunto de puntos mi de Rn y sus correspondientes gi de R2 : P φ(kx − mi k)gi y = Q(x) = Pi (3.46) j φ(kx − mj k) De manera análoga, también existe la posibilidad de realizar la proyección del espacio de visualización al espacio de entrada: P i φ(ky − gi k)mi x = R(y) = P (3.47) j φ(ky − gj k) La función de núcleo φ suele tomarse de la forma: kzk2 φ(kzk) = e− 2σ2 (3.48) El KR-SOM presenta el problema de la no exacta equivalencia inversa entre la proyección del espacio de entrada al espacio de visualización (proyección directa) y la del espacio de visualización al de entrada (proyección inversa). Esto quiere decir que si se proyecta un punto x del espacio de entrada al espacio de visualización, resultando un punto y, y este punto y a su vez se proyecta de vuelta al espacio de entrada, resulta un punto x0 que en general x0 6= x. De este problema tampoco están exentos otros tipos de mapas topológicos (se verá en GTM), y algunos, como el PSOM de Ritter [77] [98] [97], lo resuelven por iteración. Esto no suele ser un problema grave puesto que el análisis visual cualitativo que se tiene como objetivo en esta tesis no se ve afectado en gran medida por ello. Sin embargo, se puede proponer una solución sencilla y práctica al problema de la no igualdad de la proyección directa-inversa. Esta solución consiste en realizar un SOM interpolado por proyección hacia el espacio de entrada, a 3.4. TÉCNICAS DE PROYECCIÓN Espacio de entrada 61 Espacio de visualización 9 8 7 1 6 retroproyección 5 0 4 3 −1 2 2 2 0 0 −2 −2 1 0 0 2 4 6 8 Figura 3.10: KR-SOM de retroproyección. Las neuronas del SOM interpolado de 30 × 30 aparecen en negro y las neuronas del SOM original de 10 × 10 aparecen en rojo unidas por la malla azul. través de la ecuación (3.47), de una rejilla fina en el espacio de visualización, o lo que es lo mismo, una rejilla con más neuronas que ocupe el mismo espacio que la rejilla original. Posteriormente este SOM interpolado se usarı́a como un SOM normal (KR-SOM de retroproyección). También es una solución al problema de elección de parámetros de las RBF porque, al formar los centros de origen una rejilla regular, se pueden fijar las σ 2 todas iguales9 . El esquema de esta idea se muestra en la figura 3.10. Este KR-SOM de retroproyección introduce a su vez un inconveniente respecto a un SOM original del mismo número de neuronas y es que aumenta el número de neuronas interpolantes. Sin embargo, con el progresivo aumento de la capacidad de cálculo del hardware para el mismo coste, es posible cada vez entrenar SOMs más grandes en un tiempo aceptable, con lo que los inconvenientes derivados de su carácter discreto se disipan. Existen alternativas al KR-SOM como PSOM (Parameterized SOM ) [77] [98] [97], que tiene algunos inconvenientes para su aplicación a la metodologı́a usada en esta tesis puesto que la proyección del espacio de entrada al de visualización requiere iteración con un coste computacional relativamente elevado. 9 Cuando los centros origen de la interpolación están regularmente distribuidos, la interpolación es de mayor calidad, y la σ puede ser la mitad de la distancia entre centros, por ejemplo. 62 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN Generative Topographic Mapping El Generative Topographic Mapping (GTM) es semejante al SOM, pero con base estadı́stica [87] [13]. El GTM es un modelo no lineal de variables latentes en el que se trata de encontrar una representación para una distribución p(t) de datos en un espacio con D dimensiones t = (t1 , . . . , tD ) en términos de L variables latentes x = (x1 , . . . , xL ). Para el caso que nos ocupa, la visualización de espacios de alta dimensionalidad, D será alto y L = 2. En GTM en principio se define la proyección del espacio latente sobre el espacio de entrada como una función continua y(x; W). Esta función generalmente tiene la forma: y(x; W) = Wφ(x) (3.49) donde W es una matriz D × M de parámetros y φ(x) es un vector de M funciones base, que se suelen tomar de la forma: − φ(x) = e kx−µj k2 2σ 2 j j = 1, . . . , M (3.50) Los parámetros µj y σj se escogen para que las funciones base se repartan adecuadamente por el espacio latente (espacio de visualización). Los parámetros de la matriz W se hallan con un algoritmo de maximización de la esperanza (EM, Expectation Maximization), teniendo en cuenta que en el espacio de entrada se supone una función de densidad de probabilidad: D/2 β β 2 exp − ky(x; W) − tk (3.51) p(t|x, W, β) = 2π 2 y en el espacio latente, en semejanza al SOM, se supone una distribución de probabilidad “uniforme” en una rejilla regular discreta: K 1 X p(x) = δ(x − xi ) K i=1 (3.52) donde xi son los K nodos de la rejilla regular discreta en el espacio latente. En la ecuación 3.51 se observa que se ha escogido, para la distribución de t dado x, una gaussiana radialmente simétrica de varianza β −1 . Luego, para obtener una proyección del espacio de entrada al de visualización, aplicando el teorema de Bayes se puede calcular la distribución de probabilidad en el espacio de visualización: p(t|xi , W, β) p(xi |t) = PK j=1 p(t|xj , W, β) (3.53) 3.4. TÉCNICAS DE PROYECCIÓN 63 y usar un valor representativo de dicha distribución p(xi |t) (media, mediana,. . . ) como proyección de un punto t. La proyección por GTM hace que una región del espacio latente pueda estar estirada o comprimida en el espacio de entrada, dependiendo de la distribución de datos en éste [11]. Debido a ello, las agrupaciones de datos del espacio de entrada proyectados en el espacio latente pueden aparecer con una separación relativa mayor o menor de la real. Para cuantificar este estiramiento o compresión se dispone de los factores de magnificación (magnification factors). Se define el factor de magnificación de un punto del espacio latente x como: dA0 = det1/2 (ψ T WT Wψ) (3.54) dA siendo dA0 un elemento diferencial de área en el espacio de entrada que es correspondiente al elemento diferencial de área dA del espacio latente en torno a x, y siendo ψ(x) una matriz con elementos: ψij = ∂φi ∂xj (3.55) siendo las xj las componentes de x. 3.4.5. Otras técnicas de proyección Existen muchas otras técnicas de proyección. Por mencionar algunas más, el análisis de componentes principales de núcleo (Kernel PCA) consiste en aplicar PCA lineal a los datos después de haber sido llevados por medio de una transformación no lineal a un espacio de dimensión superior a la del espacio de entrada [80] [82]. Las curvas y superficies principales, propuestas por Hastie y Stuetzle [40], pueden considerarse otra generalización no lineal de PCA. Una curva principal es una curva tal que cada uno de sus puntos es el promedio de todos los datos que se proyectan sobre él. 64 CAPÍTULO 3. TÉCNICAS DE REDUCCIÓN DE LA DIMENSIÓN Capı́tulo 4 Data Mining Visual 4.1. Introducción El término Data Mining se refiere a la aplicación de un amplio número de métodos para procesar y analizar datos. El objetivo principal del Data Mining es la extracción de conocimiento de grandes bases de datos donde la dimensionalidad (número de variables), complejidad, o número de muestras es demasiado grande para un análisis manual. Está relacionado con campos como el análisis exploratorio de datos (exploratory data analysis) y el descubrimiento de conocimiento en bases de datos (knowledge discovery in databases). El objetivo de la exploración de datos es descubrir propiedades en los datos por medio de medidas descriptivas (estadı́sticas de cada variable, entre ellas, . . . ) o visualización. Se trata básicamente de llegar a una cierta “comprensión de los datos” y, de ahı́, a comprender el proceso subyacente [94]. La idea principal del Data Mining es combinar la flexibilidad, creatividad y conocimiento general de una persona con la potencia de cálculo y la capacidad de almacenamiento de un computador para una exploración de datos efectiva. El Data Mining Visual da un paso más, empleando la capacidad de representación gráfica para integrar a la persona en el proceso de exploración de datos, explotando sus capacidades de percepción visual y aprovechando el poco esfuerzo que requiere razonar con objetos visibles. El Data Mining Visual es muy útil cuando se tiene poco conocimiento a priori sobre los datos y puede ser usado para formular hipótesis sobre los mismos, que posteriormente podrán ser verificados en la aplicación de otras técnicas estadı́sticas y de aprendizaje automático (machine learning). Las técnicas de Data Mining Visual tienen ciertas ventajas frente a éstas técnicas automáticas de estadı́stica y machine learning: 65 66 CAPÍTULO 4. DATA MINING VISUAL Tratan más fácilmente con datos no homogéneos y ruidosos. Son intuitivas. No requieren la comprensión de complejos algoritmos matemáticos o estadı́sticos. Una representación visual de resultados da un mayor grado de confianza que la representación numérica o textual. Existen numerosos enfoques y formas de representación para llevar a cabo Data Mining Visual. Para procesos industriales complejos, en esta tesis se utilizará el enfoque de la reducción de la dimensionalidad, que consiste en proyectar los datos multidimensionales (medidas del proceso o transformaciones de éstas, es decir, caracterı́sticas) en un subespacio topológico bidimensional que se hará corresponder con un plano. Esa correspondencia será tal que las propiedades inteligibles del espacio multidimensional (las propiedades que permiten realizar razonamientos directamente con ellas: variables con significado fı́sico, las relaciones entre ellas, etc.) podrán trasladarse al plano para ser representadas y ası́ poder ser usadas para realizar razonamientos en dicho plano[29] [28] [26] [27] [25] [20] [22]. 4.2. Formas básicas de representación El principal problema a la hora de representar datos multidimensionales es precisamente la dimensionalidad. Los medios tradicionales de representación (papel, pantalla) no permiten más que dos dimensiones espaciales. Esta limitación en principio parece sugerir como única alternativa la representación de datos como nubes de puntos (scatter plots, gráficas de dispersión) en un sistema cartesiano tı́pico que codifica valores de dos variables como posición en dos dimensiones1 . Estas simples representaciones de nubes de puntos son muy útiles para descubrir agrupamientos y correlaciones entre variables. Sin embargo, además de la posición en dos dimensiones, existen diversas formas de codificar valores en representaciones visuales como son el tamaño, el color, la forma, la textura, el movimiento, etc [15]. Un ejemplo que muestra la codificación por tamaño se muestra en la figura 4.1, en la que las dos primeras variables x e y se representan en los ejes de coordenadas, mientras que una tercera variable z se muestra como un tamaño de los cı́rculos proporcional al valor de dicha variable z. Un ejemplo semejante, pero codificando con color en lugar de con tamaño se puede ver en la figura 4.10. 1 Las representaciones 3D en un medio 2D como perspectiva tienen pérdida de información, salvo que sea un medio, como un computador, que permita la rotación interactiva. 4.2. FORMAS BÁSICAS DE REPRESENTACIÓN 67 3 2.5 2 1.5 Y 1 0.5 0 −0.5 −1 −1.5 −1.5 −1 −0.5 0 X 0.5 1 1.5 Figura 4.1: Gráfica de puntos dispersos con codificación en tamaño. Otra posibilidad son las matrices de gráficas de nubes de puntos, en las que las gráficas se hacen tomando dos a dos las variables (figura 4.2). La diagonal de la matriz puede aprovecharse para dibujar los valores de las variables frente al número de muestra. Si se trata de series temporales y el número de muestra está relacionado con el tiempo, esto permite extraer conclusiones acerca de las evoluciones temporales. Otra alternativa es table lens, un tipo de representación por codificación en color que permite la detección de relaciones entre variables. Consiste en la ordenación de los vectores muestra en función del valor de una de las variables. Las variables que también presenten una ordenación estarán relacionadas con la primera. En la figura 4.3 están representadas table lens para ordenación de cada una de las tres variables de los datos de ejemplo (de izquierda a derecha, x, y y z respectivamente). Se observa que existe una clara relación directa entre las variables y y z, y una más tenue (en una parte directa y en otra inversa) entre x y z. Finalmente, citar algunas más de entre la infinidad de formas de representación aplicables a Data Mining Visual, como coordenadas paralelas (parallel coordinates), mundos dentro de mundos (worlds within worlds), dense pixel displays, distorsión esférica (spherical distortion), distorsión hiperbólica (hyperbolic distortion), etc. [51] [15]. 68 CAPÍTULO 4. DATA MINING VISUAL x 2 xy 4 1 xz 4 2 2 0 0 0 −1 −2 0 500 1000 −2 −2 0 y 4 2 −2 −2 2 2 0 0 −2 0 0 yz 4 500 1000 −2 −2 0 4 z 2 2 4 2 0 −2 0 500 1000 Figura 4.2: Gráficas de puntos dispersos de pares de variables. X Y Z X Y Z X 100 100 100 200 200 200 300 300 300 400 400 400 500 500 500 600 600 600 700 700 700 800 800 800 Y Z Figura 4.3: Gráficas table lens para tres variables. 4.3. PROYECCIÓN DE DATOS 4.3. 69 Proyección de datos Un método para visualizar datos multidimensionales es la proyección de los mismos, lineal o no lineal, en un espacio visualizable. En principio se pierde la información de los valores de las variables, pero se conserva la de parecido entre muestras (como vectores) lo que permite un análisis de agrupamientos de forma visual. Sin embargo, ésta pérdida de información se puede evitar, pudiendo trasladarse información inteligible relacionada con las variables originales del espacio de entrada al espacio de visualización. Realizando el planteamiento de la proyección de datos para un proceso, se parte de un espacio de caracterı́sticas, en el que cada componente corresponde con una de las caracterı́sticas del proceso; este espacio no es visualizable por ser de alta dimensionalidad. El objetivo es realizar una proyección del espacio de caracterı́sticas en un espacio de visualización. La técnica de proyección que se vaya a usar para el análisis de procesos debe contemplar las siguientes posibilidades: 1. Proyección del espacio de caracterı́sticas sobre el de visualización, que es necesaria para proyectar vectores de caracterı́sticas individuales del proceso y, en particular, la trayectoria de estado. Se denominará a esta proyección Smi →gi (x), siendo x un punto del espacio de caracterı́sticas. 2. Proyección del espacio de visualización sobre el espacio de caracterı́sticas, que es necesaria para trasladar información inteligible desde el espacio de caracterı́sticas al de visualización2 . Esta proyección deberı́a ser la inversa de la del punto anterior para que la información mostrada en cada punto del espacio de visualización corresponda realmente a dichos puntos3 . Se denominará Sgi →mi (y), siendo y un punto del espacio de visualización. La proyección (en ambos sentidos) no tiene por qué ser continua o derivable. Sin embargo, si es discreta, conviene que esté definida para una rejilla regular en el espacio de visualización por simplicidad en la representación. Si la proyección es continua normalmente será posible escoger una rejilla regular. Los puntos de esta rejilla regular están identificados en la nomenclatura elegida para la proyección directa e inversa: gi son los puntos de la rejilla en el espacio de visualización y mi son los puntos correspondientes en el espacio de caracterı́sticas. 2 Dicho de otra forma, para dibujar los mapas de colores en el espacio de visualización. Sin embargo, cuando se busque una descripción más bien cualitativa esto no importa mientras el error no sea muy grande. 3 70 CAPÍTULO 4. DATA MINING VISUAL Una caracterı́stica que es especialmente deseable, tanto en la proyección directa como en la inversa, es la conservación de la topologı́a. Esta conservación de la topologı́a es difı́cil de definir, pero se puede dar como definición más restrictiva la siguiente: una proyección (función, mapeo) conserva la topologı́a cuando puntos adyacentes (cercanos, vecinos) en el espacio inicial lo son también en el espacio final. Respecto a los planteamientos de este apartado, está bastante claro qué significa “adyacencia” en el espacio de visualización. En el espacio de caracterı́sticas no está tan claro y hay que especificar que en dicho espacio interesa que la adyacencia se refiera a “dentro del subespacio topológico del proceso”, es decir, que la cercanı́a o lejanı́a de dos puntos se mida a lo largo del camino de mı́nima distancia contenido dentro de dicho subespacio topológico. La necesidad de este requisito se explica como la consecución de una trayectoria de estado que no sufra discontinuidades (que no “dé saltos”) durante cambios suaves en la condición del proceso. Existen varias técnicas de proyección mencionadas en el capı́tulo 3 que cumplen todas estas condiciones (o al menos casi todas). Algunas de las técnicas que dan buenos resultados, además de por los requisitos mencionados, por su buen comportamiento en la generación de residuos, son: SOM, KR-SOM y GTM. El SOM es discreto, y por ello no es muy preciso a la hora de revelar tendencias o derivas. El KR-SOM y el GTM son continuos y semejantes, pero ninguno cumple la condición 2 antes mencionada. Por otra parte, el inconveniente del carácter discreto del SOM se puede reducir usando más neuronas, viéndose solamente limitado este número por las capacidades de cálculo y almacenamiento del computador usado en su entrenamiento. Como ejemplo para ilustrar todo lo que se explicará en este capı́tulo se utilizará un ejemplo “de juguete” con datos (x, y, z) formando dos grupos. El primero y más pequeño de los grupos son datos con y y z constantes. El segundo se ha generado con la ecuación z = x2 + y para x, y ∈ [−1, 1] distribuidos de forma uniforme. A las tres variables se les ha añadido ruido gaussiano. En la figura 4.4 se muestran esos datos con una malla de SOM superpuesta que ha sido entrenado con dichos datos. 4.4. El error de modelado Al proyectar un punto del espacio de caracterı́sticas sobre el espacio de visualización hay que distinguir dos casos: 4.4. EL ERROR DE MODELADO 71 2 1.5 z 1 0.5 0 −0.5 −1 2 1 1 0.5 0 0 y −0.5 −1 −1 x Figura 4.4: Malla de SOM en el espacio de entrada con los datos de entrenamiento. 1. El punto está contenido en el subespacio topológico correspondiente al funcionamiento del proceso. 2. El punto está fuera del subespacio del proceso. Es posible detectar en qué caso se está, proyectando en el espacio de visualización y volviendo a proyectar el resultado sobre el espacio de caracterı́sticas. Cuando se está en la primera situación (dentro del subespacio), en un caso ideal, se obtendrá el punto inicial. Cuando se está en la segunda situación se obtiene un residuo como diferencia del punto resultante y el original. Al módulo de este vector diferencia se le denomina error de modelado 4 . Para todo lo que sigue en este capı́tulo se estará considerando que estamos en la primera situación. La segunda situación se estudiará ampliamente en el capı́tulo siguiente. 4 En el SOM se usa en su lugar el término error de cuantificación, heredado de la visión del SOM como un cuantificador en compresión de señal. En este caso puede no ser muy adecuado su uso. 72 4.5. CAPÍTULO 4. DATA MINING VISUAL Representación visual de conocimiento Al realizar la proyección de la trayectoria de estado, no necesariamente se pierde toda referencia con el espacio de caracterı́sticas. Es posible representar en el espacio de visualización la información inteligible del proceso disponible en los puntos del subespacio topológico de su modelo. Esta forma de representación se basa en la codificación de toda esa información por medio de colores, conformando unos “mapas de colores” en el espacio de visualización; cada uno de esos “mapas de colores” representa el valor de una determinada propiedad que en el espacio de caracterı́sticas tiene sentido fı́sico. Para crear estos mapas sólo hay que conocer a qué punto del espacio de caracterı́sticas corresponde cada punto del espacio de visualización. Hay que recalcar que todos esos mapas están mostrando el mismo espacio de visualización, pero representando distintas informaciones. En esencia, lo que se va a exponer en los siguientes subapartados es una forma de representar conocimiento en un espacio común, el espacio de visualización. 4.5.1. Etiquetado El espacio de visualización constituye, como ya se mencionó, un auténtico “mapa del proceso”. Al igual que en un mapa geográfico se señalan los nombres de las ciudades y los accidentes geográficos, el espacio de visualización puede ser etiquetado para poder localizar de un vistazo zonas particulares del espacio de visualización en cuanto a estados o condiciones del proceso. Para llevarlo a cabo se dispone de múltiples herramientas, que serán descritas en los siguientes apartados. 4.5.2. Planos de componentes Los planos de componentes o mapas de caracterı́sticas permiten conocer a través del espacio de visualización, las coordenadas en el espacio de caracterı́sticas de sus puntos correspondientes [53] [56] [54] [55]. Para ello se representa en el espacio de visualización el valor de una de las coordenadas como un color. Existen, por tanto, tantos planos de componentes como dimensiones tenga el espacio de entrada. Para obtener el plano de componentes correspondiente a la coordenada j, se toman los puntos gi del espacio de visualización y se proyectan sobre el espacio de caracterı́sticas, obteniéndose como resultado unos puntos mi = (mi1 , . . . , mij , . . . , miD ) = Sgi →mi (gi ), de los que se toman los mij y se codifican como colores. Por sencillez de representación se habrán escogido 4.5. REPRESENTACIÓN VISUAL DE CONOCIMIENTO x y z 15 15 15 10 10 10 5 5 5 0 0 5 10 15 0 0 5 10 73 15 0 0 5 10 15 Figura 4.5: Planos de componentes. unos gi que formen parte de una retı́cula regular. De esta forma los mij se representan mediante pixels coloreados en pantalla. En la figura 4.5 se muestran los planos de componentes para los datos de ejemplo. 4.5.3. Mapa de distancias El modelo de datos que representa al proceso puede verse en el espacio de caracterı́sticas como una “lámina elástica” que se ajusta a los datos que sirvieron para su creación. La “lámina elástica” puede no sólo adaptarse a la forma que tienen los datos en el espacio de entrada, sino también estirarse y encogerse para representar mejor en el espacio de visualización aquellas zonas que tienen mayor densidad de muestras de entrenamiento. Ası́, en el caso del SOM, se demuestra que éste tiende a hacer que la distribución de los datos de entrenamiento proyectados en el espacio de salida tengan una distribución aproximadamente uniforme5 . El GTM se plantea en [13] de tal forma que se comporte como el SOM en ese sentido. Parece claro que una información interesante para ser representada en el espacio de visualización es el grado de estiramiento de la “lámina elástica”. En eso consisten los mapas de distancias en el SOM y KR-SOM, y la representación en el espacio de visualización del factor de magnificación del GTM, que por analogı́a se pueden denominar de la misma forma. Debido a esta propiedad del SOM y del GTM de estirarse en las zonas donde hay menos densidad de datos, el mapa de distancias sirve para detectar, a través del espacio de visualización, agrupaciones de datos en el espacio de entrada. 5 Propiamente dicho será uniforme en el caso del KR-SOM, que es continuo. En el caso del SOM es una “uniforme discreta”. 74 CAPÍTULO 4. DATA MINING VISUAL Mapa de Distancias Mapa de Activación 18 18 16 16 14 14 12 12 10 10 8 8 6 6 4 4 2 2 0 0 0 5 10 15 0 5 10 15 Figura 4.6: Mapa de distancias y mapa de activación. En la figura 4.6 (izquierda) se muestra el mapa de distancias para el ejemplo de juguete. En ella se pueden observar las zonas correspondientes a dos grupos de datos. Sabiendo que el grupo generado con la ecuación z = x2 + y contiene más datos y que el SOM tiende a distribuir uniformemente los datos de entrenamiento en el espacio de visualización es fácil deducir que la zona más grande corresponde a dicho grupo. 4.5.4. Mapas de activación Cuando se quiere saber a qué zona del espacio de visualización corresponde un cierto conjunto de datos, puede pensarse que lo más directo es simplemente dibujar la proyección de todos los datos. Sin embargo esta representación no es muy buena si lo que se quiere conocer es la distribución de los datos proyectados (donde se proyectan más o menos datos), sobre todo si se trata de un mapa discreto (SOM) o cuando los datos mismos están cuantizados: en ambos casos se pueden estar proyectando muchos datos exactamente en el mismo punto, efecto que no serı́a detectado de forma visual. Ello hace necesario representar, de alguna forma, la “densidad” de los datos proyectados. Los mapas de activación, propuestos en [31] y [27], son semejantes a una función de densidad de un conjunto de datos proyectados. Para el SOM, los mapas de activación se definen de la siguiente forma. Sea {xk }k=1,...,K un conjunto de datos. El nivel de activación de la unidad i 4.5. REPRESENTACIÓN VISUAL DE CONOCIMIENTO del SOM para ese conjunto de datos se define como: P hc(k)i Ai = PkM i = 1, . . . , M h ij j=1 c(k) = arg mı́n{d(xk , mi )} i 75 (4.1) (4.2) donde M es el número de neuronas del SOM y c(k) es el ı́ndice de la unidad ganadora del SOM para xk . La versión continua para el KR-SOM se obtiene con: P φ(ky − gi k)Ai A(y) = Pi (4.3) j φ(ky − gj k) En el caso del GTM, se dispone directamente de algo equivalente por medio de la ecuación (3.53), que da el equivalente al mapa de activación para una única muestra. Sólo habrı́a que sumar para todos las muestras xk . En la figura 4.6 (derecha) se muestra el mapa de activación para los datos del grupo con y y z constante del ejemplo. 4.5.5. Mapas borrosos Es posible etiquetar el espacio de visualización sólo con la ayuda de los planos de componentes cuando se sabe qué valores tienen las caracterı́sticas para ciertas condiciones del proceso, por ejemplo: Cuando x1 tiene un valor alto, x2 toma valores medios y x4 toma valores negativos entonces el proceso está en el estado E1 Basta buscar en los planos de componentes las zonas que cumplen esas condición y poner la etiqueta en dichos lugares. Si el número de variables es bajo (dos o tres) puede ser un trabajo sencillo. Sin embargo, con un número de variables alto puede complicarse hasta lı́mites insospechados. Puede observarse que la regla de ejemplo mencionada para identificar cierta condición del proceso tiene un formato que es expresable como una regla borrosa. Se verá también que usando un Sistema de Inferencia Borroso (Fuzzy Inference System, FIS) es posible realizar esa tarea de localización de zonas automáticamente. Los mapas borrosos o mapas de inferencia borrosos [27] [21] [22] permiten la incorporación de conocimiento del proceso expresado en forma de reglas difusas. Ası́, si f es un sistema de inferencia borroso con una salida τ y tantas entradas como variables del proceso: τ (gi ) = f (mi ) = f (Sgi →mi (gi )). (4.4) 76 CAPÍTULO 4. DATA MINING VISUAL Mapa borroso 18 16 14 12 10 8 6 4 2 0 0 5 10 15 Figura 4.7: Mapa borroso. Esto permite asignar a cada punto del espacio de visualización un valor, que se codificará con color, y que es la salida del FIS f dándole como entrada el valor de las caracterı́sticas del proceso en el punto correspondiente del espacio de caracterı́sticas. Ası́, para el ejemplo utilizado en este capı́tulo, es posible visualizar las reglas: SI (x ES muy alta) Y (y ES muy alta) Y (z ES muy alta) ENTONCES (condicion1 ES si) SI (x NO ES muy alta) O (y NO ES muy alta) O (z NO ES muy alta) ENTONCES (condicion1 ES no) el mapa borroso resultante es el de la figura 4.7, donde se observa que la pequeña región resaltada coincide con un extremo de la agrupación de datos menor. Esta idea ya fue intuı́da por Pedrycz, que en [71] usa expresiones de lógica borrosa para obtener interpretaciones cualitativas en los resultados de un SOM usado como clasificador. Los mapas borrosos son, por tanto, una representación en el espacio de visualización de las conclusiones de conjuntos de reglas borrosas que relacionan caracterı́sticas del proceso. Esas reglas suelen ser expresión de un conocimiento adquirido por la experiencia. 4.5.6. Mapas de modelos Los mapas borrosos pueden considerarse como una manera de representar en el espacio de visualización un modelo del proceso expresado en forma de reglas borrosas. De la misma forma es posible también representar en el espacio de visualización modelos analı́ticos. Los mapas de modelos son útiles 4.5. REPRESENTACIÓN VISUAL DE CONOCIMIENTO 77 Mapa de modelo: x2+y−z=0 18 1 16 0.8 0.6 14 0.4 12 0.2 10 0 8 −0.2 6 −0.4 −0.6 4 −0.8 2 −1 0 0 5 10 15 Figura 4.8: Mapa de modelo. para determinar en qué medida un modelo analı́tico (ecuaciones explı́citas) se cumple en cada punto del espacio de caracterı́sticas correspondiente a un punto del espacio de visualización [27] [22]. Si se tiene una ecuación que es función de las caracterı́sticas consideradas en el espacio de entrada: f (x) = 0 (4.5) se podrı́a evaluar para las imágenes en el espacio de entrada correspondientes a los puntos del espacio de visualización, por ejemplo, en una rejilla regular: f (mi ) = f (Sgi →mi (gi )) = i (4.6) donde i sólo será nulo donde se cumpla el modelo dado por la ecuación 4.5 y será precisamente esta magnitud la que se represente en el espacio de visualización. En la figura 4.8 se muestra el mapa del modelo para la ecuación z = x2 + y en el ejemplo. Se observa cómo el modelo se cumple para la zona correspondiente al grupo de datos mayor, como era de esperar puesto que esos datos fueron generados de acuerdo con dicha ecuación, al contrario que el grupo menor de datos. Tanto en el caso de los mapas de modelos como en el de los mapas borrosos, lo que realmente se está representando en el espacio de visualización son los subespacios que definen los modelos de ambos tipos: ecuaciones analı́ticas y reglas respectivamente. Con esta técnica, por lo tanto, estas entidades se 78 CAPÍTULO 4. DATA MINING VISUAL convierten en visualizables, lo cual permite conjugar la intuición fı́sica, presente en el espacio de caracterı́sticas, con la intuición visual y geométrica, presente en el espacio de visualización. 4.5.7. Mapas de correlaciones El análisis de correlaciones es una técnica muy potente para descubrir relaciones lineales entre pares de variables. Tradicionalmente, esta técnica se ha aplicado sobre el conjunto de datos completo, proporcionando sólo información global. Sin embargo esto no es muy útil en datos de procesos industriales que, por su carácter no lineal, tı́picamente contienen varios puntos de funcionamiento, donde las correlaciones entre variables del proceso pueden ser diferentes. En [25] [22] se propone la representación en el espacio de visualización de las correlaciones locales entre variables de un proceso a partir de datos del mismo en el espacio de caracterı́sticas, representación que se denomina mapa de correlaciones. El enfoque local es posible ponderando los datos en el espacio de caracterı́sticas con una función de núcleo: 1 wk (y) = e− 2 kxk −Sgi →mi (y)k 2 /σ 2 (4.7) Cada punto del espacio de visualización y (normalmente los gi de la rejilla regular) es proyectado sobre el espacio de entrada, y esta imagen Sgi →mi (y) es usada como centro de la función de núcleo para calcular la media local y la matriz de covarianzas local: P k xk · wk (y) µ(y) = P (4.8) k wk (y) P [xk − µ(y)][xk − µ(y)]T wk (y) P C(y) = (cij ) = k (4.9) k wk (y) A partir de la matriz de covarianzas local es posible definir de forma directa la matriz de correlaciones local en torno a y como: cij R(y) = (rij ) donde rij = √ . (4.10) cii cjj El mapa de correlaciones para las variables xi y xj es representado por el valor rij (o rji debido a la simetrı́a de las matrices de covarianzas y correlaciones) en cada punto y de la rejilla del espacio de visualización. Observando la figura 4.9, que son los mapas de correlaciones para el ejemplo, se hace más evidente cómo los mapas de correlaciones constituyen, de hecho, una generalización de una matriz de correlaciones, indicando la distribución local de dichas correlaciones. 4.5. REPRESENTACIÓN VISUAL DE CONOCIMIENTO xx xy 1 15 0.5 15 10 0 5 0 5 10 yx 15 −1 0.5 15 10 0 5 0 0 5 10 yy 15 5 10 zx 15 −1 0 10 0 5 5 10 15 −1 0 −0.5 0 5 10 yz 15 0 5 10 zy 15 −1 0.5 10 0 0 −0.5 0 5 1 10 zz 15 0.5 10 0 −0.5 5 0 5 10 15 −1 0 −1 1 0.5 15 0 −1 1 −0.5 5 10 0 −1 0 −0.5 5 0 0 0.5 15 1 0.5 15 10 1 −0.5 5 0 0.5 −0.5 5 10 15 0 0 1 15 1 0.5 15 10 0 xz 1 −0.5 5 0 79 −0.5 0 5 Figura 4.9: Mapas de correlaciones. 10 15 −1 80 CAPÍTULO 4. DATA MINING VISUAL Todos los datos. Variable "z" codificada en color 3 Sólo datos con z>0.4 y z<0.6 2 2.5 2 2 2 1.5 1.5 1 0.5 0.5 0 1.5 1 1 y y 1 0.5 0 0 −0.5 −0.5 −1 −1.5 −2 3 −1 0 x 1 2 −1 0 −1 −2 −2 −0.5 −1 0 x 1 2 −1 Figura 4.10: Interpretación de las correlaciones entre x e y vista en los mapas de correlaciones. En la figura 4.10 se muestra una interpretación de la variación de la correlación xy de la figura 4.9 en la zona en que cambia el signo de la correlación. Ası́, considerando la z constante, para x pequeñas (en los planos de componentes se puede ver que es en la parte inferior del mapa) la correlación es positiva, pasando gradualmente a correlación nula y después negativa según aumenta la x (hacia arriba en los mapas). La elección de la variable σ de la ecuación (4.7) influye en el grado de “localidad” de los mapas de correlaciones. Para valores muy grandes de σ los mapas de correlaciones presentan los valores de correlaciones globales, siendo por tanto cada uno de ellos de un color uniforme. Para valores de σ muy pequeños, los mapas de correlaciones se ven muy influidos por el ruido y los pocos datos que tiene en cuenta para el cálculo de la matrices de covarianzas, lo cual genera mapas ruidosos y resultantes de matrices de covarianzas degeneradas. Los mapas de correlaciones pueden considerarse como la representación en el espacio de visualización de simples modelos locales lineales de carácter cualitativo extraı́dos de datos, y que pueden ser usados tanto para asistir en la identificación de la condición del proceso en distintas regiones del espacio de visualización, como para extraer nuevo conocimiento sobre el comportamiento del proceso en distintos puntos de funcionamiento. Capı́tulo 5 Residuos en Modelos de Datos 5.1. Introducción La aplicación de técnicas de redundancia analı́tica es posible también con modelos basados en datos. La idea principal es desacoplar la parte que podemos denominar “explicable por el modelo” de la parte “no explicable por el modelo” en cada muestra del vector de caracterı́sticas del proceso. La parte no explicable portarı́a información altamente especı́fica en relación con situaciones novedosas, las cuales en su mayor parte podrı́an corresponder con situaciones de fallo. Esto es especialmente aplicable a fallos modelizables como fallos aditivos, puesto que en ciertos casos se puede encontrar relación directa entre el vector de fallo aditivo y el vector de residuos. 5.2. Generación de residuos En general, un modelo del sistema define un subespacio topológico S dentro del espacio de sus variables (caracterı́sticas), o lo que es lo mismo, impone unas relaciones entre sus variables, una restricción en los grados de libertad de sus variables. Se puede generar un residuo vectorial a partir del modelo de la siguiente forma: = x − x̂ (5.1) donde x es el vector de valores instantáneos de las variables del proceso y x̂ es el valor más semejante a x predicho por el modelo: = x − S(x) (5.2) En general S será una función que devuelva x cuando éste esté contenido en el subespacio del proceso (x ∈ S) y distinto de x en caso contrario (x ∈ / S). 81 82 CAPÍTULO 5. RESIDUOS EN MODELOS DE DATOS En el primer caso el residuo vectorial serı́a nulo y el sistema se encontrarı́a en situación de no fallo (estrictamente hablando, en situación de “acorde con el modelo”). En el segundo caso habrı́a una indicación de fallo y será cuestión de la naturaleza de la función S si el residuo es significativo o no para su uso en el aislamiento del fallo, es decir, si provee información válida para llevar a cabo dicho aislamiento [30]. La función S podrı́a ser, en principio, cualquier técnica de proyección, y en concreto, cualquiera de las mencionadas en el apartado 3.4. 5.3. Detección de Novedades La detección de novedades (novelty detection) consiste en detectar cuándo un dato nuevo1 no corresponde con ninguno de los estados del proceso presente en los datos que fueron usados para la creación del modelo [105] [1] [83] [39] . Esto se relaciona con el apartado anterior puesto que un indicador de novedades es: e = kx − x̂k (5.3) valor escalar que se denomina error de modelado (error de cuantificación, quantization error, en el SOM). Esto, en principio, sólo es válido en los métodos de modelado a partir de datos que tengan en cuenta el dominio de los datos que fueron usados para crear el modelo2 : si el nuevo dato no está contenido dentro de ese dominio, entonces es una “novedad”. El problema de detectar cuando un dato x ∈ Rn pertenece al dominio de una variable aleatoria ξ ∈ Rn no es directo cuando la información de partida es un conjunto de muestras de dicha variable aleatoria. Este problema está relacionado con la Teorı́a de Decisión y lo que se conoce en Estadı́stica como detección de valores atı́picos (outlier testing). El problema de detección de valores atı́picos consiste en descubrir cuándo un dato x puede corresponder con una realización de la variable aleatoria ξ o no. El dominio de la variable aleatoria va implı́cito en la función de densidad de probabilidad (fdp) de los datos, puesto que corresponde con los valores de x donde esta función es no nula. El caso donde x cae fuera del dominio de ξ es inmediato puesto que es evidente que no puede ser una realización de ξ. Sin embargo cuando x está dentro del dominio de ξ, no se garantiza que sea 1 Sea un dato “nuevo” un dato que acaba de ser adquirido o que simplemente no fue usado en la creación del modelo. Aunque la palabra es similar, el significado es diferente al del término “novedad”. 2 Dicho de manera simplificada, que no extrapolen. La interpolación también puede crear algún problema si no se tiene en cuenta, pero puede detectarse como se explica en 5.5.2. 5.3. DETECCIÓN DE NOVEDADES 83 una realización de ésta, sobre todo en los casos en los que la fdp es próxima a cero. Además esto último siempre ocurrirá en casos en los que la fdp sea no nula en todo Rn , como en la distribución normal. La mayor parte de las veces el objetivo es, por tanto, cuantificar al menos qué probabilidades hay de cometer un error en la decisión, ya sean falsos positivos o falsos negativos. La Teorı́a de Decisión proporciona varias posibilidades para la detección de novedades; aquı́ se mencionarán algunos métodos especialmente interesantes por su carácter intuitivo o por su carácter práctico. La primera idea es realizar una estimación de la fdp de la variable aleatoria a partir de los datos muestra, poner un umbral3 para realizar la discriminación, evaluar el dato en la fdp y, si el resultado queda por encima del umbral, el dato se supone realización de la variable aleatoria. Existen también soluciones partiendo sólo del modelo creado a partir de los datos, sin embargo el problema es algo distinto. Generalmente el modelo, al contrario que la fdp, no tiene en cuenta el “ruido”, refiriéndose este “ruido” al responsable de la varianza de los datos respecto a la media aproximada por el modelo; un caso especial es GTM, que sı́ que tiene en cuenta el ruido, en cierta manera, por medio del parámetro β. En estos casos, la solución, que consiste en escoger un umbral para el error de modelado e de la ecuación (5.3), puede tener en cuenta de alguna manera los datos de partida para obtener información sobre el ruido, para posteriormente deducir de ello el umbral más adecuado. Resumiendo, existen al menos tres alternativas como criterio para la detección de novedades: Umbral para la fdp relacionado con la probabilidad de error en la detección. Umbral global para el error de modelado. En GTM podrı́a ser proporcional a 1/β, y en otro caso (SOM, etc.) estimarse a partir de los datos de entrenamiento. Serı́a como darle un “grosor” al subespacio topológico del modelo igual en todo él. Umbral para el error de modelado distinto en cada punto perteneciente al subespacio del modelo. Serı́a como darle al subespacio un “grosor” distinto en cada punto. 3 Que puede ser un valor tal que al integrar la fdp donde ésta supere dicho valor, dé un resultado de 0.99, por ejemplo. 84 CAPÍTULO 5. RESIDUOS EN MODELOS DE DATOS 5.4. Residuo vectorial Si se considera el vector (5.1) completo (y no sólo su módulo), además de la detección puede haber un aislamiento del fallo puesto que, bajo ciertas condiciones, en un fallo aditivo el vector de residuos es semejante al vector de fallo. Si se produce un fallo en el que el proceso se mueve en una dirección aleatoria dentro de su espacio, cuando este espacio es de alta dimensionalidad es muy probable que el movimiento sea en una dirección ortogonal al subespacio que representa el modelo del proceso4 . Es decir, que podemos obtener un vector semejante al de fallo tomando el vector diferencia entre el punto actual y el más cercano dentro del subespacio del proceso, que es precisamente lo que se plantea en las ecuaciones (5.1) y (5.2) 5.4.1. Validez del residuo vectorial Las técnicas que sirven para realizar modelos basados en datos se pueden clasificar en dos grupos: 1. Modelos basados en el soporte 5 de los datos (GRNN, SOM, k-means, . . . ). Son modelos que aproximan la geometrı́a de la función de densidad de probabilidad. 2. Modelos mı́nimo-cuadráticos (RBF, perceptrón multicapa autoasociativo). Tratan de minimizar una función de error cuadrático. Los modelos basados en soporte están estadı́sticamente fundamentados. Tratan de buscar una función objetivo en la que figura la función de densidad de probabilidad (que lleva implı́cito el soporte de los datos). Los modelos mı́nimo-cuadráticos, sin embargo, buscan simplemente minimizar el error de aproximación y obtienen como resultado algo parecido a la función identidad: f (x) = x, y entonces: El error de modelado en valor absoluto no se corresponde con la proporción de error cometido. La dirección de los residuos en algunos casos es totalmente no significativa (en cuanto a información útil para aislamiento de fallos, por ejemplo). 4 Esto es idéntico a la idea básica de Random Projections explicada en 3.4.1. Soporte o dominio de una variable aleatoria: rango de valores que puede tomar. Se entiende aquı́ este término en un sentido más amplio, denotando la geometrı́a de la región en el espacio ocupada o poblada por los datos. 5 5.4. RESIDUO VECTORIAL 85 10 4 10 4 8 3 8 3 6 2 4 6 2 4 1 2 0 0 −2 −1 −4 1 2 0 0 −2 −1 −4 −2 −6 −8 −10 −10 −5 0 5 10 −2 −6 −3 −8 −4 −10 −10 (a) Módulo del vector de residuos con un modelo mı́nimo-cuadrático. −3 −5 10 8 8 6 6 4 4 2 2 0 0 −2 −2 −4 −4 −6 −6 −8 5 −4 10 (b) Módulo del vector de residuos con un modelo basado en soporte. 10 −10 −10 0 −8 −5 0 5 10 (c) Dirección del vector de residuos con un modelo mı́nimo-cuadrático. −10 −10 −5 0 5 10 (d) Dirección del vector de residuos con un modelo basado en soporte. Figura 5.1: Comparación de los residuos, tanto en módulo como en dirección, para modelos basados en soporte y mı́nimo-cuadráticos. En el caso ideal, una “dirección significativa” para los residuos implica que los valores de cada componente son proporcionados con la desviación real de dicha componente, y que los signos de las desviaciones son los correctos. En la figura 5.1 se muestra una comparación de residuos generados con un modelo mı́nimo-cuadrático (RBF) y con un modelo basado en soporte (GRNN), en la que se comprueba que en el caso del modelo mı́nimo-cuadrático los residuos son prácticamente nulos aun en puntos lejanos a los datos usados para generar el modelo. Se puede ver intuitivamente lo que ocurre en un caso particular con un perceptrón multicapa autoasociativo. La hipersuperficie que representa está definida en todo el espacio, mientras que el proceso sólo se moverá en 86 CAPÍTULO 5. RESIDUOS EN MODELOS DE DATOS x y z 100 200 300 400 500 600 Tiempo (muestras) 700 800 900 Figura 5.2: Representación del vector de residuos. Ejemplo de fallo aditivo haciendo su aparición en torno a la muestra 900. una zona determinada de ese espacio (su dominio). Es claro que cuando se presente una situación muy lejana a la de los datos de entrenamiento de la red, el punto que la representa probablemente se proyecte en una zona muy alejada de los datos de entrenamiento (de su dominio), con lo cual el residuo será totalmente inútil. 5.4.2. Representación del residuo vectorial Dado el enfoque eminentemente visual de esta tesis la representación más adecuada para el vector de residuos es un detalle bastante importante. Para una representación de dicho vector a lo largo del tiempo, una simple gráfica tiempo-valor por componente es confusa cuando el número de componentes es grande. Otro tipo de representación, que ha dado excelentes resultados en la práctica, es el mostrado en la figura 5.2. Los valores de las componentes del vector de residuos se muestran codificadas con color (hacia rojos, positivos; hacia azules negativos; verde significa valor nulo) en una gráfica en la que cada lı́nea en el eje vertical corresponde a una componente del vector y el eje horizontal corresponde con tiempos. Este tipo de representación permite diferenciar fácilmente cada una de las componentes y detectar la desviación de cualquiera de ellas del cero con un sólo vistazo. 5.5. Consideraciones en el uso de residuos Se pueden hacer dos consideraciones especiales en cuanto al uso de residuos y respecto al modelo de datos a usar: a) los criterios para escoger los datos para generación del modelo y b) los problemas del carácter interpolante o no del modelo. 5.5. CONSIDERACIONES EN EL USO DE RESIDUOS 5.5.1. 87 Elección de datos para el modelo Existen dos formas de combinar el uso de residuos y proyección de trayectoria para el diagnóstico de fallos: 1. Introducir en el modelo todas las situaciones disponibles en forma de datos (normales y de fallo). En este caso los residuos detectarán estados no presentes en el modelo, que pueden ser de fallo o simplemente estados considerados normales pero de los que no se tenı́an datos. 2. Introducir en el modelo sólo situaciones normales. A menudo es más fácil tener datos de situaciones normales puesto que el proceso se encontrará en ese estado la mayor parte del tiempo. Nuevamente, los residuos detectarán estados no presentes en el modelo, que pueden ser de fallo o, en teorı́a con menor probabilidad, un estado normal no contemplado en el modelo. La única diferencia entre uno y otro caso serı́a la mayor predisposición del operador del proceso, en el segundo caso, a considerar fallo en un primer momento cualquier aviso que dieran los residuos. 5.5.2. Modelo con interpolación Cuando se utiliza una técnica de proyección para generar residuos, puede ser importante distinguir cuándo el proceso está en una zona del mapa que corresponde con datos disponibles y cuándo son resultado de interpolación realizada por el modelo entre agrupaciones de dichos datos usados en la generación de dicho modelo. Para distinguir en una determinada proyección si se está en zona modelada hay que mirar tanto el error de modelado/residuos como el mapa de distancias, teniendo en cuenta que en zonas de interpolación, una técnica de proyección continua no genera residuos, y en una discreta (como el SOM) éstos pueden ser mı́nimos (generalmente hay neuronas interpolantes). Además, en ambos casos, los residuos pueden no ser significativos para el diagnóstico de fallos. 88 CAPÍTULO 5. RESIDUOS EN MODELOS DE DATOS Capı́tulo 6 Metodologı́a de Supervisión 6.1. Introducción Todas las ideas y técnicas concernientes a Data Mining Visual que han sido comentadas en previos apartados, se pueden organizar en el marco de una metodologı́a aplicable a supervisión de procesos complejos que se pueden relacionar con otras metodologı́as estándar de Data Mining como CRISP-DM [16]. Todo ello puede ilustrarse con el ejemplo de la implementación real de un sistema de monitorización mediante técnicas de Data Mining Visual, una aplicación denominada MAPREX, que ha sido desarrollada en el seno de un proyecto de investigación del Área de Ingenierı́a de Sistemas y Automática para la supervisión de sistemas de un tren de laminación en caliente de Aceralia Corporación Siderúrgica. 6.2. 6.2.1. El sistema MAPREX MAPREX: un sistema de monitorización MAPREX es un sistema de monitorización de la condición basado en SOM. Tiene capacidades de representación de datos tı́picas en la monitorización de procesos: señales a lo largo del tiempo, espectros, etc.; también tiene la posibilidad de almacenamiento de datos. Además, MAPREX tiene implementadas técnicas de redundancia analı́tica empleando un modelo basado en datos constituido por un SOM. 89 90 CAPÍTULO 6. METODOLOGÍA DE SUPERVISIÓN Comprensión del negocio Comprensión de los datos Preparación de los datos Implantación Generación del modelo Evaluación Figura 6.1: Modelo de referencia CRISP-DM. 6.2.2. MAPREX: una herramienta de Data Mining Visual El sistema MAPREX es una aplicación instalada en un ordenador portable que permite realizar Data Mining Visual en planta, al mismo pie del proceso. Esto posibilita correlacionar la información que provee MAPREX, representada de diversas formas, con la información procedente de percepciones sensoriales (visual, auditiva, olfativa, etc.) acerca del proceso que sólo es posible obtener in situ. Debido a esto, la emisión de hipótesis sobre la validez y la significancia de los datos tomados del proceso, ası́ como la configuración de una extracción de caracterı́sticas sobre estos datos del proceso realizada en tiempo real y la consiguiente comprobación de la utilidad de la información resultante se convierte en una tarea altamente interactiva. MAPREX y CRISP-DM La metodologı́a de supervisión mediante Data Mining Visual encaja perfectamente en un estándar de desarrollo de proyectos de Data Mining como es CRISP-DM (CRoss Industry Standard Process for Data Mining) [16]. El modelo de referencia del CRISP-DM tiene varias fases. La secuencia de fases no es lineal sino que puede implicar vueltas a pasos anteriores, como se muestra en la figura 6.1: 6.2. EL SISTEMA MAPREX 91 1. Entendimiento del negocio: entender los objetivos y requerimientos desde la perspectiva del negocio, y entonces convertir este conocimiento en la definición de un problema de Data Mining y un plan preliminar diseñado para conseguir los objetivos. 2. Comprensión de los datos: recoger datos, familiarizarse con ellos, identificar problemas de calidad de los mismos, y descubrir las primeras cosas interesantes para conjeturar hipótesis respecto a información oculta en ellos. 3. Preparación de los datos: comprende todas las actividades encaminadas a formar el conjunto de datos final que será introducido en las herramientas de generación de modelos. Las tareas de preparación de datos probablemente se lleven a cabo varias veces, sin ningún orden preestablecido. Esto incluye la selección de atributos, registros y tablas, ası́ como la transformación y limpieza de los datos para las herramientas de generación de modelos. 4. Generación del modelo: se seleccionan las técnicas de modelado, se aplican y se calibran sus parámetros a valores óptimos. Suele haber varias técnicas para el mismo problema que pueden tener unos requerimientos distintos en cuanto al formato de los datos, lo cual puede implicar volver al paso anterior de preparación de datos. 5. Evaluación: comprobar si el modelo generado cumple los objetivos impuestos en la fase inicial. Si no los cumple porque no se consideró algún aspecto clave, habrá que volver al paso de comprensión del negocio. 6. Implantación: uso del modelo generado. Puede ser tan simple como la generación de un informe o tan complejo como la implementación de un proceso de Data Mining continuo. MAPREX se enmarca fácilmente dentro de la metodologı́a CRISP-DM. Es a la vez una herramienta de desarrollo de sistemas de supervisión por medio de técnicas de Data Mining Visual y el sistema de supervisión en sı́. Ası́, MAPREX es aplicable en las siguientes fases del modelo de referencia CRISP-DM: Comprensión de los datos: MAPREX dispone de diversas formas de representación de datos, como son formas de onda, espectros, y caracterı́sticas; todas ellas son útiles en los primeros pasos para captar las particularidades de los datos procedentes de un proceso. Ası́, las caracterı́sticas son configurables como valores instantáneos1 para señales 1 Realmente dichas señales se preprocesan a través de un filtro de media. 92 CAPÍTULO 6. METODOLOGÍA DE SUPERVISIÓN Comprensión del negocio Comprensión de los datos Preparación de los datos Generación del modelo Evaluación Implantación Determinar los objetivos del negocio Antecedentes Objetivos Criterios de éxito Tomar datos iniciales Informe de la toma de datos iniciales Conjunto de datos Descripción del conjunto de datos Seleccionar datos Criterios de inclusión/exclusión Evaluar resultados Evaluación de los resultados de data mining respecto a los criterios de éxito de negocio Modelos aprobados Planear implantación Plan de implantación Describir los datos Informe de descripción de los datos Seleccionar la técnica de modelado Técnica de modelado Suposiciones de modelado Explorar los datos Informe de exploración de los datos Limpiar datos Informe de limpieza de datos Evaluar situación Inventario de recursos Requerimientos, suposiciones y restricciones Riesgos y contingencias Terminologı́a Costes y beneficios Determinar los objetivos del Data Mining Objetivos del Data Mining Criterios de éxito del Data Mining Producir plan del proyecto Plan del proyecto Evaluación inicial de herramientas y técnicas Verificar calidad de los datos Informe de calidad de los datos Construir conjunto de datos Atributos derivados Registros generados Integrar datos Datos combinados Generar diseño de prueba Diseño de prueba Generar modelo Configuración de parámetros Modelos Descripción de modelos Evaluar modelo Evaluación de modelo Revisión de configuración de parámetros Revisar proceso Revisión del proceso Determinar siguientes pasos Lista de posibles acciones Decisión Planear monitorización y mantenimiento Plan de monitorización y mantenimiento Generar informe final Informe final Presentación final Revisar proyecto Documentación de la experiencia Formatear datos Datos reformateados Figura 6.2: Tareas genéricas y salidas del modelo de referencia CRISP-DM. 6.2. EL SISTEMA MAPREX 93 consideradas como estáticas, o como valores espectrales (energı́as en bandas de frecuencia) para señales consideradas como dinámicas, puesto que la mayor parte de este tipo de señales tienen como origen elementos giratorios en máquinas (que generan magnitudes mecánicas cuasiperiódicas: vibraciones, fuerzas, etc.), corrientes alternas, etc. Preparación de los datos: MAPREX puede realizar extracción de caracterı́sticas off line en datos almacenados previamente, con vistas a la generación de un modelo posterior. Generación de modelos: a partir de los datos obtenidos, MAPREX puede generar un modelo basado en SOM, útil para Data Mining Visual tanto on line como off line, con capacidades de proyección de datos y generación de residuos. Evaluación: con el modo simulación, en MAPREX se puede comprobar que el modelo es correcto con datos off line. Si todo funciona correctamente se puede proceder a la evaluación on line y de forma continua, progresiva y simultáneamente a la implantación. Implantación: por el carácter portable del sistema MAPREX es posible llevar todos los pasos anteriormente mencionados al mismo pie del proceso, con lo cual la implantación puede ser inmediata. 6.2.3. Estructura de la aplicación MAPREX La aplicación MAPREX tiene la estructura que se muestra esquematizada en la figura 6.3: 1. Un módulo de adquisición de datos, que realiza las tareas relacionadas con la adquisición, almacenamiento y representación de señales a lo largo del tiempo junto con sus espectros. 2. Un módulo de extracción de caracterı́sticas, que realiza extracciones de caracterı́sticas de forma on line y representa la evolución temporal de las caracterı́sticas previamente configuradas. También realiza extracciones de caracterı́sticas off line que producen datos listos para entrenar un SOM. 3. Un módulo SOM, que entrena SOMs y los ejecuta en tiempo real, usando como entrada los datos que se van generando en una extracción de caracterı́sticas sobre las variables del proceso que se van muestreando. Como resultado de la ejecución, el SOM representa la trayectoria 94 CAPÍTULO 6. METODOLOGÍA DE SUPERVISIÓN de estado sobre diferentes vistas del espacio de visualización y genera residuos, mostrándolos también gráficamente. 6.3. Una sesión con MAPREX A continuación se describirá una sesión tı́pica con la aplicación. La aplicación MAPREX, al final de una de dichas sesiones, tiene el aspecto de la figura 6.4. Las ventanas que muestra se irán abriendo según se van necesitando en los sucesivos pasos que se relatan en el resto de este apartado. 6.3.1. Selección de señales El primer paso consiste en seleccionar las señales y configurarlas en el subsistema de adquisición. Los parámetros configurables para cada señal son: Nombre: una cadena alfanumérica que identifique la señal. Sensibilidad: valor que da la relación de número de unidades de la señal por voltio en la entrada. Unidad: cadena alfanumérica que identifica las unidades en la que se mide la magnitud de la señal. Hay que seleccionar también la frecuencia de muestreo en función del máximo ancho de banda de entre las señales, ası́ como el número de datos que se usará en los espectros de las señales, lo cual determinará su resolución. Con esta configuración mı́nima, MAPREX está listo para adquirir datos. 6.3.2. Visualización de las señales en tiempo real Una vez iniciada la adquisición de datos, se pueden visualizar las señales en tiempo real, tanto en el dominio del tiempo como en el de la frecuencia. Esto constituye el primer nivel de monitorización de variables del proceso. Ya en este punto se puede obtener información interesante del proceso, que será aprovechada en el siguiente paso de selección de caracterı́sticas. 6.3.3. Selección de caracterı́sticas Existen dos formas complementarias para realizar una selección de las caracterı́sticas del proceso de forma interactiva con MAPREX: la selección on line y la selección off line. SOM registro de SOMs entrenados registro de extracciones de características registro de señales Características Extracción de Características Señales en la Frecuencia Adquisición de Datos Señales en el Tiempo Proyección de Trayectoria sobre Mapas Residuos 6.3. UNA SESIÓN CON MAPREX 95 Figura 6.3: Diagrama de bloques de la aplicación MAPREX. PROCESO 96 CAPÍTULO 6. METODOLOGÍA DE SUPERVISIÓN Selección on line La selección on line de caracterı́sticas se apoya principalmente en las ventanas de representación temporal y frecuencial de las señales. Como éstas tienen información a muy corto plazo (prácticamente correspondiente al instante), requieren una atención continua. Sin embargo, también es posible representar información a más largo plazo, como resultado de una extracción de caracterı́sticas en tiempo real, en la denominada ventana de caracterı́sticas. Las caracterı́sticas a representar se elegirán por las conclusiones obtenidas de la observación de las señales en tiempo y frecuencia o por conocimiento previo. Las caracterı́sticas configurables son valores medios de señales y energı́as de la señal contenidas en bandas de frecuencia dadas por su frecuencia central y ancho. Selección off line Todo lo mencionado hasta ahora para observación on line de señales se puede realizar de forma off line para análisis sobre archivos de datos previamente capturados: representación temporal, frecuencial y extracción de caracterı́sticas. Además, se dispone de una posibilidad adicional que es la de representación de espectrogramas. 6.3.4. Preparación de datos para modelado La preparación de datos para modelado consiste en la extracción de caracterı́sticas, con la configuración elegida como resultado de los pasos previos, sobre archivos seleccionados de datos capturados. Estos archivos se habrán seleccionado de forma que resuman todas las condiciones posibles del proceso. 6.3.5. Generación del modelo Una vez obtenidos los datos para modelado, el paso siguiente es generar el modelo. El modelo basado en datos implementado en MAPREX es una red neuronal SOM que, una vez escogida su configuración (número de neuronas, vecindad, etc.), puede ser entrenada con los mencionados datos resultado de la extracción de caracterı́sticas. 6.3.6. Explotación del modelo El siguiente paso es el aprovechamiento del modelo generado. Para ello, una vez cargado el archivo del modelo, se puede abrir toda una serie de ventanas que aprovechan las dos aplicaciones que tiene el modelo basado 6.3. UNA SESIÓN CON MAPREX 97 en datos constituido por el SOM: proyección de trayectoria y generación de residuos. Proyección de trayectoria Las ventanas que aprovechan la capacidad de reducción de la dimensión del SOM para visualización son ventanas que representan precisamente el espacio de visualización del proceso, en las que se realiza la proyección del vector de caracterı́sticas instantáneo —que podemos denominar puntero de estado o condición—, y en las que, dependiendo del tipo de ventana, se representa de fondo distinta información del proceso codificada con colores —y que es como visualizar el proceso en sı́—. En MAPREX se dispone actualmente de los siguientes tipos: Planos de componentes (ver apartado 4.5.2). Mapa de distancias (ver apartado 4.5.3). Mapas de activación (ver apartado 4.5.4). Mapas de correlaciones (ver apartado 4.5.7). En cualquiera de estas ventanas y en cualquier posición se puede colocar una etiqueta, que aparecerá automáticamente en el resto de ventanas del SOM. Generación de residuos En una ventana adicional MAPREX puede representar en tiempo real el vector de residuos instantáneo generado por el SOM como una “cinta” que se desliza de derecha a izquierda. En vertical se tienen las caracterı́sticas y en horizontal el tiempo, correspondiendo la parte derecha al instante actual. Cuando los residuos son nulos, los residuos son verdes. Cuando aparece un residuo rojo (positivo) quiere decir que la caracterı́stica correspondiente tiene un valor mayor de lo esperado (de lo estimado por el modelo del SOM). Cuando aparece un residuo azul (negativo) quiere decir que la caracterı́stica correspondiente tiene un valor menor de lo esperado (de lo estimado por el modelo del SOM). Esto permite conocer al instante: Qué variables están involucradas en el fallo. El sentido de las desviaciones. En qué momento se produjo el fallo. 98 CAPÍTULO 6. METODOLOGÍA DE SUPERVISIÓN Figura 6.4: Pantalla de MAPREX durante una sesión tı́pica. Capı́tulo 7 Resultados 7.1. Introducción En este capı́tulo se verán casos reales de aplicación de las técnicas expuestas en capı́tulos anteriores. En primer lugar se mostrará la aplicación a monitorización en tiempo real sobre un pequeño motor de inducción en laboratorio. En segundo lugar se tratará el caso de Data Mining Visual en un proceso industrial real, un tren de laminación en caliente. Estos ejemplos están realizados con MATLAB por razones de nitidez en las figuras. También se muestra una captura de pantalla de la aplicación MAPREX mostrando las posibilidades que ya tiene implementadas referidas al primer caso en estudio. 7.2. 7.2.1. Monitorización de sistemas en tiempo real Descripción del sistema El sistema a monitorizar consta de un motor de inducción trifásico de 4kW y dos pares de polos con las caracterı́sticas mostradas en el cuadro 7.1. En los ejemplos funcionará siempre en vacı́o y para variar sus condiciones de funcionamiento se le introducirán asimetrı́as en su alimentación, tanto de forma total y brusca (eliminando una fase) como de forma gradual (por medio de una resistencia variable en una fase). También se le introducirán asimetrı́as mecánicas en el eje con una pequeña masa desequilibrante. Para la toma de datos del proceso se utilizaron acelerómetros piezoeléctricos (ICP) para medir vibraciones, sensores de efecto Hall para medir corrientes y una resistencia variable con la temperatura PT-100 para medir la temperatura. El esquema de este sistema se muestra en la figura 7.1. 99 100 CAPÍTULO 7. RESULTADOS Potencia nominal Tensión nominal Corriente nominal Velocidad Frecuencia alimentación cos(φ) 5,5 CV 380 V (Y) 9A 1430 rpm 50 Hz 0,83 Cuadro 7.1: Caracterı́sticas técnicas del motor trifásico. Corriente S Corriente R Desequilibrio gradual en la alimentación Vibración Y R Vibración Z Asimetría Mecánica R S T Fallos de fase totales m 4 kW 380V 3~ 1500 rpm Vibración X Figura 7.1: Esquema del equipo de pruebas para el motor trifásico. 7.2. MONITORIZACIÓN DE SISTEMAS EN TIEMPO REAL 7.2.2. 101 Obtención del modelo Se tomaron datos de temperatura (T ), vibraciones en tres ejes perpendiculares (X, Y y Z) y corrientes en dos (R y S) de las tres fases (denominadas R, S y T ), muestreados a 20 kHz por ser aproximadamente el doble del ancho de banda de las señales de vibraciones, las que más ancho de banda tienen de entre todas ellas. Estos datos incluyeron las siguientes condiciones del motor: parado, funcionamiento normal, fallo en fase R, fallo en fase S, fallo en fase T , y la combinación de todas esas condiciones con una asimetrı́a mecánica (desequilibrio) en el eje1 . Esto hace un total de nueve condiciones diferentes. Los fallos en la fase R fueron tanto bruscos como graduales, provocados estos últimos con la resistencia intercalada en dicha fase. Añadido a esto hay que tener en cuenta que los datos fueron tomados en un intervalo largo de tiempo que incluye una variación de la temperatura del motor desde temperatura ambiente (unos 20o C) hasta unos 50o C para los datos que posteriormente se usaron en el entrenamiento, llegando hasta unos 60o C para los datos de test. Posteriormente, como caracterı́sticas se escogieron la temperatura y los armónicos múltiplos de la velocidad de giro del motor 1×, 2× y 3× (25, 50 y 75 Hercios) para las vibraciones en los tres ejes X, Y y Z, que proporcionan información sobre fallos mecánicos del motor como desalineamientos o desequilibrios del rotor. Por otro lado se tomó, también en los tres ejes de vibración, el armónico de 100 Hz, que es útil para detectar desequilibrios en la alimentación del motor (alimentado a 50 Hz) y, como caso extremo, fallos de fase. Por último, de las dos corrientes se considerará su armónico fundamental de 50 Hz. Esto hace un total de 15 caracterı́sticas, que se denominarán como se muestra en la tabla 7.2. Para la extracción de caracterı́sticas se consideró la temperatura como variable estática y sólo se usó su valor medio. En el caso del resto de caracterı́sticas se usó una STFT con un tamaño de ventana 8192, un solapamiento del 90 % y ponderación por ventana de Hanning, y se calcularon los valores eficaces en bandas de 15 Hz alrededor de las frecuencias centrales correspondientes a cada caracterı́stica. Esto, aplicado a unos 450 segundos de muestras, generó 9150 datos. Con estos datos se entrenó un SOM de 100 × 100. 7.2.3. Aplicación del modelo El primer paso después del entrenamiento, normalmente, es etiquetar el SOM aprovechando las muestras controladas disponibles. En este caso se disponı́a de muestras controladas para todas las situaciones consideradas. En 1 Evidentemente, la condición de parado con desequilibrio es idéntica a la de sin desequilibrio. 102 CAPÍTULO 7. RESULTADOS Caracterı́stica Temperatura Armónico 25 Hz vibración eje X Armónico 50 Hz vibración eje X Armónico 75 Hz vibración eje X Armónico 100 Hz vibración eje X Armónico 25 Hz vibración eje Y Armónico 50 Hz vibración eje Y Armónico 75 Hz vibración eje Y Armónico 100 Hz vibración eje Y Armónico 25 Hz vibración eje Z Armónico 50 Hz vibración eje Z Armónico 75 Hz vibración eje Z Armónico 100 Hz vibración eje Z Armónico 50 Hz corriente fase R Armónico 50 Hz corriente fase R Nombre largo Temperatura X 25Hz X 50Hz X 75Hz X 100Hz Y 25Hz Y 50Hz Y 75Hz Y 100Hz Cojinetes 25Hz Cojinetes 25Hz Cojinetes 25Hz Cojinetes 25Hz Corriente R 50Hz Corriente S 50Hz Nomb. abreviado T X25 X50 X75 X100 Y25 Y50 Y75 Y100 Z25 Z50 Z75 Z100 R S Cuadro 7.2: Variables (caracterı́sticas) escogidas para el motor trifásico. la figura 7.2 pueden observarse los mapas de activación para algunas de ellas. Se puede destacar la ventaja de los mapas de activación frente a la simple proyección de trayectoria con el ejemplo de la figura 7.3. En este ejemplo aparentemente hay tantos datos en la lı́nea dispersa superior derecha como en el grupo compacto inferior izquierdo. El mapa de activación, sin embargo, revela que en el grupo compacto están la mayorı́a de los puntos, proyectados unos encima de otros. Una vez etiquetado el SOM, el mapa de distancias tiene el aspecto de la figura 7.4. En este caso concreto todavı́a habrı́a sido relativamente fácil identificar las condiciones del motor en el espacio de visualización a la vista de los planos de componentes, mostrados en la figura 7.5. Para ello bastarı́a buscar: dónde los armónicos de 100 Hz de las vibraciones se hacen altos, para encontrar los fallos de fase dónde se anulan las corrientes de cada fase, para identificar sus respectivos fallos dónde los armónicos de 25 Hz2 se hacen altos, para encontrar qué zonas corresponden a asimetrı́a mecánica en el eje. 2 Frecuencia que corresponde aproximadamente a la velocidad de giro mecánica. 7.2. MONITORIZACIÓN DE SISTEMAS EN TIEMPO REAL normal fallo R fallo S fallo T 103 Figura 7.2: Mapas de activación para varios grupos de muestras controladas del motor trifásico. 104 CAPÍTULO 7. RESULTADOS Mapa de activacion "parado y normal" Figura 7.3: Comparación entre mapa de activación y trayectoria proyectada para el motor trifásico. Mapa de distancias deseqfallo S fallo S deseq parado deseqfallo T normal deseqfallo R fallo T fallo R Figura 7.4: Mapa de distancias etiquetado para todas las condiciones conocidas del motor trifásico. 7.2. MONITORIZACIÓN DE SISTEMAS EN TIEMPO REAL 105 T X25 X50 X75 X100 Y25 Y50 Y75 Y100 Z25 Z50 Z75 Z100 R S Figura 7.5: Planos de componentes para el caso del motor trifásico. En los mapas de correlaciones aparecen algunos detalles interesantes que ilustran la utilidad de los mismos (no se representan aquı́ por ser su número muy grande). En primer lugar, es fácil identificar de un golpe de vista dónde la correlación global de un cierto signo es predominante buscando colores rojos o azules. En este caso aparecen ejemplos muy claros, con mapas de correlaciones totalmente rojos, como los de todas las combinaciones entre sı́ de X25, Y25 y Z25. Esto se detectarı́a incluso observando sus planos de componentes, que son prácticamente idénticos. En la elección de caracterı́sticas se escogieron varias de ellas aun sospechando a priori estas correlaciones totales por dos razones: 1. Esta redundancia de información facilita la detección de fallos en sensores. 2. Para conseguir un número de caracterı́sticas suficiente para el buen funcionamiento de los residuos. Aun existiendo el problema de la dimensionalidad, es necesario un cierto número mı́nimo de caracterı́sticas para que se cumpla la hipótesis del apartado 5.4. En la figura 7.6(a) se muestra un representación de puntos dispersos de las caracterı́sticas Y100 y Z100, donde aparecen dos comportamientos claramente diferenciados: uno con correlaciones dudosas y otro con correlación claramente positiva. En la figura 7.6(b) adyacente, el mapa de correlaciones Y100 Z100 indica claramente a qué condiciones del motor corresponden 106 CAPÍTULO 7. RESULTADOS Y100 Z100 (a) Representación de puntos de los datos (b) Mapa de correlaciones locales para el armónico de 100 Hz de la vibración entre el armónico de 100 Hz de la Y frente al de la Z. vibración Y y el mismo de la Z. Figura 7.6: Comparación de los mapas de correlaciones con un representación de puntos dispersos para el motor trifásico. esas dos diferentes situaciones: la primera, a las condiciones con asimetrı́a mecánica en el eje y la segunda, al resto de condiciones. Con datos de prueba tomados para todas las situaciones consideradas, pero a temperaturas mayores que los datos de entrenamiento, se comprobó que el modelo era capaz de reconocer las situaciones que se le presentaban y además avisaba, con el residuo de la temperatura, de que ésta era mayor de lo normal. Esta situación se muestra en la figura 7.7, directamente en una captura de pantalla de la aplicación MAPREX. 7.3. Data Mining de procesos industriales 7.3.1. Descripción del proceso Para mostrar algunas de las posibilidades de las técnicas de Data Mining Visual aplicada a procesos se utilizará el ejemplo de un motor de continua en un tren de laminación en caliente de Arcelor, que tiene las caracterı́sticas mostradas en el cuadro 7.3. Se dispone de cuatro variables: corriente de campo if , corriente de inducido ia , velocidad ω y tensión de inducido Va . 7.3. DATA MINING DE PROCESOS INDUSTRIALES 107 Figura 7.7: Captura de pantalla de MAPREX mostrando residuos para las mismas condiciones del entrenamiento pero a mayor temperatura para el motor trifásico en laboratorio. 108 CAPÍTULO 7. RESULTADOS Potencia: Tensión de inducido nominal: Corriente de inducido nominal: Corriente de campo nominal: Velocidad nominal: Velocidad máxima: Localización: Caja: 6000 kW 700 V 9000 A 150 A 180 rpm 360 rpm Tren acabador en caliente F2 Cuadro 7.3: Caracterı́sticas del motor de continua. BOBINA A B C D E F TIEMPO 15:44:48 15:46:41 15:48:53 15:50:47 15:53:04 15:54:44 ESPESOR 1.73 1.73 4.02 4.02 4.02 1.55 ANCHO 1010 1010 1010 1010 1010 1010 ACERO B085G99 B085G99 B012F53 B012F53 B012F55 B011B99 LIM. ELÁST. 32 32 22 22 22 24 Cuadro 7.4: Etiquetas y propiedades de las seis bobinas laminadas. 7.3.2. Obtención del modelo Se dispone de datos que corresponden a la laminación de seis bobinas (ver cuadro 7.4), divididos en varios segmentos que se etiquetan con una letra que indica el segmento (a, b, . . . , f), dos caracteres que indican o bien inicio de laminación (il), o bien los diferentes segmentos durante la laminación (l1, l2, . . . ), o bien final de laminación (fl). Los caracteres sb significan “sin banda”. Con los datos procedentes de esas seis bobinas, se entrenó un SOM de 10×10, que por retroproyección se convirtió a 50 × 50. 7.3.3. Aplicación del modelo Observando los planos de componentes de la figura 7.8, una persona que conozca este proceso de laminación reconocerá en el espacio de visualización zonas como dónde está laminando y dónde está el tren en vacı́o, dónde funciona a velocidad superior a la nominal y dónde a velocidad inferior, etc. Es posible también representar planos de variables que no fueron introducidas en el SOM, pero que se pueden obtener de las que sı́ lo fueron, como por ejemplo, en este caso (figura 7.9), el par generado por el motor Te = K · ia · if , donde K es una constante, que no hace falta para representar el plano por 7.3. DATA MINING DE PROCESOS INDUSTRIALES Corriente de inducido Tensión de inducido Corriente de campo Velocidad 109 Figura 7.8: Planos de componentes para el motor de continua del tren de laminación. Par 4 x 10 1.5 1 0.5 0 −0.5 −1 Figura 7.9: Plano de par, variable que no interviene en el entrenamiento del SOM. 110 CAPÍTULO 7. RESULTADOS sb6 dfl ffl_ sb3 sb2 bfl_ sb4 sb5 bl3 bl2 cfl al4 al3 dfl bfl bl5 bl6 bl4 bl7 al6 fil afl efl__ bl7_ al5 fl8 fl7 fl5 efl___ cl8 efl_ dl8 sb1 el6 efl eil fl2 el5 fl1 el4 dl3 el3’ dl6 el1 dl1 cl2 dl2 fl6 ffl al1 dl7 cl6 cl1 fl3 al2 ail dil cil dfl2 sb6 bl1 cl7 dl5 cl5 cl3 dl4 el2 el3 cl4 (a) Mapa de activación correspondiente a (b) Mapa de distancias etiquetado y con sb6. trayectoria de fin de laminación d. Figura 7.10: Etiquetado del espacio de visualización en el caso del tren de laminación. ser la codificación en color relativa. Este plano es útil, en el caso que nos ocupa, para diferenciar más claramente dónde el tren está laminando (par mayor que cero) y dónde no (par alrededor de cero y negativo). Se dispone de datos etiquetados (muestras controladas) puesto que los datos están divididos en segmentos, identificados como se explicó antes, por lo que es posible etiquetar sus correspondientes zonas en el espacio de visualización usando mapas de activación. En la figura 7.10(a) se muestra el mapa de activación para los datos etiquetados como sb6, y en la figura 7.10(b) el resultado de etiquetar las zonas de todos los segmentos sobre el mapa de distancias, junto con la trayectoria correspondiente al tramo dfl. Lo que primero se observa es que las laminaciones de las bobinas a y b son muy parecidas entre sı́, ası́ como las bobinas c, d y e. La bobina f se encuentra en una situación intermedia, pero más parecida a las a y b. Esto concuerda con lo que se puede observar en el cuadro 7.4 en cuanto a espesor objetivo y tipo de acero. La información que proporciona el conocimiento de ecuaciones puede ser incorporada al mapa por medio de los mapas de modelos. Las ecuaciones para un motor de continua son conocidas y una de ellas es la siguiente: Va = Ra · ia + La dia + K · if · ω dt (7.1) Si por ejemplo se pretende identificar la zona correspondiente al control de velocidad por tensión de inducido, es un caso particular de la ecuación (7.1), donde la corriente de inducido y la de campo son constantes, y la derivada 7.3. DATA MINING DE PROCESOS INDUSTRIALES residuo zona par máximo 800 500 700 Va (V) 111 400 600 300 500 200 400 100 300 0 −100 200 −200 100 −300 0 −400 −100 0 50 100 ω (r.p.m.) 150 200 250 −500 (a) Modelo del motor para zona de par (b) Mapa del modelo de la zona de par máximo. máximo. Figura 7.11: Mapa de modelo para motor de continua. se anula al considerar régimen permanente. No se dispone de los parámetros de la ecuación, pero se pueden estimar de los datos. Ası́, se puede hallar la recta de regresión que se representa en la figura 7.11(a), y que resulta ser: f (Va , ω) = Va − 4,08ω + 4,23 = 0 (7.2) A partir de esta ecuación es inmediato hallar el mapa del modelo que se presenta en la figura 7.11(b)3 . La zona verde, con residuo nulo, corresponde con la del funcionamiento del motor según el modelo dado por la ecuación (7.2). En cuanto a los mapas borrosos, el primer ejemplo podrı́a ser la estimación de una variable cualitativa. Como en este caso no surge claramente ninguna variable de carácter tı́picamente cualitativo, a efectos de comparación se usará la variable velocidad ω. Se pueden extraer inmediatamente unas reglas de los siguientes hechos relacionados con el funcionamiento del motor de continua y del control con debilitamiento de campo: 1. Cuanto más alta es la tensión de inducido, más alta es la velocidad. 2. Cuanto más baja es la corriente de campo, más alta es la velocidad. 3. Por debajo de la velocidad nominal, la corriente de campo se mantiene a su valor nominal. 4. Por encima de la velocidad nominal, la tensión de inducido se mantiene a su valor nominal. 3 Esto mismo se puede deducir de los planos de componentes de la velocidad, la corriente de campo o la tensión de inducido. 112 CAPÍTULO 7. RESULTADOS Mapa borroso: Velocidad Mapa borroso: Laminando cierto alta media baja falso Figura 7.12: Mapas borrosos para el caso del tren de laminación. y las reglas que surgen de este conocimiento son: SI (Va ES alta) Y (If ES baja) ENTONCES (Velocidad ES muy-alta) SI (Va ES alta) Y (If ES media) ENTONCES (Velocidad ES alta) SI (Va ES alta) Y (If ES alta) ENTONCES (Velocidad ES media) SI (Va ES media) Y (If ES alta) ENTONCES (Velocidad ES baja) SI (Va ES baja) Y (If ES alta) ENTONCES (Velocidad ES muy-baja) De esas reglas se obtiene el mapa borroso de la figura 7.12 (izquierda), que se puede ver que coincide en gran medida con el plano de componente de la velocidad. Otro ejemplo es el mapa borroso mostrado en la 7.12 (derecha), que sirve para delimitar claramente las zonas donde el tren se encuentra laminando, y que se obtiene de las reglas: SI (Va NO ES baja) Y (Ia ES alta) ENTONCES (Laminando ES si) SI (Va NO ES baja) Y (Ia ES media) ENTONCES (Laminando ES si) SI (Va ES baja) O (Ia ES negativa) ENTONCES (Laminando ES no) SI (Va ES baja) O (Ia ES cero) ENTONCES (Laminando ES no) Las funciones de pertenencia usados en ambos mapas borrosos se encuentran representados en la figura 7.13. En lo relativo al análisis de las relaciones de dependencia entre variables, si se observan detenidamente los planos de componentes de la figura 7.8 se puede apreciar que el plano de la velocidad es el “negativo” del plano de la corriente de campo excepto para las regiones donde la tensión de inducido baja de su valor nominal. Puede llegarse a esta misma conclusión de un solo vistazo al mapa de correlaciones correspondiente en la figura 7.14. También 7.3. DATA MINING DE PROCESOS INDUSTRIALES alta negativa 1 0.8 0.6 0.4 0.2 0 alta baja 1 0.8 0.6 0.4 0.2 0 200 400 Va 600 no 0.8 0.6 0.4 0.2 0 −2 0 Ia 0 Laminando 1 2 0.6 0.4 0.2 40 funcionando 0.8 0.6 0.4 0.2 0 −1 alta 0.8 5000 no−funcionando 1 Degree of membership si 1 media 0 −5000 −2 1 Degree of membership 0 Degree of membership cero media Degree of membership media Degree of membership Degree of membership baja 1 113 60 80 100 Ifi muy−baja baja media 120 140 alta muy−alta 0.8 0.6 0.4 0.2 0 −1 0 Control 1 2 −1 0 1 2 3 Velocidad 4 5 Figura 7.13: Funciones de pertenencia para el caso del tren de laminación. puede observarse la correlación directa (positiva) entre la tensión de inducido Va y la velocidad ω en la región complementaria de la anterior, y lo que puede considerarse una no correlación global entre la tensión de inducido Va y la corriente de campo if . Todas estas relaciones son fruto del control con debilitamiento de campo del motor. Otras correlaciones como la globalmente positiva entre ia y Va se ven claramente reflejadas en la ecuación del motor (7.1) También es posible establecer hipótesis acerca del proceso por medio de los residuos cuando se aplica a datos de condiciones no presentes en los datos de entrenamiento. Las figuras 7.15 y 7.16 muestran parte de la laminación de una bobina con acero B085G99 y espesor objetivo 4,06 que no está presente en los datos de entrenamiento. De la proyección de la trayectoria de estado se puede deducir que esta laminación se parece más a las c, d y e. Sin embargo el vector de residuos revela algunas diferencias de esta nueva laminación con respecto a las mencionadas en las primeras muestras. La nueva situación se proyecta en la frontera entre sb6, cl1 y dl1. Ya que esa es una zona de altas distancias neuronales, la condición señalada por el SOM parece ser una situación intermedia resultante de la interpolación de dichas condiciones, y respecto a las cuales la corriente de inducido es ahora más alta y la corriente de campo es ligeramente más baja. 114 CAPÍTULO 7. RESULTADOS ia ia ia Va 1 1 0 Va ia −1 −1 Va Va 1 1 f a −1 i V f 1 a 1 0 ω ia 0 0 −1 ω Va 1 1 i ω f 1 0 1 −1 1 0 −1 ω if −1 0 −1 f f 0 −1 Va ω 1 i i 1 0 −1 Va if 0 −1 ia ω 1 0 0 i i ia if ωω 1 −1 1 0 0 0 0 −1 −1 −1 −1 Figura 7.14: Mapas de correlaciones para el motor de continua del tren de laminación. Ia Va If w 50 100 150 200 250 300 Tiempo (muestras) 350 400 450 500 Figura 7.15: Residuos de la laminación de prueba. 7.3. DATA MINING DE PROCESOS INDUSTRIALES 115 datos de prueba de laminación 0 5 10 15 20 25 30 35 40 45 0 5 10 15 20 25 30 35 40 45 Figura 7.16: Trayectoria sobre el mapa de distancias de la laminación de prueba. 116 CAPÍTULO 7. RESULTADOS Capı́tulo 8 Conclusiones 8.1. Conclusiones En esta tesis se propone un enfoque visual para supervisión de procesos, aplicando técnicas de visualización más allá de la simple monitorización mediante representación de la evolución de sus variables o los espectros de sus señales. Ası́, se describe la aplicación de técnicas de reducción de la dimensión para proyectar datos del proceso, con multitud de variables, en un espacio visualizable y cómo posteriormente se “cartografı́a” este espacio, relacionando cada zona con cada condición del proceso, pudiendo usar para este fin conocimiento expresable en forma de reglas difusas (mapas borrosos), modelos analı́ticos conocidos (mapas de modelos), casos conocidos —datos etiquetados— (mapas de activación) y correlaciones entre variables (mapas de correlaciones). Este enfoque también hace posible la extracción de nuevo conocimiento acerca del proceso (Data Mining) a través de este espacio de visualización, dejando todavı́a la puerta abierta a numerosas ideas dentro de esta misma lı́nea. Como ventaja de este enfoque frente a otros métodos automáticos de diagnóstico se puede mencionar la total claridad en la exposición de los mecanismos de inferencia durante el diagnóstico de fallos, puesto que ello es realizado en última instancia por un ser humano, al que, por medio de sofisticados métodos de visualización, se le ha facilitado enormemente la tarea de comprender los datos procedentes del proceso supervisado. El enorme potencial del enfoque de la visualización para la supervisión de procesos se debe a varias razones: Explota las capacidades pre-atención (pre-attentive) del ser humano, consiguiendo una transmisión instantánea de la información proveniente del proceso, de forma que se toma conocimiento de eventos ocurridos 117 118 CAPÍTULO 8. CONCLUSIONES en él sin la necesidad de la participación del razonamiento. Se adapta a la forma visual de razonar de las personas, lo que permite extraer nuevo conocimiento acerca del proceso fácilmente. Permite la homogeneización de muy diversas formas de conocimiento del ser humano a través de una representación visual unificada que permite conectar conceptos. 8.2. Aportaciones Son varias las aportaciones de esta tesis: Un enfoque visual global para la supervisión de procesos, que propone extender la aplicación de las técnicas de visualización a todos los ámbitos posibles de la supervisión de procesos, usándolas para homogeneizar conocimiento de diversos orı́genes y formas. Ası́, se han añadido nuevas técnicas a las propuestas parciales ya existentes en la aplicación de técnicas de visualización a la supervisión. Esto incluye la representación visual en un espacio común de modelos del proceso procedentes de dos formas de conocimiento: reglas, generalmente deducidas de la experiencia, y ecuaciones explı́citas, provenientes del conocimiento de leyes de la fı́sica. Esta idea se presentó en [22], para el 37th Annual IEEE Industry Applications Society Meeting, IAS’02. La primera de estas formas propuestas para representación de conocimiento se refiere a los mapas borrosos o mapas de inferencia borrosos, descritos en el apartado 4.5.5, que permiten representar en el plano de visualización aquellos estados del proceso que pueden expresarse en términos de reglas sencillas que relacionan las caracterı́sticas del proceso. Los mapas borrosos fueron presentados en [21], para la Second Conference of the European Society for Fuzzy Logic and Technology, EUSFLAT 2001. El segundo de los métodos propuestos para representación de conocimiento corresponde con los mapas de modelos (analı́ticos), abordados en el apartado 4.5.6, que permiten representar en el plano de visualización los estados que se ajustan a ecuaciones explı́citas que relacionan las caracterı́sticas del proceso. Los mapas de modelos fueron presentados en [27], en International Federation of Automatic Control 15th IFAC World Congress. 8.2. APORTACIONES 119 En esta tesis se definen las correlaciones locales, una forma de calcular correlaciones en distintas zonas del espacio de los datos que aporta una descripción local de las propiedades estadı́sticas de segundo orden. Esto hace idónea su aplicación para la descripción de conjuntos de datos con dependencias no lineales, tales como los generados por procesos no lineales en distintos puntos de funcionamiento. Las correlaciones locales constituyen propiedades locales en el espacio de entrada que admiten representación en el espacio de visualización. Como consecuencia de ello, se propone otra técnica que permite extraer nuevo conocimiento e identificar nuevos estados a través de la visualización en el “mapa del proceso” de las correlaciones existentes entre las variables del proceso para todos sus puntos de funcionamiento. Esa idea, constituida por los mapas de correlaciones, descritos en el apartado 4.5.7, fue presentada en [25], en la International Conference on Artificial Neural Networks (ICANN’02), y posteriormente aparece publicada en Lecture Notes in Computer Science. Por otro lado, aunque se ha hecho hincapié en el uso de técnicas de proyección concretas (SOM, KR-SOM, GTM), en el apartado 4.3 y en el capı́tulo 5 se han dado unas pautas que facilitan la elección de otras técnicas de proyección tanto para la visualización (apdo. 4.3) como para la generación de residuos (cap. 5), haciendo un estudio y enumerando una serie de propiedades deseables en una técnica de proyección con vistas a supervisión y Data Mining Visual. Otra de las propuestas de esta tesis es una formalización, en el capı́tulo 6, del uso de técnicas de visualización aplicadas a supervisión en términos de una metodologı́a estándar de Data Mining (CRISPDM). Finalmente todas estas aportaciones se han completado con una implementación software real de este paradigma de supervisión por medio de técnicas de Data Mining Visual, la aplicación MAPREX, descrita en el capı́tulo 6, cuyas posibilidades se han visto potenciadas por el uso de un sistema hardware (computador) portable, que permite la implantación inmediata de un sistema de supervisión polivalente, permanente o no, en cualquier lugar de la planta. El sistema MAPREX fue presentado en [20], en International Federation of Automatic Control 15th IFAC World Congress. 120 CAPÍTULO 8. CONCLUSIONES 8.3. Lı́neas futuras Existen todavı́a muchas lı́neas abiertas en el enfoque visual para supervisión de procesos: Todavı́a hay propiedades encerradas en la forma del subespacio topológico —que representa al proceso en el espacio de caracterı́sticas— que podrı́an ser representadas en el espacio de visualización. Un ejemplo serı́an los valores propios de las matrices de correlaciones locales, que pueden desvelar la dimensionalidad intrı́nseca del proceso también de forma local. La generación de residuos a partir de modelos en datos todavı́a presenta muchas incógnitas. Entre las posibles vı́as de investigación serı́a cómo puede eliminarse la hipótesis de la alta dimensionalidad del espacio de caracterı́sticas o un método de cálculo exacto del vector de fallo aditivo. Otra lı́nea en las que las técnicas de visualización se revelan prometedoras es el diseño de sensores virtuales. El Grupo de Visualización de Procesos Complejos del Área de Ingenierı́a de Sistemas y Automática de la Universidad de Oviedo ha abordado en más de un proyecto el diseño de sensores virtuales [73], para lo cual también se están comenzando a aplicar estas técnicas de Data Mining Visual, y que están demostrando un gran potencial aplicadas a todos los pasos del diseño: para la verificación de los datos, la comprensión de los mismos, para la selección de caracterı́sticas, para la evaluación del sensor virtual, etc. Algunas de las aportaciones de esta tesis no han tenido todavı́a implementación en un sistema como MAPREX: mapas de modelos, mapas borrosos. Queda, por tanto, como lı́nea futura la verificación de su utilidad on line sobre un proceso real. La única forma en la que se ha considerado la información dinámica en las señales, tanto respecto a desarrollo teórico como a implementación en MAPREX, ha sido en las caracterı́sticas espectrales. Se podrı́a pensar en considerar la dinámica de las señales en forma de derivadas, principalmente pensando en la realización de mapas de modelos de ecuaciones diferenciales (o en diferencias). Es posible complementar las técnicas de visualización con las técnicas totalmente automáticas de supervisión. No está todavı́a implementada en MAPREX una etapa posterior con técnicas puramente automáticas de machine learning que evita la atención continua de un operario sobre 8.3. LÍNEAS FUTURAS 121 el sistema de monitorización. El enfoque visual aportarı́a la flexibilidad que proporcionan los resultados fácil y completamente interpretables por un ser humano, y que le permitirı́a contradecir en última instancia los diagnósticos del sistema automático si no está de acuerdo con ellos, además de tratar los casos que no han sido considerados en dicho sistema automático. 122 CAPÍTULO 8. CONCLUSIONES Apéndice A Nomenclatura x y Smi →gi Sgi →mi gi mi mij {xk }k=1,...,K Ai c(k) φ hij τ (gi ) f (x) i wk (y) Punto en el espacio de caracterı́sticas. Vector de caracterı́sticas. Punto en el espacio de visualización. Proyección del espacio de caracterı́sticas al espacio de visualización. Proyección del espacio de visualización al espacio de cracterı́sticas. Puntos de rejilla regular en el espacio de visualización. Puntos correspondientes a los gi en el espacio de caracterı́sticas. Componente j del vector mi . Conjunto de muestras en el espacio de caracterı́sticas. Valores del mapa de activación correspondientes a los puntos gi del espacio de visualización. Neurona ganadora del SOM para el dato xk . Función base radial. Función escalar de núcleo de campo receptivo en la posición de la neurona j respecto a la neurona i. Valor de mapa borroso en el punto gi del espacio de visualización. Modelo (parcial) del proceso (analı́tico o FIS) función del vector de caracterı́sticas. Residuo del modelo f en el punto gi del espacio de caracterı́sticas. También residuo del modelo fi . Ponderación del punto xk para el cálculo de media y matriz de covarianzas locales en el punto y del espacio de visualización. 123 124 σ µ(y) C(y) cij R(y) rij x̂ S(x) e ξ if ia Va Te ω Ra La APÉNDICE A. NOMENCLATURA Ancho de funciones de núcleo (funciones base radiales) como Φ y wk . Media local en el punto y del espacio de visualización. Matriz de covarianzas locales en el punto y del espacio de visualización. Elementos de la matriz C(y). Matriz de correlaciones locales en el punto y del espacio de visualización. Elementos de la matriz R(y). Residuo vectorial. Vector de caracterı́sticas estimado por un modelo. Modelo basado en datos (concretamente por medio de técnica de proyección). Error de modelado, equivalente a kk. Variable aleatoria que genera los valores del vector de caracterı́sticas cuando se usa un modelo probabilı́stico del proceso. Corriente de campo. Corriente de inducido. Tensión de inducido. Par generado por el motor eléctrico. Velocidad angular de giro. Resistencia del bobinado de inducido. Inductancia del bobinado de inducido. Bibliografı́a [1] Esa Alhoniemi, Johan Himberg y Juha Vesanto. Probabilistic measures for responses of self-organizing map units. En H. Bothe, E. Oja, E. Massad y C. Haefke, editores, International ICSC Congress on Computational Intelligence Methods and Applications (CIMA ’99), páginas 286–290. ICSC Academic Press, 1999. [2] Neil Arthur y Jim Penman. Induction machine condition monitoring with higher order spectra. IEEE Transactions on Industrial Electronics, 47(5):1031–1041, octubre 2000. [3] Peter Ballé y Rolf Isermann. Fault detection and isolation for nonlinear processes based on local linear fuzzy models and parameter estimation. En Proceedings of the American Control Conference, páginas 1605– 1609. Philadelphia, Pennsylvania, 1998. [4] Michèle Basseville y Igor V. Nikiforov. Detection of Abrupt Changes: Theory and Application. Prentice-Hall, 1993. [5] Hans-Ulrich Bauer y Klaus R. Pawelzik. Quantifying the neighborhood preservation of self-organizing feature maps. IEEE Transactions on Neural Networks, 3(4):570–579, julio 1992. [6] R. Beguenane. Induction motors thermal monitoring by means of rotor resistance identification. IEEE Transactions on Energy Conversion, 14(3):566–570, septiembre 1999. [7] R. Bellman. Adaptive Control Processes: A Guided Tour . Princeton University Press, New Jersey, 1961. [8] Mohamed El Hachemi Benbouzid. A review of induction motors signature analysis as a medium for faults detection. IEEE Transactions on Industrial Electronics, 47(5):984–993, octubre 2000. 125 126 BIBLIOGRAFÍA [9] Giovanni Betta y Antonio Pietrosanto. Instrument fault detection and isolation: State of the art and new research trends. IEEE Transactions on Instrumentation and Measurement, 49(1):100–107, febrero 2000. [10] Ella Bingham y Heikki Mannila. Random projection in dimensionality reduction: applications to image and text data. En 7th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD-2001 , páginas 245–250. San Francisco, CA, USA, 2001. [11] C. Bishop, M. Svensén y C. Williams. Magnification factors for the GTM algorithm. En IEE Fifth International Conference on Artificial Neural Networks, páginas 64–69. Cambridge, U.K., julio 1997. [12] Christopher M. Bishop. Neural Networks for Pattern Recognition. Oxford University Press, 1995. [13] Christopher M. Bishop, Markus Svensen y Christopher K. I. Williams. GTM: The generative topographic mapping. Neural Computation, 10(1):215–234, 1998. [14] Piero P. Bonissone, Yu-To Chen, Kai Goebel y Pratap S. Khedkar. Hybrid soft-computing systems: Industrial and commercial applications. Proceedings of the IEEE , 87(9):1641–1667, septiembre 1999. [15] Stuart K. Card, Jock D. MacKinlay y Ben Shneiderman. Readings in Information Visualization: Using Vision To Think . Morgan Kaufmann Publishers, San Francisco, 1998. [16] Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer y Rüdiger Wirth. CRISP-DM 1.0, stepby-step data mining guide. http://www.crisp-dm.org, 2000. [17] Tommy W.S. Chow y Hong-Zhou Tan. HOS-based nonparametric and parametric methodologies for machine fault detection. IEEE Transactions on Industrial Electronics, 47(5):1051–1059, octubre 2000. [18] Albert Cohen y Jelena Kovačević. Wavelets: The mathematical background. Proceedings of th IEEE , 84(4):514–522, abril 1996. [19] Pierre Comon. Independent Component Analysis, a new concept ? Signal Processing, 36(3):287–314, abril 1994. Special issue on HigherOrder Statistics. BIBLIOGRAFÍA 127 [20] Abel A. Cuadrado, Ignacio Dı́az, Alberto B. Diez, Manuel Domı́nguez, Juan A. González y Faustino Obeso. MAPREX: A SOM-based condition monitoring system. En International Federation of Automatic Control 15th IFAC World Congress. Barcelona, Spain, 2002. [21] Abel A. Cuadrado, Ignacio Dı́az, Alberto B. Diez, Faustino Obeso y Juan A. González. Fuzzy inference maps for condition monitoring with self-organizing maps. En Second Conference of the European Society for Fuzzy Logic and Technology, EUSFLAT 2001 , páginas 55–58. Leicester, UK, 2001. [22] Abel A. Cuadrado, Ignacio Dı́az, Alberto B. Diez, Faustino Obeso y Juan A. González. Visual data mining and monitoring in steel processes. En 37th Annual IEEE Industry Applicatons Society (IAS) Meeting, páginas 493–500. Pittsburgh, PA, USA, 2002. [23] Pierre Demartines y Jeanny Herault. Curvilinear component analysis: a self-organizing neural network for nonlinear mapping of data sets. IEEE Transactions on Neural Networks, 8(1):148–154, enero 1997. [24] Duane DeSieno. Adding a conscience to competitive learning. En Proc. ICNN’88, Int. Conf. on Neural Networks, páginas 117–124. IEEE Service Center, Piscataway, NJ, 1988. [25] Ignacio Dı́az, Abel A. Cuadrado y Alberto B. Diez. Correlation visualization of high dimensional data using topographic maps. En International Conference on Artificial Neural Networks, ICANN’02 (Madrid, Spain), Lecture Notes in Computer Science vol. 2415 , páginas 1005– 1010. Springer, 2002. [26] Ignacio Dı́az, Alberto B. Diez y Abel A. Cuadrado. Complex process visualization through continuous self organizing maps using radial basis functions. En International Conference on Artificial Neural Networks, ICANN’01, (Viena, Austria), Lecture Notes in Computer Science vol. 2130 , páginas 443–450. Springer, 2001. [27] Ignacio Dı́az, Alberto B. Diez, Abel A. Cuadrado y Manuel Domı́nguez. Prior knowledge integration in self organizing maps for complex process supervision. En International Federation of Automatic Control 15th IFAC World Congress. Barcelona, Spain, 2002. [28] Ignacio Dı́az, Alberto B. Diez, Abel A. Cuadrado, Armandino Fombona, Faustino Obeso y Juan A. González. Kernel regression interpolation 128 BIBLIOGRAFÍA in SOM-based process condition monitoring. En DIAGNOS’2000 . La Habana, 2000. [29] Ignacio Dı́az, Alberto B. Diez González, Abel A. Cuadrado Vega y José M. Enguita González. RBF approach for trajectory interpolation in self-organizing map based condition monitoring. En J.M. Fuertes, editor, Proceedings of the 7th IEEE International Conference on Emerging Technologies and Factory Automation (ETFA’99), páginas 1003–1010. UPC, Barcelona, Catalonia, Spain, 1999. [30] Ignacio Dı́az y Jaakko Hollmén. Residual generation and visualization for understanding novel process conditions. En International Joint Conference on Neural Networks (IJCNN, WCCI’2002). Honolulu, Hawaii, USA, 2002. [31] Ignacio Dı́az Blanco. Detección e Identificación de Fallos en Procesos Industriales Mediante Técnicas de Procesamiento Digital de Señal y Redes Neuronales. Aplicación al Mantenimiento Predictivo de Accionamientos Eléctricos. Tesis Doctoral, Universidad de Oviedo, 2000. [32] Richard O. Duda, Peter E. Hart y David G. Stork. Pattern Classification. Wiley-Interscience, 2000. [33] Alberto J. Ferrer Riquelme. Aplicación del control estadı́stico multivariante. Automática e Instrumentación, (326):62–72, febrero 2002. [34] Fiorenzo Filippetti, Giovanni Franceschini, Carla Tassoni y Peter Vas. Recent developments of induction motor drives fault diagnosis using AI techniques. IEEE Transactions on Industrial Electronics, 47(5):994– 1004, octubre 2000. [35] Kenneth D. Forbus. Qualitative process theory. Artificial Intelligence, 24:85–168, 1984. [36] Toshio Fukuda y Takanori Shibata. Theory and applications of neural networks for industrial control systems. IEEE Transactions on industrial electronics, 39(6):472–489, diciembre 1992. [37] J.J. Gertler. Survey of model-based failure detection and isolation in complex plants. IEEE Control Systems Magazine, 8(6):3–11, diciembre 1988. [38] J.J. Gertler. An evidential reasoning extension to quantitative modelbased failure diagnosis. IEEE Transactions on Systems, Man and Cybernetics, 22(2):275–289, marzo 1992. BIBLIOGRAFÍA 129 [39] Tom Harris. A Kohonen S.O.M. based, machine health monitoring system which enables diagnosis of faults not seen in the training set. En International Joint Conference on Neural Networks, IJCNN’93 (Nagoya, Japan), páginas 947–950. IEEE Service Center, Piscataway, NJ, 1993. [40] T. Hastie y W. Stuetzle. Principal curves. Journal of the American Statistical Association, 84:502–516, 1989. [41] Simon Haykin. Neural Networks, a Comprehensive Foundation. Prentice-Hall, Inc., 1999. [42] Akram Hossain, Zafar Ahmed Choudhury y Suzali Suyut. Statistical process control of an industrial process in real time. IEEE Transactions on Industry Applications, 32(2):243–249, marzo 1996. [43] A. Hyvärinen y E. Oja. Independent component analisis: algorithms and applications. Neural Networks, 13(4–5):411–430, 2000. [44] Rolf Isermann. On fuzzy logic applications for automatic control, supervision, and fault diagnosis. IEEE Transactions on Systems, Man and Cybernetics, Part A, 28(2):221–235, marzo 1998. [45] Rolf Isermann y Peter Ballé. Terminology in the field of supervision, fault detection and diagnosis. Technische Universität Darmstadt, World Wide Web. http://w3.rt.e-technik.tu-darmstadt. de/institut/terminology.en.html. [46] Rolf Isermann y Mihaela Ulieru. Integrated fault detection and diagnosis. En IEEE International Conference on Systems, Man and Cybernetics. “Systems Engineering in the Service of Humans”, tomo 1, páginas 743–748. 1993. [47] Yumi Iwasaki. Real-world applications of qualitative reasoning. IEEE Expert Intelligent Systems and their Applications, páginas 16–21, mayo 1997. [48] J.-S.R. Jang, C.-T. Sun y E. Mizutani. Neuro-Fuzzy and Soft Computing. A Computational Approach to Learning and Machine Intelligence.. Prentice Hall, 1997. [49] Samuel Kaski. Dimensionality reduction by random mapping: Fast similarity computation for clustering. En International Joint Conference on Neural Networks, IJCNN’98 , páginas 413–418. IEEE Service Center, Piscataway, NJ, Anchorage, Alaska, 1998. 130 BIBLIOGRAFÍA [50] Daniel A. Keim. Designing pixel-oriented visualization techniques: Theory and applications. IEEE Transactions on Visualization and Computer Graphics, 6(1):59–78, enero–marzo 2000. [51] Daniel A. Keim. Visual exploration of large data sets. Communications of the ACM , 44(8):39–44, agosto 2001. [52] Stuart K. Kim et al. A gene expression map for caenorhabditis elegans. Science, 293:2087–2092, septiembre 2001. [53] Teuvo Kohonen. The self-organizing map. Proceedings of the IEEE , 78(9):1464–1480, septiembre 1990. [54] Teuvo Kohonen. Self-Organizing Maps. Springer-Verlag, 1995. [55] Teuvo Kohonen, Samuel Kaski, Krista Lagus, Jarkko Salojärvi, Jukka Honkela, Vesa Paatero y Antti Saarela. Self organization of a massive document collection. IEEE Transactions on Neural Networks, 11(3):574–585, mayo 2000. [56] Teuvo Kohonen, Erkki Oja, Olli Simula, Ari Visa y Jari Kangas. Engineering applications of the self-organizing map. Proceedings of the IEEE , 84(10):1358–1384, octubre 1996. [57] Benjamin Kuipers. Qualitative simulation. Artificial Intelligence, 1986. Reprinted in Qualitative Reasoning about Physical Systems, ed. Daniel Weld and J. De Kleer, Morgan Kaufmann, 1990, p.236-260 , 26:289– 338, 1986. [58] Chin-Teng Lin y C.S. George Lee. Neural Fuzzy Systems: A NeuroFuzzy Synergism to Intelligent Systems. Prentice-Hall, 1996. [59] Yi Lu, Tie Qi Chen y Brennan Hamilton. A fuzzy system for automotive fault diagnosis: Fast rule generation and self-tuning. IEEE Transactions on Vehicular Technology, 49(2):651–660, marzo 2000. [60] Man-Wai Mak y Sun-Yuan Kung. Estimation of elliptical basis function parameters by the EM algorithm with application to speaker verification. IEEE Transactions on Neural Networks, 11(4):961–969, julio 2000. [61] Richard J. Mammone, Xiaoyu Zhang y Ravi P. Ramachandran. Robust speaker recognition. A feature-based approach. IEEE Signal Processing Magazine, páginas 58–71, septiembre 1996. BIBLIOGRAFÍA 131 [62] Jianchang Mao y Anil K. Jain. Artificial neural networks for feature extraction and multivariate data projection. IEEE Transactions on Neural Networks, 6(2):296–316, marzo 1995. [63] E.B. Martin, A.J. Morris y J. Zhang. Process perfomance monitoring using multivariate statistical process control. IEE Proc.-Control Theory Appl., 143(2):132–144, marzo 1996. [64] Andrew Craig McCormick. Cyclostationary and Higher-Order Statistical Signal Processing Algorithms for Machine Condition Monitoring. Tesis Doctoral, Department of Electronic and Electrical Engineering. University of Strathclyde, mayo 1998. [65] Jerry M. Mendel. Tutorial on higher order statistics (spectra) in signal processing and system theory: Theoretical results and some applications. Proceedings of the IEEE , páginas 278–304, 1991. [66] Sushmita Mitra y Yoichi Hayashi. Neuro fuzzy rule generation: Survey in soft computing framework. IEEE Transactions on Neural Networks, 11(3):748–768, mayo 2000. [67] A. Murray y J. Penman. Extracting useful higher order features for condition monitoring using artificial neural networks. IEEE Transactions on Signal Processing, 45(11):2821–2828, noviembre 1997. [68] Y. Nakamori y M. Ryoke. Identification of fuzzy prediction models through hyperellipsoidal clustering. IEEE Transactions on Systems, Man, and Cybernetics, 24(8):1153–1173, agosto 1994. [69] Katsuhiko Ogata. Ingenierı́a de Control Moderna. Prentice Hall, 1998. [70] R.J. Patton, C.J. Lopez-Toribio y F.J. Uppal. Artificial intelligence approaches to fault diagnosis. En IEE Colloquium on Condition Monitoring Machinery, External Structures and Health (Ref. No. 1999/034). abril 1999. [71] W. Pedrycz y H. C. Card. Linguistic interpretation of self-organizing maps. En IEEE Int. Conf. on Fuzzy Systems, páginas 371–378. IEEE Service Center, Piscataway, NJ, 1992. [72] J. Penman y A. Stavrou. Broken rotor bars: their effect on the transient performance of induction machines. IEE Procceedings on Electric Power Applications, 143(6), noviembre 1996. 132 BIBLIOGRAFÍA [73] Alberto Pintado Sánchez, Ignacio Dı́az Blanco, Abel A. Cuadrado Vega, Alberto B. Diez González, Faustino Obeso Carrera y Vanesa Lobato Rubio. Virtual sensor design for coating thickness estimation in a hot dip galvanising line based on interpolated SOM local models. En 28th Annual Conference of the IEEE Industrial Electronics Society (IECON’02). Sevilla, España, 2002. [74] Tomaso Poggio y Federico Girosi. Networks for approximation and learning. Proceedings of the IEEE , 78(9):1481–1497, septiembre 1990. [75] John G. Proakis y Dimitris G. Manolakis. Digital Signal Processing. Principles, Algorithms and Applications. Prentice Hall, 1998. [76] Mysore Ramaswamy, Sumit Sarkar y Ye-Sho Chen. Using directed hypergraphs to verify rule-based expert systems. IEEE Transactions on Knowledge and Data Engineering, 9(2):221–237, marzo–abril 1997. [77] H. Ritter. Parametrized self-organizing maps. En S. Gielen and B. Kappen, editors, ICANN93-Proceedings, páginas 568–575. Springer Verlag, Berlin, Amsterdam, 1993. [78] R. A. Roberts y C. T. Mullis. Digital signal processing. AddinsonWesley, 1987. [79] Sam T. Roweis y Lawrence K. Saul. Nonlinear dimensionality reduction by locally linear embedding. Science, 290:2323–2326, diciembre 2000. [80] Bernhard Schölkopf. Support Vector Learning. Tesis Doctoral, Technischen Universitat Berlin, septiembre 1997. [81] Bernhard Schölkopf, Christopher J.C. Burges y Alexander J. Smola, editores. Advances in Kernel Methods: Support Vector Learning. MIT Press, 1999. [82] Bernhard Schölkopf, Alexander Smola y Klaus-Robert Müller. Nonlinear component analysis as a kernel eigenvalue problem. Neural Computation, 10(5):1299–1319, 1998. [83] O. Simula y E. Alhoniemi. SOM based analysis of pulping process data. En Engineering Applications of Bio-Inspired Artificial Neural Networks. International Work-Conference on Artificial and Natural Neural Networks, IWANN’99. Proceedings, Vol.2 (Lecture Notes in Computer Science Vol.1607), páginas 567–77. Springer-Verlag, Berlin, Germany, 1999. BIBLIOGRAFÍA 133 [84] Timo Sorsa, Hiekki N. Koivo y Hannu Kovisto. Neural networks in process fault diagnosis. IEEE Transacions on Systems Man and Cybernetics, 21(4):815–849, julio–agosto 1991. [85] Donald F. Specht. A general regression neural network. IEEE Transactions on Neural Networks, 2(6):568–576, noviembre 1991. [86] Michio Sugeno y Takahiro Yasukawa. A fuzzy-logic-based approach to qualitative modeling. IEEE Transactions on Fuzzy Systems, 1(1):7–31, febrero 1993. [87] Johan Fredrik Markus Svensen. The Generative Topographic Mapping. Tesis Doctoral, Aston University, abril 1998. [88] Peter J. Tavner y James Penman. Condition Monitoring of Electrical Machines. Research Studies Press Ltd., John Wiley and Sons Inc., 1987. [89] Joshua B. Tenenbaum, Vin de Silva y John C. Langford. A global geometric framework for nonlinear dimensionality reduction. Science, 290:2319–2323, diciembre 2000. [90] Sergios Theodoridis y Konstantinos Koutroumbas. Pattern Recognition. Academic Press, 1999. [91] M. Tipping y C. Bishop. Mixtures of probabilistic principal component analyzers. Neural Computation, 11(2):443–482, 1999. [92] Zekeriya Uykan, Cüneyt Güzeliş, M. Ertugrul Çelebi y Heikki N. Koivo. Analysis of input-output clustering for determining centers of RBFN. IEEE Transactions on Neural Networks, 11(4):851–858, julio 2000. [93] Juha Vesanto. SOM-based data visualization methods. Intelligent Data Analysis, 3(2):111–126, 1999. [94] Juha Vesanto. Data Exploration Process Based on the Self-Organizing Map. Tesis Doctoral, Helsinki University of Technology, 2002. [95] Marcos R. Vescovi, Marcelo M. Lamego y Adam Farquhar. Modeling and simulation of a complex industrial process. IEEE Expert Intelligent Systems and their Applications, páginas 42–46, mayo 1997. [96] Thomas Villmann, Ralph Der, Michael Herrmann y Thomas M. Martinetz. Topology preservation in self-organizing feature maps: Exact definition and measurement. IEEE Transactions on Neural Networks, 8(2):256–266, marzo 1997. 134 BIBLIOGRAFÍA [97] Jörg Walter. PSOM network: Learning with few examples. En Proc. Int. Conf. On Robotics and Automation (ICRA) IEEE . 1998. [98] Jörg Walter y Helge Ritter. Rapid learning with parameterized selforganizing maps. Neurocomputing, 12:131–153, 1996. [99] Zhenyuan Wang, Yilu Liu y Paul J. Griffin. Neural net and expert system diagnose transformer faults. IEEE Computer Applications in Power , páginas 50–55, enero 2000. [100] Paul J. Werbos. Neurocontrol and elastic fuzzy logic: Capabilities, concepts, and applications. IEEE Transactions on Industrial Electronics, 40(2):170–180, abril 1993. [101] James R. Whiteley y James F. Davis. Qualitative interpretation of sensor patterns. IEEE Expert, páginas 54–63, abril 1993. [102] Bernard Widrow. 30 years of adaptive neural networks: Perceptron, madaline, and backpropagation. Proceedings of the IEEE , 78(9):1415– 1440, septiembre 1990. [103] David J. H. Wilson y George W. Irwin. RBF principal manifolds for process monitoring. IEEE Transactions on Neural Networks, 10(6):1424–1434, noviembre 1999. [104] Seongkyu Yoon y John F. MacGregor. Fault diagnosis with multivariate statistical models part I: using steady state fault signatures. Journal of Process Control , 11:387–400, 2001. [105] Alexander Ypma y Robert P.W. Duin. Novelty detection using selforganizing maps. En International Conference on Neural Information Processing (ICONIP’97), páginas 1322–1325. Dunedin, New Zealand, 1997.

Supervisión de Procesos Complejos mediante Técnicas de Data

Documentos relacionados

Productos

Apoyo

Supervisión de Procesos Complejos mediante Técnicas de Data

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib